自然语言处理 # 中文分词技术 概述

定义

中文分词(Chinese Word Segmentation)就是将连续的字序列按照一定的规范重新组合成词序列的过程。

Ques:为什么要分
Ans: 词是最小的能够独立运用的语言单位
Ques:什么是独立运用呢?
Ans:它可以解释为“单独做句法成分或单独起语法作用” 1


基本信息

在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多 2
中文在基本文法上有以下特殊性:

  1. 与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
  2. 在中文里,“词”和“词组”边界模糊
    现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。

中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。


分词算法概述

中文分词方法的基本原理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。
现有的分词算法可分为三大类:基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法分词与标注相结合的一体化方法

基于字符串匹配的分词方法

又称为机械分词方法,它需要有一个初始的充分大的词典,然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来。按扫描方向的不同,字符串匹配分词方法可以分为正相匹配和逆向匹配;按照不同长度的匹配优先度可以划分为最大匹配和最小匹配。 3

常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

正向最大匹配思想 MM

1 从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
2 查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。
若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。

举个栗子↓

假设我们要切分的句子为“南京市长江大桥”,字典中最长的元素长度为5,则先取待切分句子的前5个字符“南京市长江”。
字典中没有元素与之匹配,长度减一,则变成“南京市长”,匹配成功。 
对剩余三个字“江大桥”再次进行正向最大匹配,会切成“江”、“大桥”; 
整个句子切分完成为:南京市长、江、大桥;
逆向最大匹配算法 RMM

该算法是正向最大匹配的逆向思维,匹配不成功,将匹配字段的最前一个字去掉,实验表明,逆向最大匹配算法要优于正向最大匹配算法。
还是上一个栗子:

“南京市长江大桥”的逆向最大匹配: 
1.取出“南京市长江大桥”的后5个字“市长江大桥”,字典中无匹配元素,将字符“市”去掉,发现词典中有匹配,切割下来; 
2.对剩余的“南京市”进行分词,整体结果为:南京市、长江大桥
双向最大匹配法 Bi-directction Matching method,BM

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。据SunM.S. 和 Benjamin K.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到 的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最 大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在 4

还是上面的例子,双向最大匹配的划分结果为:南京市长、南京市、长江大桥、江、大桥。
设立切分标志法

切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包 括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非 自然切分标志。

最佳匹配(OM,分正向和逆向)

对分词词典按词频大小顺序排列,并注明长度,降低时间复杂度。
优点:易于实现;
缺点:匹配速度慢。对于未登录词的补充较难实现。缺乏自学习。

逐字匹配算法

基于Trie树(字典树)的逐字匹配算法。建立在树型词典机制上,匹配的过程是从索引树的根结点依次同步匹配待查词中的每个字,可以看成是对树某一分枝的遍历。
该算法的分词速度较快,但树的构造和维护比较复杂。一种改进的算法是和最大匹配算法相结合,吸取最大匹配算法词典结构简单、TRIE索引树算法查询速度快的优点。因此词典结构和最大匹配词典构造机制相似,区别在于词典正文前增加了多级索引。匹配过程类似TRIE索引树进行逐字匹配,在性能上和TRIE索引树相近。

神经网络分词算法

尹峰等提出了以神经网络理论(BP模型)为基础的汉语分词模型,为汉语分词研究开辟了新途径。在实用中,BP算法存在收敛速度慢、易陷 入局部最小等缺点,严重妨碍了分词速度。一种改进算法采用Levenbery2Marquart 算法来加速收敛速度,加快了收敛速度利用神经网络的基本原理进行分词。 5

联想—回溯法

联想—回溯法(Association-Backtracking Method,简称 AB 法)。这种方法要求建立三个知识库——特征词词库、实词词库和规则库。首先将待切分的汉字字符串序列按特征词词库分割为若干子串,子串可以是词,也可以是 由几个词组合而成的词群;然后,再利用实词词库和规则库将词群再细分为词。切词时,要利用一定的语法知识,建立联想机制和回溯机制。联想机制由联想网络和联想推理构成,联想网络描述每个虚词的构词能力,联想推理利用相应的联想网络来判定所描述的虚词究竟是单独成词还是作为其他词中的构词成分。回溯机制主要用于处理歧义句子的切分。联想—回溯法虽然增加了算法的时间复杂度和空间复杂度,但这种方法的切词正确率较高,是一种行之有效的方法。

N-最短路径分词算法

基本思想是根据词典,找出字串中所有可能的词,构造词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权 值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1,第2,…,第 i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第 i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。N一最短路径方法实际上是最短路径方法和全切分的有机结 合。该方法的出发点是尽量减少切分出来的词数,这和最短路径分词方法是完全一致的;同时又要尽可能的包含最终结果,这和全切分的思想是共通的。通过这种综 合,一方面避免了最短路径分词方法大量舍弃正 确结果的可能,另一方面又大大解决了全切分搜索空间过大,运行效率差的弊端。N一最短路径方法相对的不足就是粗分结果不唯一 ,后续过程需要处理多个粗分结果。 但是 ,对于预处理过程来讲,粗分结果的高召回率至关重要。因为低召回率就意味着没有办法 再作后续的补救措施。预处理一旦出错,后续处理只能是一错再错 ,基本上得不到正确的最终 结果。而少量的粗分结果对后续过程的运行效率影响不会太大,后续处理可以进一步优选排 错,如词性标注、句法分析等。

除上面之外,还有基于词频统计的切词法基于期望的切词法有穷多级列举法等。

基于理解的分词方法

通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统句法语义子系统总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段

  1. 专家系统分词法。从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出 来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
  2. 神经网络分词法。该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果。
  3. 神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率 6
基于统计的分词方法

主要思想:每个字都是词的最小单元,如果相连的字在不同的文本中出现的频率越多,这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性,当频率高于某个阈值时,我们可以认为这些字可能会构成一个词。

主要统计模型: N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场(Conditional Random Fields,CRF)等

优势:在实际运用中常常将字符串匹配分词和统计分词结合使用,这样既体现了匹配分词速度快、效率高的优点,同时又能运用统计分词识别生词、自动消除歧义等方面的特点。

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

各种分词方法的优劣对比 7


中文分词存在的难题

在中文分词过程中,有两大难题一直没有完全突破。

歧义识别

同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义组合型歧义
例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。
例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

基于字符串的分词算法:仅仅是跟一个电子词典进行比较,故不能进行歧义识别;
基于理解的分词算法:指通过理解字符串的含义,故有很强的歧义识别能力;
基于统计的分词算法:根据字符连续出现次数的多少,得到分词系列,故常常能够给出正确的分词系列选择,但是也有可能判断错误的情况。

新词识别

命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

基于字符串的分词算法:无法正确识别未登录词,因为这种算法仅仅与词典中存在的词语进行比较;
基于理解的分词算法:理解字符串的含义,从而有很强的新词识别能力;
基于统计的分词算法:这种算法对第二种未登录词有很强的识别能力,因为出现次数多,才会当作一个新词;对于第二类未登录词,这类词语有一定的规律,如姓名:“姓”+ 名字,如李胜利;机构:前缀+称谓,如希望集团;故需要结合一定的规则进行识别,仅仅统计方法难以正确识别。

其他
词典

基于字符串的分词算法:基本思路就是与电子词典进行比较,故电子词典是必须的。并且词典越大,分词的正确率越高,因为词典越大,未登录词越少,从而可以大大减少未登录词识别的错误;
基于理解的分词算法:理解字符串的含义,故不需要一个电子词典;
基于统计的分词算法:仅仅根据统计得到最终的结果,故电子词典不是必须的。

语料库

基于字符串的分词算法:分词过程仅仅与一个已经存在的电子词典进行比较,故不需要语料库;
基于理解的分词算法:理解字符串的含义,故不需要电子词典;
基于统计的分词算法:需要语料库进行统计训练,故语料库是必须的;且好的语料库是分词准确性的保证。

规则库

基于字符串的分词算法:分词过程仅仅与一个已经存在的电子词典进行比较,不需要规则库来进行分词;
基于理解的分词算法:规则是计算机进行理解的基础,故准确、完备的规则库是这种分词算法的前提;
基于统计的分词算法:根据语料库统计训练,故规则库不是必须的。

算法复杂度

基于字符串的分词算法:仅仅进行字符串的比较操作,故算法简单;
基于理解的分词算法:需要充分处理各种规则,故算法非常复杂;事实上到目前为止,还没有成熟的这类算法;
基于统计的分词算法:需要语料库进行训练,虽然算法也比较复杂,但是已经比较常见,故这种分词的复杂性比第一种大,比第二种容易。现在的实用分词系统都采用这种算法。

技术成熟度

基于字符串的分词算法:是最早出现也是最成熟的算法;
基于理解的分词算法:是最不成熟的一类算法,到目前为止还没有成熟的算法;
基于统计的分词算法:已经有多种成熟的这类算法,基本上能够满足实际的应用。
故技术成熟度:基于匹配的分词算法〉基于理解的分词算法〉基于统计的分词算法。

实施复杂性

同理,实施复杂性:基于理解的分词算法〉基于统计的分词算法〉基于匹配的分词算法。

分词准确性

到目前为止还没有一个准确的结论,不过从理论上说,基于理解的分词算法有最高的分词准确性,理论上有100%的准确性;而基于匹配的分词算法和基于统计的分词算法是一种"浅理解"的分词方法,不涉及真正的含义理解,故可能会出现错误,难以达到100%的准确性 5

分词速度

基于匹配的分词算法:算法简单,操作容易,故分词速度快,所以这种算法常常作为另外两种算法的预处理,进行字符串的粗分;
基于理解的分词算法:这种算法常常需要操作一个巨大的规则库,故速度最慢;
基于统计的分词算法:这种分词算法仅仅是与一个统计结果进行比较,故速度一般。
故一般的分词速度从快到慢依次为:基于匹配的分词算法〉基于统计的分词算法〉基于理解的分词算法。

分词技术的评价

分词正确率

书面汉语的文本可以看成是字符序列,分词的正确率直接影响更高一级的处理。现有的分词系统切分错误主要集中在歧义字段和专有名词(如人名、地名、机 构名和未登录词等)。为了获得分词系统切分正确率,应该进行整体测试,歧义测试和专业词测试。自动分词系统的切分正确率的基本公式为:
S = ∑ i = 1 3 β i S i S=\sum^3_{i=1}\beta_iS_i S=i=13βiSi
其中,S1,S2,S3分别为总体测试、歧义测试和专业词测试的正确率; β i \beta_i βi(i=1、2、3)为三种测试加的权值。

切分速度

切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用辅助手段, 诸如联想,基于规则,神经网络,专家系统等方法更应注意这一点。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。在人机 交互方式下处理歧义问题的策略和人机接口的设计,有时会严重地影响切分速度,这也是应考虑的因素。

功能完备性

自动分词方法除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。

易扩充性和可维护性

这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简 单性、结构性、完备性以及自描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重要的,因为这类软件需要不断提高与改进,使之适应中文信息处理的各种应用。

可移植性

可移植性是指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词方法不应该只能在一个环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广。


  1. https://baike.baidu.com/tashuo/browse/content?id=d276fc8ff138ce5c74e7683b&lemmaId=371496&fromLemmaModule=pcBottom ↩︎

  2. https://blog.csdn.net/sysu63/article/details/80185555 ↩︎

  3. https://baike.baidu.com/item/中文分词/371496?fr=aladdin ↩︎

  4. https://www.cnblogs.com/racaljk/p/7822304.html ↩︎

  5. https://blog.csdn.net/Yelbosh/article/details/45896051 ↩︎ ↩︎

  6. https://blog.csdn.net/xiaomin1991222/article/details/84803377 ↩︎

  7. https://blog.csdn.net/pengyuanyuankuang/article/details/84508045 ↩︎

自然语言处理-汉语分词技术概述
11-06
北大教授的课程ppt,阐述汉语分词的基本知识和基本方法对比等。
细说中文分词
一起记录GIS学习
03-20 4517
完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分词,包括最近在学习的聊天机器人、文本相似性等。可以说分词是自然语言大厦的地基,下面就让我们从它开始谈起。 什么是中文分词 中文分词就是将中文语句中的词汇按照使用时的...
中文分词基础原理
Levin的技术工厂
03-31 3371
工作这些年总会听到分词、字典、语义这些词,一直对分词这块不甚了解,最近正好公司在推行OKR,那么就给自己定了几个OKR,其中就有“了解业界两款java分词器并落地一份wiki“,目标相对来说比较容易达成,但是也要了解一些基本分词的原理,那么就有了这篇博客的原因。毕竟术业有专攻,平时的精力没有放在分词、NLP这些领域,这篇文章只描述一些基本的分词理论,用于备注。 什么是中文分词 一句话概括就是通过...
【算法竞赛】超简单的字符串分词 | 算法竞赛技巧
MuShan_bit的博客
02-18 355
【算法竞赛】超简单的字符串分词 | 算法竞赛技巧 1.利用cin特性(不读取空格) 2.利用字符串流拆分(默认) 3.stringstream提取int数据 4.c++ 实现 split
【动态规划】字符串-分词
It's the Climb
06-04 707
大致思路: 不要浮躁!静下心来仔细分析问题,给问题划分步骤:其实肯定是要把dict中一个词一个词地去比较是否为s的子串,那么主要就是两个点:①找到子串起始位置 ②对子串的长度进行规定以便与单词比较 所以,很可能就是两个循环的事情。现在要构思如何设计动态规划dp数组的含义:dp[i]==true表示0~i-1都可以分词,那么现在得从i开始看能不能子串从i这里开始能匹配上一个单词。 需要用...
NLP学习(二)中文分词技术
qq_30868737的博客
07-22 1393
运行平台: Windows Python版本: Python3.x IDE: PyCharm 一、 前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位。分词技术是词性标注、命名实体识别、关键词提取等技术的基础。本篇博文会主要介绍基于规则的分词、基于统计的分词、jieba库等内容。 一直在说中文分词,那中文分词和欧语系的分词有什么不同或者说是难点的呢? 主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界方面很难进行界定。比如,在英语中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分
python双向最大匹配算法_中文分词算法 之 基于词典的逆向最大匹配算法
weixin_36344862的博客
01-29 807
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示:publicstaticListsegReverse(Stringtext){Stackresul...
java对字符串进行分词并根据每个词出现的次数计算权重
梧桐树的博客
05-12 352
Lucene是一个基于Java语言开发的开源全文搜索引擎库。也就是说,它能够提供全文搜索、近似搜索、词法分析、查询解析以及 索引等多种文本处理功能。Lucene 作为一个 Java开发包,强大、高效、精确地完成各种搜索任务,深受Java开 发者的青睐。Lucene采用简单明了的接口,易于操作,任何一名开发工程师都可以快速上手。通过使用Lucene,开发人员可以轻松地实现文本搜索、语言处理,提高其软件产品的质量和价值。
【Python入门系列】第十八篇:Python自然语言处理和文本挖掘
JosieBook
07-24 1649
Python自然语言处理(Natural Language Processing,简称NLP)和文本挖掘是一门涉及处理和分析人类语言的学科。它结合了计算机科学、人工智能和语言学的知识,旨在使计算机能够理解、解释和生成人类语言。总之,Python自然语言处理和文本挖掘是一种利用Python编程语言进行处理和分析文本数据的技术。它结合了自然语言处理和机器学习技术,可以用于从文本中提取有用的信息、进行情感分析、词性标注、命名实体识别等任务。
自然语言处理(NLP)技术
qq_61914057的博客
08-31 219
5. 情感分析:分析文本中所包含的情感和观点,例如积极、消极或中性。1. 语音识别:将口述的语言转换为文本,例如智能助理(如Siri、Alexa、Google Assistant)和语音转录软件(如Dragon NaturallySpeaking)等。7. 语言模型:根据文本的上下文和语法规则,预测下一个单词或句子的可能性,例如给出一个单词序列,在机器翻译中预测下一个可能出现的单词。3. 情感分析:分析文本或语音中蕴含的情感色彩,例如对于一部电影的评论进行情感分析,以确定它是否受欢迎或受到批评。
中文分词_中文分词及其应用
weixin_39554290的博客
12-24 1712
一、中文分词原理中文分词是指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类,分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。(一)基于字符串匹配的分词方法基于字符串匹配的分词方法又称机械分词方法,它是按照一定的策略将需要分析的中文字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中...
自然语言处理中文分词技术.ppt
05-09
主要介绍了3个模型
自然语言处理:中文分词
06-23
在实际应用过程中,可以将待分词文本进行倒排处理,从而生成逆序文本,然后再根据逆序词典,对逆序文本用正向最大匹配算法进行处理。 (2)在中文中,由于偏正结构较多,所以从后向前进行匹配会提高精确度,因此,...
自然语言处理NLP中文分词之IT词库.zip
最新发布
03-31
自然语言处理NLP中文分词之IT词库.zip IT词库
自然语言处理-概率最大中文分词
01-23
广东外语外贸大学--自然语言处理。包含一个Segmentation.py文件和WordFrequency.txt文件
中文分词技术
深之JohnChen的专栏
08-16 4659
中文分词技术
C++字符串分词
weixin_30294295的博客
01-09 276
一简介 字符串分词,即按照某一规则,将一个完整的字符串分割为更多的字段。在C库当中,strtok/wcstok提供了类似的功能,C++标准库兼容了C库。C++的stringstream有类似的功能,boost.string_algorithm也有提供类似的泛型算法。另外在boost当中专门提供了boost.tokenizer来做这样的工作,它的实现是对C++泛型设计的一个不错的诠释,当然,...
中文分词
05-14 810
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。 1.中文分词原理介绍 1.1 中文分词概述 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一...
自然语言处理中文分词(基于Python)
诗酒趁年华。
11-07 7576
人生苦短,我用python 除了给你生孩子,python都能给你做到。 这句话所言不假,python拥有丰富的库,能完成各种各样的的功能。 只有你想不到的,没有python做不到的。下面我们来看看python在自然语言处理中的应用吧! python之中文分词 中文分词 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 ** 在自然语言处理技术...
自然语言处理技术的分词
07-14
自然语言处理中的分词技术是将连续的文本序列切分成有意义的词或字的过程。分词是中文处理中的重要环节,因为中文没有明确的词语边界,词与词之间没有空格进行区分。分词技术有多种方法,包括基于规则的分词、基于统计的分词和基于深度学习的分词。 基于规则的分词方法是利用人工定义的规则和字典进行分词。这些规则可以是基于语法、词性等特征,通过匹配规则来确定分词位置。这种方法的优点是速度快,但需要手动定义规则并更新字典。 基于统计的分词方法是利用大量已经标注好的文本进行训练,通过统计学习方法学习词语出现的概率和上下文信息,然后根据概率进行切分。这种方法的优点是准确性较高,但需要大量标注好的训练数据。 基于深度学习的分词方法是利用神经网络模型进行分词。这种方法可以通过训练神经网络来学习词语边界和上下文信息,并进行自动切分。这种方法的优点是可以自动学习特征和模式,但需要大量的训练数据和计算资源。 以上是一些常见的分词技术,具体选择哪种方法应根据实际应用场景和需求进行权衡。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • npm ERR! gyp verb check python checking for Python executable “python“ in the PATH 32768
  • Matlab 求方程的根 28217
  • Python实验4 统计《红楼梦》中前20位出场最多的人物 25346
  • UGC、PGC、OGC比较详解 20710
  • 跨域问题解决方法: chrome浏览器关闭CORS策略 20221

分类专栏

  • 大前端和跨平台技术 付费 329篇
  • 机器学习 付费 13篇
  • 课程设计 付费 10篇
  • 算法与数学 付费 469篇
  • 图数据挖掘与网络科学 2篇
  • 文献阅读 19篇
  • 后端开发 32篇
  • 电子商务 2篇
  • 音视频 6篇
  • 客户端开发 3篇
  • 无人机 3篇
  • 计算机视觉 3篇
  • 联邦学习 2篇
  • 知识图谱 1篇
  • 算法工程 3篇
  • 二进制与逆向工程 3篇
  • 安全多方计算 2篇
  • AI安全 4篇
  • 强化学习 10篇
  • 区块链安全 3篇
  • 自然语言处理 3篇
  • 软件安全 3篇
  • 密码学与隐私保护 7篇
  • 区块链 33篇
  • 推荐|广告|搜索 2篇
  • 游戏开发 43篇
  • 分布式系统与云计算 7篇
  • 82篇
  • 编程语言 128篇
  • C++|Windows|Linux开发 51篇
  • 控制算法|自动控制|智能控制 9篇
  • 数据挖掘|机器学习|深度学习 49篇
  • 嵌入式|单片机|硬件开发 20篇

最新评论

  • USENIX Security 安全顶会文献阅读:《ALASTOR : Reconstructing the Provenance of Serverless Intrusions》

    真·skysys: 溯源图是个经典工作了

  • Electron-Vue # 不规则窗口

    芭比Q技术询问者: 发钱狂

  • USENIX Security 安全顶会文献阅读:《ALASTOR : Reconstructing the Provenance of Serverless Intrusions》

    shard521_: 好巧,我也在看这篇文章,但是看相关代码貌似没有跟溯源相关细节部分只有处理完数据的dot文件诶

  • 文献阅读笔记 # GraphCodeBERT: Pre-training Code Representations with Data Flow

    暗中观察17: 作者您好,请问文中掩码注意力部分多次出现的attended具体是什么意思呢

  • Python # 金十数据数字货币新闻爬取脚本

    然后呢、: 想请教一下大佬,f12抓包的url地址是这个https://4a735ea38f8146198dc205d2e2d1bd28.z3c.jin10.com/flash?channel=-8200&vip=1&classify=[146]&t=1708697525934,classify-ws.jin10.com:5142这个地址从哪找到的啊

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Neo4j+LLM+RAG 环境配置报错处理
  • USENIX Security 安全顶会文献阅读:《ALASTOR : Reconstructing the Provenance of Serverless Intrusions》
  • 接入 AWS SES 服务详细教程:Python/Golang 代码示例
2024年7篇
2023年38篇
2022年65篇
2021年210篇
2020年395篇
2019年190篇
2018年8篇
2017年26篇
2016年464篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

真·skysys

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家咸宁玻璃钢人物雕塑公司承德玻璃钢树池价格东营玻璃钢休闲椅加工宣城玻璃钢卡通雕塑生产厂家白城玻璃钢花盆定做海口玻璃钢动物雕塑批发云浮玻璃钢餐桌椅衢州玻璃钢花槽批发三沙玻璃钢花箱价格长沙玻璃钢座椅公司雅安商场美陈加工云南玻璃钢花盆云南玻璃钢休闲椅哪家好台州玻璃钢人物雕塑厂家巴中玻璃钢雕塑制造六安玻璃钢动物雕塑生产厂家临汾玻璃钢外壳加工滁州不锈钢花盆公司广安玻璃钢装饰工程哪家好无锡玻璃钢产品制造石家庄玻璃钢机械外壳价格沈阳不锈钢雕塑厂家中山玻璃钢医疗外壳批发昆明商业美陈公司铁岭玻璃钢动物雕塑公司山南玻璃钢浮雕广安玻璃钢家具淮北不锈钢花盆公司荆州玻璃钢花钵武威玻璃钢装饰造型厂家直销香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化