自然语言处理 # 中文分词技术概述

最新推荐文章于 2023-08-31 15:09:34 发布

真·skysys

最新推荐文章于 2023-08-31 15:09:34 发布

阅读量2.4k

点赞数 4

分类专栏：数据挖掘|机器学习|深度学习

请明确标注出处

本文链接： https://blog.csdn.net/qq_33583069/article/details/94001470

版权

数据挖掘|机器学习|深度学习专栏收录该内容

49 篇文章 2 订阅

订阅专栏

定义

中文分词（Chinese Word Segmentation）就是将连续的字序列按照一定的规范重新组合成词序列的过程。

Ques:为什么要分词？
Ans: 词是最小的能够独立运用的语言单位
Ques:什么是独立运用呢？
Ans:它可以解释为“单独做句法成分或单独起语法作用”¹

基本信息

在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多²。
中文在基本文法上有以下特殊性：

与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。
在中文里，“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分。

中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

分词算法概述

中文分词方法的基本原理是针对输入文字串进行分词、过滤处理，输出中文单词、英文单词和数字串等一系列分割好的字符串。
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

基于字符串匹配的分词方法

又称为机械分词方法，它需要有一个初始的充分大的词典，然后将待分词的字符串与词典中的元素进行匹配，若能成功匹配，则将该词切分出来。按扫描方向的不同，字符串匹配分词方法可以分为正相匹配和逆向匹配；按照不同长度的匹配优先度可以划分为最大匹配和最小匹配。³

常用的几种机械分词方法如下：

1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）；
4）双向最大匹配法（进行由左到右、由右到左两次扫描）

还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

正向最大匹配思想 MM

1 从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。
2 查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。
若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

举个栗子↓

假设我们要切分的句子为“南京市长江大桥”，字典中最长的元素长度为5，则先取待切分句子的前5个字符“南京市长江”。
字典中没有元素与之匹配，长度减一，则变成“南京市长”，匹配成功。 
对剩余三个字“江大桥”再次进行正向最大匹配，会切成“江”、“大桥”； 
整个句子切分完成为：南京市长、江、大桥；

逆向最大匹配算法 RMM

该算法是正向最大匹配的逆向思维，匹配不成功，将匹配字段的最前一个字去掉，实验表明，逆向最大匹配算法要优于正向最大匹配算法。
还是上一个栗子：

“南京市长江大桥”的逆向最大匹配： 
1.取出“南京市长江大桥”的后5个字“市长江大桥”，字典中无匹配元素，将字符“市”去掉，发现词典中有匹配，切割下来； 
2.对剩余的“南京市”进行分词，整体结果为：南京市、长江大桥

双向最大匹配法 Bi-directction Matching method,BM

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。据SunM.S. 和 Benjamin K.T.（1995）的研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在⁴。

还是上面的例子，双向最大匹配的划分结果为：南京市长、南京市、长江大桥、江、大桥。

设立切分标志法

切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号，如标点符号等；非自然标志是利用词缀和不构成词的词（包括单音词、复音节词以及象声词等）。设立切分标志法首先收集众多的切分标志，分词时先找出切分标志，把句子切分为一些较短的字段，再用MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法，只是自动分词的一种前处理方式而已，它要额外消耗时间扫描切分标志，增加存储空间存放那些非自然切分标志。

最佳匹配（OM，分正向和逆向）

对分词词典按词频大小顺序排列，并注明长度，降低时间复杂度。
优点：易于实现;
缺点：匹配速度慢。对于未登录词的补充较难实现。缺乏自学习。

逐字匹配算法

基于Trie树（字典树）的逐字匹配算法。建立在树型词典机制上，匹配的过程是从索引树的根结点依次同步匹配待查词中的每个字，可以看成是对树某一分枝的遍历。
该算法的分词速度较快，但树的构造和维护比较复杂。一种改进的算法是和最大匹配算法相结合，吸取最大匹配算法词典结构简单、TRIE索引树算法查询速度快的优点。因此词典结构和最大匹配词典构造机制相似，区别在于词典正文前增加了多级索引。匹配过程类似TRIE索引树进行逐字匹配，在性能上和TRIE索引树相近。

神经网络分词算法

尹峰等提出了以神经网络理论(BP模型)为基础的汉语分词模型,为汉语分词研究开辟了新途径。在实用中,BP算法存在收敛速度慢、易陷入局部最小等缺点,严重妨碍了分词速度。一种改进算法采用Levenbery2Marquart 算法来加速收敛速度,加快了收敛速度利用神经网络的基本原理进行分词。⁵

联想—回溯法

联想—回溯法(Association－Backtracking Method，简称 AB 法)。这种方法要求建立三个知识库——特征词词库、实词词库和规则库。首先将待切分的汉字字符串序列按特征词词库分割为若干子串，子串可以是词，也可以是由几个词组合而成的词群；然后，再利用实词词库和规则库将词群再细分为词。切词时，要利用一定的语法知识，建立联想机制和回溯机制。联想机制由联想网络和联想推理构成,联想网络描述每个虚词的构词能力,联想推理利用相应的联想网络来判定所描述的虚词究竟是单独成词还是作为其他词中的构词成分。回溯机制主要用于处理歧义句子的切分。联想—回溯法虽然增加了算法的时间复杂度和空间复杂度，但这种方法的切词正确率较高，是一种行之有效的方法。

N-最短路径分词算法

基本思想是根据词典，找出字串中所有可能的词，构造词语切分有向无环图。每个词对应图中的一条有向边，并赋给相应的边长(权值)。然后针对该切分图，在起点到终点的所有路径中，求出长度值按严格升序排列(任何两个不同位置上的值一定不等，下同)依次为第1，第2，…，第 i，…，第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等，那么他们的长度并列第 i，都要列入粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集合大小大于或等于N。N一最短路径方法实际上是最短路径方法和全切分的有机结合。该方法的出发点是尽量减少切分出来的词数，这和最短路径分词方法是完全一致的；同时又要尽可能的包含最终结果，这和全切分的思想是共通的。通过这种综合，一方面避免了最短路径分词方法大量舍弃正确结果的可能，另一方面又大大解决了全切分搜索空间过大，运行效率差的弊端。N一最短路径方法相对的不足就是粗分结果不唯一，后续过程需要处理多个粗分结果。但是，对于预处理过程来讲，粗分结果的高召回率至关重要。因为低召回率就意味着没有办法再作后续的补救措施。预处理一旦出错，后续处理只能是一错再错，基本上得不到正确的最终结果。而少量的粗分结果对后续过程的运行效率影响不会太大，后续处理可以进一步优选排错，如词性标注、句法分析等。

除上面之外，还有基于词频统计的切词法， 基于期望的切词法，有穷多级列举法等。

基于理解的分词方法

通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

专家系统分词法。从专家系统角度把分词的知识（包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则）从实现分词过程的推理机中独立出来，使知识库的维护与推理机的实现互不干扰，从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
神经网络分词法。该方法是模拟人脑并行，分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部，通过自学习和训练修改内部权值，以达到正确的分词结果，最后给出神经网络自动分词结果。
神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词，当神经网络对新出现的词不能给出准确切分时，激活专家系统进行分析判断，依据知识库进行推理，得出初步分析，并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势，进一步提高分词效率⁶。

基于统计的分词方法

主要思想：每个字都是词的最小单元，如果相连的字在不同的文本中出现的频率越多，这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性，当频率高于某个阈值时，我们可以认为这些字可能会构成一个词。

主要统计模型： N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model，HMM），最大熵模型（ME），条件随机场（Conditional Random Fields，CRF）等

优势：在实际运用中常常将字符串匹配分词和统计分词结合使用，这样既体现了匹配分词速度快、效率高的优点，同时又能运用统计分词识别生词、自动消除歧义等方面的特点。

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

各种分词方法的优劣对比⁷

中文分词存在的难题

在中文分词过程中，有两大难题一直没有完全突破。

歧义识别

同样的一句话，可能有两种或者更多的切分方法。主要的歧义有两种：交集型歧义和组合型歧义。
例如：表面的，因为“表面”和“面的”都是词，那么这个短语就可以分成“表面的”和“表面的”。这种称为交集型歧义（交叉歧义）。
交集型歧义相对组合型歧义来说是还算比较容易处理，组合型歧义就必须根据整个句子来判断了。
例如，在句子“这个门把手坏了”中，“把手”是个词，但在句子“请把手拿开”中，“把手”就不是一个词；在句子“将军任命了一名中将”中，“中将”是个词，但在句子“产量三年中将增长两倍”中，“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话，在歧义中还有一个难题，是真歧义。真歧义意思是给出一句话，由人去判断也不知道哪个应该是词，哪个应该不是词。例如：“乒乓球拍卖完了”，可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”，如果没有上下文其他的句子，恐怕谁也不知道“拍卖”在这里算不算一个词。

基于字符串的分词算法：仅仅是跟一个电子词典进行比较，故不能进行歧义识别；
基于理解的分词算法：指通过理解字符串的含义，故有很强的歧义识别能力；
基于统计的分词算法：根据字符连续出现次数的多少，得到分词系列，故常常能够给出正确的分词系列选择，但是也有可能判断错误的情况。

新词识别

命名实体（人名、地名）、新词，专业术语称为未登录词。也就是那些在分词词典中没有收录，但又确实能称为词的那些词。最典型的是人名，人可以很容易理解。句子“王军虎去广州了”中，“王军虎”是个词，因为是一个人的名字，但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去，全世界有那么多名字，而且每时每刻都有新增的人名，收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成，还是会存在问题，例如：在句子“王军虎头虎脑的”中，“王军虎”还能不能算词？
除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题，而且这些又正好是人们经常使用的词，因此对于搜索引擎来说，分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

基于字符串的分词算法：无法正确识别未登录词，因为这种算法仅仅与词典中存在的词语进行比较；
基于理解的分词算法：理解字符串的含义，从而有很强的新词识别能力；
基于统计的分词算法：这种算法对第二种未登录词有很强的识别能力，因为出现次数多，才会当作一个新词；对于第二类未登录词，这类词语有一定的规律，如姓名：“姓”+ 名字，如李胜利；机构：前缀+称谓，如希望集团；故需要结合一定的规则进行识别，仅仅统计方法难以正确识别。

其他

词典

基于字符串的分词算法：基本思路就是与电子词典进行比较，故电子词典是必须的。并且词典越大，分词的正确率越高，因为词典越大，未登录词越少，从而可以大大减少未登录词识别的错误；
基于理解的分词算法：理解字符串的含义，故不需要一个电子词典；
基于统计的分词算法：仅仅根据统计得到最终的结果，故电子词典不是必须的。

语料库

基于字符串的分词算法：分词过程仅仅与一个已经存在的电子词典进行比较，故不需要语料库；
基于理解的分词算法：理解字符串的含义，故不需要电子词典；
基于统计的分词算法：需要语料库进行统计训练，故语料库是必须的；且好的语料库是分词准确性的保证。

规则库

基于字符串的分词算法：分词过程仅仅与一个已经存在的电子词典进行比较，不需要规则库来进行分词；
基于理解的分词算法：规则是计算机进行理解的基础，故准确、完备的规则库是这种分词算法的前提；
基于统计的分词算法：根据语料库统计训练，故规则库不是必须的。

算法复杂度

基于字符串的分词算法：仅仅进行字符串的比较操作，故算法简单；
基于理解的分词算法：需要充分处理各种规则，故算法非常复杂；事实上到目前为止，还没有成熟的这类算法；
基于统计的分词算法：需要语料库进行训练，虽然算法也比较复杂，但是已经比较常见，故这种分词的复杂性比第一种大，比第二种容易。现在的实用分词系统都采用这种算法。

技术成熟度

基于字符串的分词算法：是最早出现也是最成熟的算法；
基于理解的分词算法：是最不成熟的一类算法，到目前为止还没有成熟的算法；
基于统计的分词算法：已经有多种成熟的这类算法，基本上能够满足实际的应用。
故技术成熟度：基于匹配的分词算法〉基于理解的分词算法〉基于统计的分词算法。

实施复杂性

同理，实施复杂性：基于理解的分词算法〉基于统计的分词算法〉基于匹配的分词算法。

分词准确性

到目前为止还没有一个准确的结论，不过从理论上说，基于理解的分词算法有最高的分词准确性，理论上有100%的准确性；而基于匹配的分词算法和基于统计的分词算法是一种"浅理解"的分词方法，不涉及真正的含义理解，故可能会出现错误，难以达到100%的准确性⁵。

分词速度

基于匹配的分词算法：算法简单，操作容易，故分词速度快，所以这种算法常常作为另外两种算法的预处理，进行字符串的粗分；
基于理解的分词算法：这种算法常常需要操作一个巨大的规则库，故速度最慢；
基于统计的分词算法：这种分词算法仅仅是与一个统计结果进行比较，故速度一般。
故一般的分词速度从快到慢依次为：基于匹配的分词算法〉基于统计的分词算法〉基于理解的分词算法。

分词技术的评价

分词正确率

书面汉语的文本可以看成是字符序列，分词的正确率直接影响更高一级的处理。现有的分词系统切分错误主要集中在歧义字段和专有名词(如人名、地名、机构名和未登录词等)。为了获得分词系统切分正确率，应该进行整体测试，歧义测试和专业词测试。自动分词系统的切分正确率的基本公式为：
$S=\sum^3_{i=1}\beta_iS_i$
其中，S1，S2，S3分别为总体测试、歧义测试和专业词测试的正确率； $\beta_i$ (i=1、2、3)为三种测试加的权值。

切分速度

切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下，切分速度是另一个很重要的指标，特别对于算法不单一，使用辅助手段，诸如联想，基于规则，神经网络，专家系统等方法更应注意这一点。通常中文信息处理的文本数量是相当大的，因此必须考虑方法是否能使系统总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计，有时会严重地影响切分速度，这也是应考虑的因素。

功能完备性

自动分词方法除了完成分词功能外，还应具备词库增删、修改、查询和批处理等功能。

易扩充性和可维护性

这是提供数据存储和计算功能扩充要求的软件属性，包括词库的存储结构，输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系，对于研究实验性质的软件是非常重要的，因为这类软件需要不断提高与改进，使之适应中文信息处理的各种应用。

可移植性

可移植性是指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词方法不应该只能在一个环境下运行，而应该稍作修改便可在另一种环境下运行，使它更便于推广。

https://baike.baidu.com/tashuo/browse/content?id=d276fc8ff138ce5c74e7683b&lemmaId=371496&fromLemmaModule=pcBottom ↩︎
https://blog.csdn.net/sysu63/article/details/80185555 ↩︎
https://baike.baidu.com/item/中文分词/371496?fr=aladdin ↩︎
https://www.cnblogs.com/racaljk/p/7822304.html ↩︎
https://blog.csdn.net/Yelbosh/article/details/45896051 ↩︎ ↩︎
https://blog.csdn.net/xiaomin1991222/article/details/84803377 ↩︎
https://blog.csdn.net/pengyuanyuankuang/article/details/84508045 ↩︎

真·skysys

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
自然语言处理 # 中文分词技术概述

定义中文分词（Chinese Word Segmentation）就是将连续的字序列按照一定的规范重新组合成词序列的过程。Ques:为什么要分词？ Ans: 词是最小的能够独立运用的语言单位Ques:什么是独立运用呢？Ans:它可以解释为“单独做句法成分或单独起语法作用”1基本信息在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界...
复制链接

扫一扫