第三章:分词、词性标注及命名实体识别介绍及应用

3.1 分词、词性标注及命名实体识别介绍及应用

分词

==中文分词==(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

中文/n 分词/n 是/v 其他/p 中文/n (信息,n) 处理/v 的 基础,搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

词性标注

==词性标注==(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程 序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。

不同的工具词性标注不一定一样,jieba标注在最后附录。

命名实体识别

==命名实体识别==(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。 在不同的顷目中,命名实体类别具有不同的定义。

3.2 准确分词之加载自定义字典分词

当分词工具分词不准确时,该怎么办? 加载自定义字典?该如何加载?看代码

3.3 准确分词之动态调整词频和字典顺序

当分词字典的词冲突,相互影响该怎么办? 调整词频和字典顺序,看代码

3.4 词性标注代码实现及信息提取

看代码

3.5 人名、地名、机构名等关键命名实体识别

看代码

不同的工具词性标注不一定一样,以下是jieba标注:

  1. 词性标注
  2. Ag
  3. 形语素
  4. 形容词性语素。形容词代码为 a,语素代码g前面置以A
  5. a
  6. 形容词
  7. 取英语形容词 adjective的第1个字母。
  8. ad
  9. 副形词
  10. 直接作状语的形容词。形容词代码 a和副词代码d并在一起。
  11. an
  12. 名形词
  13. 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
  14. b
  15. 区别词
  16. 取汉字“别”的声母。
  17. c
  18. 连词
  19. 取英语连词 conjunction的第1个字母。
  20. dg
  21. 副语素
  22. 副词性语素。副词代码为 d,语素代码g前面置以D
  23. d
  24. 副词
  25. adverb的第2个字母,因其第1个字母已用于形容词。
  26. e
  27. 叹词
  28. 取英语叹词 exclamation的第1个字母。
  29. f
  30. 方位词
  31. 取汉字“方”
  32. g
  33. 语素
  34. 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
  35. h
  36. 前接成分
  37. 取英语 head的第1个字母。
  38. i
  39. 成语
  40. 取英语成语 idiom的第1个字母。
  41. j
  42. 简称略语
  43. 取汉字“简”的声母。
  44. k
  45. 后接成分
  46. l
  47. 习用语
  48. 习用语尚未成为成语,有点“临时性”,取“临”的声母。
  49. m
  50. 数词
  51. 取英语 numeral的第3个字母,n,u已有他用。
  52. Ng
  53. 名语素
  54. 名词性语素。名词代码为 n,语素代码g前面置以N
  55. n
  56. 名词
  57. 取英语名词 noun的第1个字母。
  58. nr
  59. 人名
  60. 名词代码 n和“人(ren)”的声母并在一起。
  61. ns
  62. 地名
  63. 名词代码 n和处所词代码s并在一起。
  64. nt
  65. 机构团体
  66. “团”的声母为 t,名词代码nt并在一起。
  67. nz
  68. 其他丏名
  69. “丏”的声母的第 1个字母为z,名词代码nz并在一起。
  70. o
  71. 拟声词
  72. 取英语拟声词 onomatopoeia的第1个字母。
  73. p
  74. 介词
  75. 取英语介词 prepositional的第1个字母。
  76. q
  77. 量词
  78. 取英语 quantity的第1个字母。
  79. r
  80. 代词
  81. 取英语代词 pronoun的第2个字母,因p已用于介词。
  82. s
  83. 处所词
  84. 取英语 space的第1个字母。
  85. tg
  86. 时语素
  87. 时间词性语素。时间词代码为 t,在语素的代码g前面置以T
  88. t
  89. 时间词
  90. 取英语 time的第1个字母。
  91. u
  92. 助词
  93. 取英语助词 auxiliary
  94. vg
  95. 动语素
  96. 动词性语素。动词代码为 v。在语素的代码g前面置以V
  97. v
  98. 动词
  99. 取英语动词 verb的第一个字母。
  100. vd
  101. 副动词
  102. 直接作状语的动词。动词和副词的代码并在一起。
  103. vn
  104. 名动词
  105. 指具有名词功能的动词。动词和名词的代码并在一起。
  106. w
  107. 标点符号
  108. x
  109. 非语素字
  110. 非语素字只是一个符号,字母 x通常用于代表未知数、符号。
  111. y
  112. 语气词
  113. 取汉字“语”的声母。
  114. z
  115. 状态词
  116. 取汉字“状”的声母的前一个字母。
  117. un
  118. 未知词
  119. 不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)