Day 15 - 基于海量公司分词ES中文分词插件

Elasticsearch | 作者 novia | 发布于2018年12月15日 | | 阅读数：9440

分享到：QQ空间新浪微博微信 QQ好友印象笔记有道云笔记

介绍

本次想和大家分享一款Elasticsearch分词插件，该插件是基于天津海量信息股份有限公司的中文分词核心开发的。海量分词针对大数据检索场景专门做了定制和优化，更贴近搜索需求，整体分词的性能也是非常高效。

本文章有广告成分。但希望将公司研究成果分享出来，给大家实际工作中多一种选择...

海量分词检索优化点

地名方面海量分词5.0可以识别并检索出关于地名后缀的结果

可以通过搜索“河南”得到“河南省”的结果，搜索“天津”得到“天津市”的搜索结果，而不是简单河南、天津的识别。
著名人物的人名识别更精准，如刘翔、傅莹等

部分分词器处理中文分词只有两种方式：一种是单字（unigrams）形式，即简单粗暴的将中文的每一个汉字作为一个词（token）分开；另一种是两字（bigrams）的，也就是任意相邻的两个汉字作为一个词分开。这种简单粗暴的切分方式无法实现时效性较新的人名识别，如刘翔、傅莹等会被识别为单字切开。
外国人名识别方面海量可以将人名识别智能识别

“玛利亚凯利”、“乔治·史密斯”、“玛丽·戴维斯”将完整的外国人名识别出姓氏和名，如“乔治·史密斯”可以被识别为“乔治”和 “史密斯”。
常见词的品牌名称识别方面，海量分词5.0识别的结果中包含实际意义的品牌名称

如“乐高”，“吉米作为简单的词，可以被识别，但是词放在文档语境中有其品牌的属性，海量分词识别的结果中可以准确搜索出品牌的结果。
机构名识别方面

海量分词5.0可以识别完整的机构名称，如“天津海量信息技术股份有限公司”，可以完整的识别出全称。

海量分词性能评测

评测用例

本次评测选取的语料一共三个。一个是2MB的海量测试语料，一个是4MB的北大语料（新版旧版各2MB），一个是9.4GB海量的线上实际数据

评测指标

本次评测是在开源评测程序上修改而来，评测指标有分词速度、行数完美率、字数完美率（该指标仅供参考）、内存消耗

评测结果

2MB海量测试语料

分词器	分词模式	分词速度（字符/毫秒）	行数完美率	字数完美率	占用内存（MB）
海量	/	1049.0212	74.11%	65.97%	85
ltp	/	33.748833	55.68%	45.23%	201
IctClass	普通分词	208.69612	48.77%	37.10%	51
IctClass	细粒度分词	691.5951	38.33%	27.95%	51
Jieba	SEARCH分词	592.697	47.64%	36.25%	236
FudanNLP	/	121.7537	42.99%	31.59%	99
HanLP	标准分词	212.74121	45.30%	34.00%	63
HanLP	NLP分词	378.23676	44.09%	32.55%	71
HanLP	N-最短路径分词	189.29959	44.19%	32.22%	60
HanLP	最短路径分词	415.63605	43.19%	31.28%	59
HanLP	极速词典分词	6735.1934	36.78%	25.10%	18
THULAC	/	0.20857348	54.49%	43.79%	110
Stanford	CTB	0.13520464	44.43%	33.25%	1101
Stanford	PKU	0.12508623	45.15%	34.01%	1065

可以看到海量分词的行数完美率是最高的，而且速度十分优异；仅有的一个比海量分词速度快的算法是一个追求极限性能舍弃准确率的算法

4MB北大语料

词器	分词模式	分词速度（字符/毫秒）	行数完美率	字数完美率	占用内存（MB）
海量	/	1121.7269	85.94%	48.28%	85
ltp	/	35.81329	87.37%	49.37%	201
IctClass	普通分词	226.11554	78.55%	42.04%	51
IctClass	细粒度分词	756.5135	59.06%	30.61%	51
Jieba	SEARCH分词	957.52826	47.07%	20.01%	236
FudanNLP	/	126.09879	58.54%	27.78%	99
HanLP	标准分词	369.66	65.46%	35.04%	63
HanLP	NLP分词	439.75632	61.93%	31.37%	71
HanLP	N-最短路径分词	223.30482	69.20%	35.07%	60
HanLP	最短路径分词	440.72244	67.74%	33.83%	59
HanLP	极速词典分词	7522.581	58.09%	27.82%	18

（注：THULAC和stanford由于速度问题，不纳入评测）

可以看到海量的速度和行数完美率都很优异而且达到了兼顾，行数完美率只落后更高的ltp算法1.4个百分点，速度却是它的三十多倍

9.4GB线上数据

分词器	分词模式	分词速度（字符/毫秒）
ltp	/	33.592
海量	/	960.611
IctClass	普通分词	198.094
HanLP	N-最短路径分词	201.735
HanLP	最短路径分词	425.482
HanLP	标准分词	473.400
HanLP	NLP分词	361.842
IctClass	细粒度分词	689.183
FudanNLP	/	120.860
HanLP	极速词典分词	6238.916
Jieba	SEARCH分词	568.262

（注：THULAC和stanford由于速度问题，不纳入评测）

本表格中分词顺序按（4MB北大语料的）行数完美率进行排序，越靠前的（4MB北大语料的）行数完美率越高

可以看出海量的分词速度十分优秀，分词速度拉开了大多数分词数倍，相比于行数完美率小幅领先的ltp要快几十倍

海量分词插件使用方法

安装使用

下载安装 - 地址: https://github.com/HylandaOpen/elasticsearch-analysis-hlseg/releases
```
unzip plugin to folder `your-es-root/plugins/`
```

使用 elasticsearch-plugin 安装

./bin/elasticsearch-plugin install https://github.com/HylandaOpen/elasticsearch-analysis-hlseg/releases/download/v6.4.2/elasticsearch-analysis-hlseg-6.4.2.zip

重启es集群

实例（借用github-ik分词插件的实例）

1.创建index

curl -XPUT http://localhost:9200/hylanda_seg

2.配置mapping

curl -XPOST http://localhost:9200/hylanda_seg/data/_mapping -H 'Content-Type:application/json' -d'
{
  "properties": {
    "msg": {
      "type": "text",
      "analyzer": "hlseg_search"
    }
  }
}'

3.插入测试数据

curl -XPOST http://localhost:9200/hylanda_seg/data/1 -H 'Content-Type:application/json' -d'
{"content":"美国留给伊拉克的是个烂摊子吗"}
'

curl -XPOST http://localhost:9200/hylanda_seg/data/2 -H 'Content-Type:application/json' -d'
{"content":"公安部：各地校车将享最高路权"}
'

curl -XPOST http://localhost:9200/hylanda_seg/data/3 -H 'Content-Type:application/json' -d'
{"content":"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}
'

curl -XPOST http://localhost:9200/hylanda_seg/data/4 -H 'Content-Type:application/json' -d'
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}
'

4.查询

curl -XPOST http://localhost:9200/hylanda_seg/data/_search  -H 'Content-Type:application/json' -d'
{
  "query": {
    "match": {
      "content": "中国"
    }
  },
  "highlight": {
    "fields": {
      "content": {}
    }
  }
}
'

返回结果

{
  "took" : 11,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 0.5754429,
    "hits" : [
      {
        "_index" : "hylanda_seg",
        "_type" : "data",
        "_id" : "4",
        "_score" : 0.5754429,
        "_source" : {
          "content" : "中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"
        },
        "highlight" : {
          "content" : [
            "中韩渔警冲突调查：韩警平均每天扣1艘<em>中国</em>渔船"
          ]
        }
      },
      {
        "_index" : "hylanda_seg",
        "_type" : "data",
        "_id" : "5",
        "_score" : 0.2876821,
        "_source" : {
          "content" : "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
        },
        "highlight" : {
          "content" : [
            "<em>中国</em>驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
          ]
        }
      }
    ]
  }
}

字典配置

海量分词分为基础词词典CoreDict.dat和自定义词典userDict_utf8.txt。基础词词典在dictionary目录下，需要将CoreDict.zip解压后放在config目录下，可以通过修改config下的userDict_utf8.txt来更新自定义词典

自定义词典格式如下

1.用户自定义词典采用文本格式，utf-8编码，每行一个词

2.每个词包含三列属性，分别是词串、词的属性以及idf值的加权等级，并以Tab作为分隔，其中除了词串必填外，其他列可以不填，不填写则系统采用默认值

3.“#”表示注释，会在加载时被忽略

4.词的属性以西文逗号分隔，可以是词性、停止词标志或者自定义属性

5.词性标记参考北大标准，用于词性标注时参考，该项不填则默认为名词

6.停止词标志为：stopword，由SegOption.outputStopWord来控制是否输出停止词

7.自定义属性不参与分词过程，分词结果中若Token.userTag不为空，则可以获取到该词的自定义属性。

8.idf值的加权分5级，从低到高的定义是idf-lv1 — idf-lv5，等级越高则该词在关键词计算时的权重会越大，若不填写该值则系统默认是idf-lv3(中等权重）

[尊重社区原创，转载请保留或注明出处]
本文地址：http://searchkit.cn/article/6199