elasticsearch 5.x中IK分词器怎么用
发表于:2025-01-24 作者:千家信息网编辑
千家信息网最后更新 2025年01月24日,本篇文章为大家展示了elasticsearch 5.x中IK分词器怎么用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。ik分词器的地址 https://git
千家信息网最后更新 2025年01月24日elasticsearch 5.x中IK分词器怎么用
本篇文章为大家展示了elasticsearch 5.x中IK分词器怎么用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
ik分词器的地址 https://github.com/medcl/elasticsearch-analysis-ik/releases ,分词器插件需要和ES版本匹配
由于es是5.6.16版本,所有我们下载5.6.16
https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.16/elasticsearch-analysis-ik-5.6.16.zip
解压后,把安装包放在ES节点的plugins目录,包名重命名为ik
重启ES,测试下IK分词效果
(1)无分词器下的效果
GET _analyze?pretty{ "text":"安徽省长江流域"}
返回结果。
{ "tokens": [ { "token": "安", "start_offset": 0, "end_offset": 1, "type": "", "position": 0 }, { "token": "徽", "start_offset": 1, "end_offset": 2, "type": " ", "position": 1 }, { "token": "省", "start_offset": 2, "end_offset": 3, "type": " ", "position": 2 }, { "token": "长", "start_offset": 3, "end_offset": 4, "type": " ", "position": 3 }, { "token": "江", "start_offset": 4, "end_offset": 5, "type": " ", "position": 4 }, { "token": "流", "start_offset": 5, "end_offset": 6, "type": " ", "position": 5 }, { "token": "域", "start_offset": 6, "end_offset": 7, "type": " ", "position": 6 } ]}
可见 "安徽省长江流域" 每个字都分成了一个词
(2)IK分词器下的效果,ik_smart分词器
GET _analyze?pretty{ "analyzer": "ik_smart", "text":"安徽省长江流域"}
结果
{ "tokens": [ { "token": "安徽省", "start_offset": 0, "end_offset": 3, "type": "CN_WORD", "position": 0 }, { "token": "长江流域", "start_offset": 3, "end_offset": 7, "type": "CN_WORD", "position": 1 } ]}
(3)IK分词器下的效果,ik_smart分词器
GET _analyze?pretty{ "analyzer": "ik_max_word", "text":"安徽省长江流域"}
结果
{ "tokens": [ { "token": "安徽省", "start_offset": 0, "end_offset": 3, "type": "CN_WORD", "position": 0 }, { "token": "安徽", "start_offset": 0, "end_offset": 2, "type": "CN_WORD", "position": 1 }, { "token": "省长", "start_offset": 2, "end_offset": 4, "type": "CN_WORD", "position": 2 }, { "token": "长江流域", "start_offset": 3, "end_offset": 7, "type": "CN_WORD", "position": 3 }, { "token": "长江", "start_offset": 3, "end_offset": 5, "type": "CN_WORD", "position": 4 }, { "token": "江流", "start_offset": 4, "end_offset": 6, "type": "CN_WORD", "position": 5 }, { "token": "流域", "start_offset": 5, "end_offset": 7, "type": "CN_WORD", "position": 6 } ]}
为什么IK分词器能分析中文词汇呢?因为在它的config目录内置了一些词典。
那么如果我们需要识别一些新的词汇怎么办?例如一部连续剧 "权利的游戏"
自定义词典
在IK插件的config目录下创建tv目录,新建 tv.dic 文件(注意,一定要UTF-8无BOM的格式)
然后在 IKAnalyzer.cfg.xml 文件在添加配置
重启ES、Kibana ,试下效果
GET _analyze?pretty{ "analyzer": "ik_smart", "text":"权利的游戏"}
分词结果
{ "tokens": [ { "token": "权利的游戏", "start_offset": 0, "end_offset": 5, "type": "CN_WORD", "position": 0 } ]}
上述内容就是elasticsearch 5.x中IK分词器怎么用,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
流域
安徽
长江
安徽省
长江流域
效果
目录
结果
权利
内容
技能
插件
文件
版本
知识
词典
词汇
简明
简明扼要
地址
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
苹果手机找不到服务器是什么原因
go语言数据库编程
基于云平台的软件开发
软件开发流程图苏大强
南昌达内软件开发
软件开发团队组建及能力提升计划
可直接下载全文的数据库有哪些
淮南点餐系统软件开发外包公司
服务器机箱电源
重点人力资源数据库
软件开发工具的发展史
网络技术应用 山东会考
如何避开无线网络安全隐患
点橙互联网科技
数字货币网络安全上市公司龙头
赚钱的app软件开发
河南省融智网络技术有限公司
海曙ios软件开发工具
网络安全法建立了什么原则
旅游社数据库系统
池州软件开发论坛
网络安全公司人均毛利
北京云服务器租用注意什么
网络安全协议有哪些区别
网络安全验证报告模板
软件开发公司保密承诺书
软件开发论文题目
mysql如何建造数据库
网络安全事件三大特点
青岛北京搜房网络技术有限公司