如何使用HanLP增强Elasticsearch分词功能
发表于:2025-02-08 作者:千家信息网编辑
千家信息网最后更新 2025年02月08日,这篇文章主要介绍如何使用HanLP增强Elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Elasticsearch 默认对中文分词是按"字"进行分
千家信息网最后更新 2025年02月08日如何使用HanLP增强Elasticsearch分词功能
这篇文章主要介绍如何使用HanLP增强Elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
Elasticsearch 默认对中文分词是按"字"进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。
Elasticsearch
Elasticsearch 的默认分词效果是惨不忍睹的。
GET /_analyze?pretty { "text" : ["广州计算科技有限公司"] }
输出:
{ "tokens": [ { "token": "广", "start_offset": 0, "end_offset": 1, "type": "", "position": 0 }, { "token": "州", "start_offset": 1, "end_offset": 2, "type": " ", "position": 1 }, { "token": "亿", "start_offset": 2, "end_offset": 3, "type": " ", "position": 2 }, { "token": "速", "start_offset": 3, "end_offset": 4, "type": " ", "position": 3 }, { "token": "云", "start_offset": 4, "end_offset": 5, "type": " ", "position": 4 }, { "token": "计", "start_offset": 5, "end_offset": 6, "type": " ", "position": 5 }, { "token": "算", "start_offset": 6, "end_offset": 7, "type": " ", "position": 6 }, { "token": "科", "start_offset": 7, "end_offset": 8, "type": " ", "position": 7 }, { "token": "技", "start_offset": 8, "end_offset": 9, "type": " ", "position": 8 }, { "token": "有", "start_offset": 9, "end_offset": 10, "type": " ", "position": 9 }, { "token": "限", "start_offset": 10, "end_offset": 11, "type": " ", "position": 10 }, { "token": "公", "start_offset": 11, "end_offset": 12, "type": " ", "position": 11 }, { "token": "司", "start_offset": 12, "end_offset": 13, "type": " ", "position": 12 } ]}
可以看到,默认是按字进行分词的。
elasticsearch-hanlp
HanLP
HanLP 是一款使用 Java 实现的优秀的,具有如下功能:
中文分词
词性标注
命名实体识别
关键词提取
自动摘要
短语提取
拼音转换
简繁转换
文本推荐
依存句法分析
语料库工具
安装 elasticsearch-hanlp(安装见:https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin
)插件以后,我们再来看看分词效果。
GET /_analyze?pretty { "analyzer" : "hanlp", "text" : ["广州计算科技有限公司"] }
输出:
{ "tokens": [ { "token": "广州", "start_offset": 0, "end_offset": 2, "type": "ns", "position": 0 }, { "token": "", "start_offset": 2, "end_offset": 5, "type": "nr", "position": 1 }, { "token": "计算", "start_offset": 5, "end_offset": 7, "type": "nr", "position": 2 }, { "token": "科技", "start_offset": 7, "end_offset": 9, "type": "n", "position": 3 }, { "token": "有限公司", "start_offset": 9, "end_offset": 13, "type": "nis", "position": 4 } ]}
以上是"如何使用HanLP增强Elasticsearch分词功能"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
中文
功能
公司
插件
有限
有限公司
科技
广州
内容
工具
效果
篇文章
输出
优秀
惨不忍睹
价值
关键
关键词
兴趣
句法
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
为什么数据库中的数据在表格外面
早期的媒体服务器解决方案
上海新弋网络技术有限公司
吃鸡游戏服务器上的二维码在哪
网络安全测评的建议
供电公司网络安全防护网
debase数据库语言
以网络安全为题目的问卷
易语言交互php数据库
讯博软件开发有限公司
根服务器很强吗
网络安全的研究领域
幸福导航软件开发
无线网络技术教程实验箱
网络安全态势感知的基本概念
盘古网络技术有限公司6
注意系统网络安全
五华区第三方软件开发价格走势
云流量服务器
56服务器
软件开发类项目的特点
馈源网络技术发展
深职院计算机网络技术
网络安全 加强媒体宣传
新型数据库有哪些
鹤壁网络安全工程师的工资
大华矩阵服务器初始网址
大唐移动软件开发工程师
苏州戴尔服务器网络终端
睿迅网络技术有限公司怎么样