千家信息网

基于hanlp的es分词插件

发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,摘要: elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,
千家信息网最后更新 2025年01月23日基于hanlp的es分词插件


摘要: elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

Elasticsearch

默认分词

输出:

IK分词

输出:

hanlp分词

输出:

ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词

安装步骤:

1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data

目录的地址

2、修改es config目录下的jvm.options文件,最后一行添加

-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy

重启 es

GET /_analyze?analyzer=hanlp-index&pretty=true

{

"text":"张柏芝士蛋糕店"

}

测试是否安装成功

analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)

自定义词典

修改 plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件

格式遵从 [单词] [词性A] [A的频次]

修改完后删除同目录下的 CustomDictionary.txt.bin文件

重启 es服务


目录 文件 输出 插件 模式 词典 语义 成功 一行 上下 上下文 人名 分布式 单字 单词 句子 含义 地名 地址 属性 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 极空间服务器关了还能用吗 浙江net软件开发哪家实惠 百里半网络技术靠谱吗 服务器怎么挂机器人 美术字网络安全怎么写 柳职网络技术宿舍怎么样 安全数据库 普通数据库 大学软件开发一般多少钱 公安局网络安全工作下一步打算 近年来随着对网络安全 中国网络安全法多少章 内蒙古网络安全宣传官方网站 中国网络安全法实施意见 泉州网络安全技能竞赛 sql数据库 介绍 奉贤区网络安全审计系统咨询辅导 自学软件开发c 架构师之路数据库设计原则 我的世界精灵宝可梦服务器在哪下 雷达检测管理服务器 我的世界低配模组服务器 u3d软件开发游戏 7种严重危害网络安全行为 服务器怎么加内存条 数据库理论与技术研究生 空间连续的关系型数据库 软件开发php学习外包 软件开发单元测试怎么做 黑龙江网络技术服务参考价 泰豪科技能源互联网事业部
0