基于hanlp的es分词插件
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,摘要: elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,
千家信息网最后更新 2025年01月23日基于hanlp的es分词插件
摘要: elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
Elasticsearch
默认分词
输出:
IK分词
输出:
hanlp分词
输出:
ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词
安装步骤:
1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data
目录的地址
2、修改es config目录下的jvm.options文件,最后一行添加
-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy
重启 es
GET /_analyze?analyzer=hanlp-index&pretty=true
{
"text":"张柏芝士蛋糕店"
}
测试是否安装成功
analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)
自定义词典
修改 plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件
格式遵从 [单词] [词性A] [A的频次]
修改完后删除同目录下的 CustomDictionary.txt.bin文件
重启 es服务
目录
文件
输出
插件
模式
词典
语义
成功
一行
上下
上下文
人名
分布式
单字
单词
句子
含义
地名
地址
属性
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
极空间服务器关了还能用吗
浙江net软件开发哪家实惠
百里半网络技术靠谱吗
服务器怎么挂机器人
美术字网络安全怎么写
柳职网络技术宿舍怎么样
安全数据库 普通数据库
大学软件开发一般多少钱
公安局网络安全工作下一步打算
近年来随着对网络安全
中国网络安全法多少章
内蒙古网络安全宣传官方网站
中国网络安全法实施意见
泉州网络安全技能竞赛
sql数据库 介绍
奉贤区网络安全审计系统咨询辅导
自学软件开发c
架构师之路数据库设计原则
我的世界精灵宝可梦服务器在哪下
雷达检测管理服务器
我的世界低配模组服务器
u3d软件开发游戏
7种严重危害网络安全行为
服务器怎么加内存条
数据库理论与技术研究生
空间连续的关系型数据库
软件开发php学习外包
软件开发单元测试怎么做
黑龙江网络技术服务参考价
泰豪科技能源互联网事业部