基于hanlp的es分词插件
发表于:2024-09-26 作者:千家信息网编辑
千家信息网最后更新 2024年09月26日,摘要: elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,
千家信息网最后更新 2024年09月26日基于hanlp的es分词插件
摘要: elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
Elasticsearch
默认分词
输出:
IK分词
输出:
hanlp分词
输出:
ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词
安装步骤:
1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data
目录的地址
2、修改es config目录下的jvm.options文件,最后一行添加
-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy
重启 es
GET /_analyze?analyzer=hanlp-index&pretty=true
{
"text":"张柏芝士蛋糕店"
}
测试是否安装成功
analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)
自定义词典
修改 plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件
格式遵从 [单词] [词性A] [A的频次]
修改完后删除同目录下的 CustomDictionary.txt.bin文件
重启 es服务
目录
文件
输出
插件
模式
词典
语义
成功
一行
上下
上下文
人名
分布式
单字
单词
句子
含义
地名
地址
属性
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
加强通信网络安全
软件开发公司排名联系方式
软件开发岗位应聘理由
焦作金蝶财务软件开发
湖北企业党建软件开发
我的世界服务器为什么会过期
python校验数据库
河南c语言软件开发价格
数据库建完表后怎么填入数据
大学生学习网络安全教育的意义
网络安全宣传周几年一次
落实党组网络安全工作责任制
数据库查询倒数第二条数据
获取网站数据库路径
syql数据库处理工具
中国科技信息期刊遴选数据库
网络安全科普实验
软件开发专业n
默纳克服务器乱码
广州物流软件开发公司如何选择
郑州市汇智互联网科技有限公司
天擎数据库
崇明区互联网视频系统服务器
君德网络技术
网络安全海报属于什么作品类别
宁波有道网络技术公司
amd服务器安装oracle
国家网络安全周奖
软件开发公司部门职员构架
怎么找出app的后台服务器