《从Lucene到Elasticsearch:全文检索实战》学习笔记五
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,今天我给大家讲讲tf-idf权重计算tf-idf权重计算:tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出现的次数成正比,会
千家信息网最后更新 2025年02月02日《从Lucene到Elasticsearch:全文检索实战》学习笔记五
今天我给大家讲讲tf-idf权重计算
tf-idf权重计算:
tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出现的次数成正比,会随着它在文档集中出现的频率成反比。如果一个词项在一遍文档中出现的频率非常高,说明其比较重要,如果这个词项在其他文档中出现的频率也高,那么说明这个词有可能是比较通用的。
tf代表词项频率,如果要计算指定词项的词频,统计该词在整篇文档中出现的次数就可以了。如果一篇3000字的文档中词语"足球"出现了3次,我很难判定这片文章和足球相关,但是一篇100字但微博中通用出现三次"足球"。基本可以断定微博内容和足球有关,为了削弱文档长度但影响,需要将词频标准化,计算公式如下
另外,词频标准化的方法不止一种,Lucene中采用了另外一种词频标准化方法:
文档频率df表示包含指定词的所有文档数目。df通常比较大,把它映射到一个较小的取值范围,用逆文档频率(idf)来表示':
从上面公式中可以看出分母越大,说明该词越常见,逆文档频率越小。分母中文档数加1是进行平滑处理,防止所有文档都不包括某个词时分母为0的情况发生。词项的权重用TF-IDF来表示,计算公式如下:
通过tf-idf可以把文档表示成n维的词项权重向量
作者:柯之梦
来源:CSDN
原文:https://blog.csdn.net/yin4302008/article/details/86104662
版权声明:本文为博主原创文章,转载请附上博文链接!
文档
频率
词频
足球
重要
公式
权重
标准
标准化
分母
文章
方法
次数
较大
平滑
中词
代表
作者
原创文章
原文
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全教程哪个好
设置数据库依据是什么
浙江正泰网络技术公司怎么样
万德数据库年费
行业网络安全论文
服装类软件开发
沈阳浟湙网络技术有限公司
华为网络技术大赛复赛
软件开发项目进度把控
天津华为服务器经销商
非关系型数据库包含哪几种类型
战地服务器管理员工具下载
软件服务器验证方式
检查管理服务器是啥
adobe云服务器
崇明区网络营销网络技术什么价格
北京惠普服务器续保维护
网络安全点子小报制作方法
标准数据库产品
网络安全投标
cec软件开发是真是假
网络安全法宣传经验材料
手机数据库应用开发
命令行连接db2数据库
5.2使用数据库教学反思
为了提高公司网络安全
人社局网络安全自查
县妇幼保健院网络安全宣传
网络技术应用教学设计一节
河南服务器机箱哪里有