python中怎么利用jieba模块提取关键词
发表于:2025-02-05 作者:千家信息网编辑
千家信息网最后更新 2025年02月05日,python中怎么利用jieba模块提取关键词,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1.读取一个用户的全部数据时,注意区分rea
千家信息网最后更新 2025年02月05日python中怎么利用jieba模块提取关键词
python中怎么利用jieba模块提取关键词,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
1.读取一个用户的全部数据时,注意区分read(), readline()和readlines()的区别,read()读取文件全部内容并存在一个字符串变量中,readline()每次只读取文件里面的一行,readlines()返回一个行的列表。
2.注意将一个列表以字符串表达的写法:','.join(list).例如:list = [1,2,3],则可输出1,2,3
代码如下:
文本分析--关键词获取(jieba分词器,TF-IDF模型)
关键词获取可以通过两种方式来获取:
1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news, topK=10),获取词频在前10的作为关键词。
2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求TF-IDF值。
# -*-coding:utf-8-*-
import uniout # 编码格式,解决中文输出乱码问题
import jieba.analyse
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
"""
TF-IDF权重:
1、CountVectorizer 构建词频矩阵
2、TfidfTransformer 构建tfidf权值计算
3、文本的关键字
4、对应的tfidf矩阵
"""
# 读取文件
def read_news():
news = open('news.txt').read()
return news
# jieba分词器通过词频获取关键词
def jieba_keywords(news):
keywords = jieba.analyse.extract_tags(news, topK=10)
print keywords
def tfidf_keywords():
# 00、读取文件,一行就是一个文档,将所有文档输出到一个list中
corpus = []
for line in open('news.txt', 'r').readlines():
corpus.append(line)
# 01、构建词频矩阵,将文本中的词语转换成词频矩阵
vectorizer = CountVectorizer()
# a[i][j]:表示j词在第i个文本中的词频
X = vectorizer.fit_transform(corpus)
print X # 词频矩阵
# 02、构建TFIDF权值
transformer = TfidfTransformer()
# 计算tfidf值
tfidf = transformer.fit_transform(X)
# 03、获取词袋模型中的关键词
word = vectorizer.get_feature_names()
# tfidf矩阵
weight = tfidf.toarray()
# 打印特征文本
print len(word)
for j in range(len(word)):
print word[j]
# 打印权重
for i in range(len(weight)):
for j in range(len(word)):
print weight[i][j]
# print '\n'
if __name__ == '__main__':
news = read_news()
jieba_keywords(news)
tfidf_keywords()
看完上述内容,你们掌握python中怎么利用jieba模块提取关键词的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!
关键
关键词
词频
文本
矩阵
文件
内容
权重
问题
输出
模块
一行
可以通过
字符
字符串
文档
方法
更多
模型
束手无策
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发类深化设计方案
街道管理软件开发附录
网络安全新规什么时候实施
滨州物流报价软件开发
阿里云香港服务器域名dns
数据库压缩页面
软件开发的销售
软件开发类LOGO
张家港营销网络技术有哪些
黑色小队怎么调服务器
公积金中心软件开发公司
塞尔达dlc可以买别的服务器
网络安全批处理脚本
app借款软件开发
小学生网络安全教育策划
聊城ios软件开发哪家便宜
大学oracle数据库教程
网络安全知识宣讲活动主题
数据库概论是哪本书
数据库不用布尔类型
供应链金融软件开发公司
平度安卓软件开发企业
游戏手机号数据库
用iis搭建ftp服务器
一个网页是不是数据库
软件开发公司前景分析
互联网科技引领医疗
网络安全工程师工作枯燥
今日头条是由什么软件开发的
网络安全调研情况及调研实例