Scikit-learn文本聚类实例分析
发表于:2024-11-29 作者:千家信息网编辑
千家信息网最后更新 2024年11月29日,Scikit-learn文本聚类实例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。# -*- coding=utf-
千家信息网最后更新 2024年11月29日Scikit-learn文本聚类实例分析
Scikit-learn文本聚类实例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
# -*- coding=utf-8 -*-"""text category"""from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.naive_bayes import MultinomialNBcategories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)print len(twenty_train.data)len(twenty_train.filenames)count_vect = CountVectorizer()X_train_counts = count_vect.fit_transform(twenty_train.data)print X_train_counts.shapeprint count_vect.vocabulary_.get('algorithm')tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)X_train_tf = tf_transformer.transform(X_train_counts)print X_train_tf.shapetfidf_transformer = TfidfTransformer()X_train_tfidf = tf_transformer.fit_transform(X_train_counts)print X_train_tfidf.shapeclf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)docs_new = ['God is love', 'OpenGl on the Gpu is fast']X_new_counts = count_vect.transform(docs_new)X_new_tfidf = tfidf_transformer.fit_transform(X_new_counts)predicted = clf.predict(X_new_tfidf)for doc, category in zip(docs_new, predicted): print '%r=>%s' % (doc, twenty_train.target_names[category]
对fetch_20newsgroups中的2257条文档进行分类
统计每个词出现的次数
用tf-idf统计词频,tf是在一个文档里每个单词出现的次数除以文档的单词总数,idf是总的文档数除以包含该单词的文档数,再取对数;tf * idf就是这里用到的值,值越大表明单词越重要,或越相关。
例子具体做法:
先计算了每个单词出现的次数
然后计算了tf-idf值
然后带入模型进行训练
最后预测了两个新文档的类型
结果:
'God is love'=> soc.religion.christian'OpenGL on the GPU is fast'=> comp.graphics
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。
文档
单词
次数
帮助
统计
实例
实例分析
文本
分析
清楚
两个
例子
做法
内容
对数
对此
就是
总数
文章
新手
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
广州圣山网络技术有限公司
亳州教学视频系统服务器
惠民优选网络技术有限公司
少先队员组织信息数据库进入
服务器安全责任
数据库安全解释
广西学软件开发
如何把数据库和java
联想塔式服务器
晨成网络技术有限公司
锐思数据库怎么查审计费用
滨海新区应用软件开发服务价钱
电脑服务器游戏大全
上海德迅网络技术有限公司
数据库中删除一条记录
天津市软件开发
开展信息网络安全培训
怀旧服玩联盟打战场选服务器
笔记本服务器位置在哪
怎么自动搜索数据库
华为机架式服务器供应商
浙江推荐的软件开发服务保障
日企软件开发常见日文
河南易同辉网络技术有限公司
软件开发简历项目贡献
数据库一般使用什么程序
增强全社会网络安全和防护技能
如何登录服务器路由器
学生怎么样正确认识网络安全
车底扫描系统软件开发