导航：首页 > 开发技术 >

Scikit-learn文本聚类实例分析

发表于：2024-11-29 作者：千家信息网编辑

千家信息网最后更新 2024年11月29日，Scikit-learn文本聚类实例分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。# -*- coding=utf-

千家信息网最后更新 2024年11月29日Scikit-learn文本聚类实例分析

Scikit-learn文本聚类实例分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

# -*- coding=utf-8 -*-"""text category"""from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.naive_bayes import MultinomialNBcategories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)print len(twenty_train.data)len(twenty_train.filenames)count_vect = CountVectorizer()X_train_counts = count_vect.fit_transform(twenty_train.data)print X_train_counts.shapeprint count_vect.vocabulary_.get('algorithm')tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)X_train_tf = tf_transformer.transform(X_train_counts)print X_train_tf.shapetfidf_transformer = TfidfTransformer()X_train_tfidf = tf_transformer.fit_transform(X_train_counts)print X_train_tfidf.shapeclf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)docs_new = ['God is love', 'OpenGl on the Gpu is fast']X_new_counts = count_vect.transform(docs_new)X_new_tfidf = tfidf_transformer.fit_transform(X_new_counts)predicted = clf.predict(X_new_tfidf)for doc, category in zip(docs_new, predicted):    print '%r=>%s' % (doc, twenty_train.target_names[category]

对fetch_20newsgroups中的2257条文档进行分类

统计每个词出现的次数
用tf-idf统计词频，tf是在一个文档里每个单词出现的次数除以文档的单词总数，idf是总的文档数除以包含该单词的文档数，再取对数；tf * idf就是这里用到的值，值越大表明单词越重要，或越相关。

例子具体做法：

先计算了每个单词出现的次数
然后计算了tf-idf值
然后带入模型进行训练
最后预测了两个新文档的类型

结果：

'God is love'=> soc.religion.christian'OpenGL on the GPU is fast'=> comp.graphics

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注行业资讯频道，感谢您对的支持。

很赞哦！

文档单词次数帮助统计实例实例分析文本分析清楚两个例子做法内容对数对此就是总数文章新手数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全广州圣山网络技术有限公司亳州教学视频系统服务器惠民优选网络技术有限公司少先队员组织信息数据库进入服务器安全责任数据库安全解释广西学软件开发如何把数据库和java 联想塔式服务器晨成网络技术有限公司锐思数据库怎么查审计费用滨海新区应用软件开发服务价钱电脑服务器游戏大全上海德迅网络技术有限公司数据库中删除一条记录天津市软件开发开展信息网络安全培训怀旧服玩联盟打战场选服务器笔记本服务器位置在哪怎么自动搜索数据库华为机架式服务器供应商浙江推荐的软件开发服务保障日企软件开发常见日文河南易同辉网络技术有限公司软件开发简历项目贡献数据库一般使用什么程序增强全社会网络安全和防护技能如何登录服务器路由器学生怎么样正确认识网络安全车底扫描系统软件开发

千家信息网

千家信息网

Scikit-learn文本聚类实例分析

Linq Tracking Changes机制有什么作用

css中如何创建针对p的特殊规则

相关文章