导航：首页 > 开发技术 >

Python怎么实现垃圾邮件识别

发表于：2024-10-04 作者：千家信息网编辑

千家信息网最后更新 2024年10月04日，这篇文章主要介绍了Python怎么实现垃圾邮件识别的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python怎么实现垃圾邮件识别文章都会有所收获，下面我们一起来看看吧。开

千家信息网最后更新 2024年10月04日Python怎么实现垃圾邮件识别

这篇文章主要介绍了Python怎么实现垃圾邮件识别的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python怎么实现垃圾邮件识别文章都会有所收获，下面我们一起来看看吧。

开发工具

Python版本：3.6.4

相关模块：

scikit-learn模块；

jieba模块；

numpy模块；

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

逐步实现

（1）划分数据集

网上用于垃圾邮件识别的数据集大多是英文邮件，所以为了表示诚意，我花了点时间找了一份中文邮件的数据集。数据集划分如下：

训练数据集：

7063封正常邮件(data/normal文件夹下)；

7775封垃圾邮件(data/spam文件夹下)。

测试数据集：

共392封邮件(data/test文件夹下)。

（2）创建词典

数据集里的邮件内容一般是这样的：

首先，我们利用正则表达式过滤掉非中文字符，然后再用jieba分词库对语句进行分词，并清除一些停用词，最后再利用上述结果创建词典，词典格式为：

{"词1": 词1词频, "词2": 词2词频...}

这些内容的具体实现均在"utils.py"文件中体现，在主程序中(train.py)调用即可：

最终结果保存在"results.pkl"文件内。

大功告成了么？当然没有！！！

现在的词典里有52113个词，显然太多了，有些词只出现了一两次，后续特征提取的时候一直空占着一个维度显然是不明智的做法。因此，我们只保留词频最高的4000个词作为最终创建的词典：

最终结果保存在"wordsDict.pkl"文件内。

（3）特征提取

词典准备好之后，我们就可以把每封信的内容转换为词向量了，显然其维度为4000，每一维代表一个高频词在该封信中出现的频率，最后，我们将这些词向量合并为一个大的特征向量矩阵，其大小为：

(7063+7775)×4000

即前7063行为正常邮件的特征向量，其余为垃圾邮件的特征向量。

上述内容的具体实现仍然在"utils.py"文件中体现，在主程序中调用如下：

最终结果保存在"fvs_%d_%d.npy"文件内，其中第一个格式符代表正常邮件的数量，第二个格式符代表垃圾邮件的数量。

（4）训练分类器

我们使用scikit-learn机器学习库来训练分类器，模型选择朴素贝叶斯分类器和SVM(支持向量机)：

（5）性能测试

利用测试数据集对模型进行测试：

结果如下：

可以发现两个模型的性能是差不多的(SVM略胜于朴素贝叶斯)，但SVM更倾向于向垃圾邮件的判定。

关于"Python怎么实现垃圾邮件识别"这篇文章的内容就介绍到这里，感谢各位的阅读！相信大家对"Python怎么实现垃圾邮件识别"知识都有一定的了解，大家如果还想学习更多知识，欢迎关注行业资讯频道。

很赞哦！

邮件垃圾数据文件内容向量模块词典特征结果测试代表文件夹格式模型知识词频分类训练朴素数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全金融软件开发任职描述数据库响应速度应该为多少博兴应用软件开发价格水彩画网络安全宣传周奉贤区软件开发系统哈利路亚互联网科技有限公司部署网络安全设备谁能做软件开发 jsp连接数据库增删改查手游方舟服务器招人物资无限栖霞区智能化软件开发信息推荐 ibm服务器售后维修网点计算机网络安全网络安全 ip查服务器湘西计算机软件开发杭州工业软件开发设计宇轩网络技术有限公司软件开发主要介绍看直播显示服务器异常本地ftp服务器泰安联想服务器总代理销售电话怎样查找外卖大数据库服务器的电源没有线怎么用教室管理数据库软件开发可以用询价方式吗荷兰网络安全的分析乐高无限有没有服务器网络安全等级保护评测流程淄博数据库归档日志恢复数据库安平西集网络安全产业园

千家信息网

千家信息网

Python怎么实现垃圾邮件识别

开发工具

环境搭建

DIV和table页面布局的区别和联系是怎样的

怎么使用Protobuf

相关文章