大数据中Smartbi怎样解决垃圾短信带来的困扰
大数据中Smartbi怎样解决垃圾短信带来的困扰,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
截至2020年12月,我国手机网民规模达9.86亿。移动互联网时代,个人信息和用户数据成为重要的商业资源。一些企业和个人为牟取经济利益,导致垃圾短信频发,让人们不胜其扰。保护私生活安宁已经成为一项迫切需要解决的社会问题。
垃圾短信
垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,主要包含以下属性:(一)未经用户同意向用户发送的商业类、广告类等短信息; (二)其他违反行业自律性规范的短信息。
垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。如伪基站可以给三公里内10万手机发信。现用户可以使用手机管家进行拦截此类短信。
用户迫切的需要一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别,以完善用户的通讯环境,为有关部门提供有效依据,维护运营商利益。数据挖掘平台Smartbi也不甘示弱,为了能尽快解决垃圾短信的问题,Smartbi利用Smartbi Mining进行建模,使用随机森林文本分类算法建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户的困扰。
Smartbi mining数据挖掘平台将操作分为四个步骤:
1. 数据获取,获取所需数据集;
2. 数据预处理,对数据进行文本中文分词、停用词过滤处理等;
3. 模型构建与评价,构建随机森林模型,并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。
4. 分析结果,总结和建议。
1数据获取
目前,某运营商已经积累了大量的垃圾短信数据。经过加工处理数据如图3-2所示。本案例收集了295755条短信文本数据,字段说明见表3-1。
表3-1 字段说明
图3-2 数据集
为了方便识别字段含义,这里接入一个元数据编辑节点取别名,如图3-3所示。
图3-3 元数据编辑
2 数据预处理
2.1、分词
中文分词是指将一整段文字切分为具有最小语义的词条信息,即以词作为基本单元,使用计算机自动对中文文本进行词语的切分,将文本数据转化为机器可识别的形式。英文单词之间是由空格作为分界符的,中文则是由字为基本书写单位,词语之间没有明显的区分符,因此,中文分词是中文信息处理的基础与关键。分词结果的准确性,对后续文本挖掘有着重要影响。如在进行特征的选择时,不同的分词效果将影响词语在文本中的重要性,从而影响特征的选择。
这里接入一个分词节点将text列进行分词,_c2_seg为分词后的字符串型结果,_c2_seg_words为分词后的WrappedArray类型结果,分词输出结果如图3-4所示。
2.3、TF-IDF
由于文本数据无法直接用于建模,因此需要将文本表示成计算机能够直接处理的形式,即文本数字化。TF-IDF算法即将文本数据进行数值化。TF意思是词频,IDF意思是逆文本频率指数,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高,说明该词越重要。
我们接入TF-IDF算法进行抽取变换,输出结果如图3-6所示。
3 构建模型
本案例采用随机森林算法模型,通过特征选择_c2_seg_words_filtered_idf列,目标标签为target,整体模型训练预测如图3-8所示。
图3-8 构建模型
4 模型评价
通过评估节点接入,如图3-8所示,评估结果如图3-10所示。
分析结果得出F1分数达到0.91,说明该模型效果比较不错的。
该模型能较好地识别出垃圾短信,有效进行垃圾短信过滤,解决运营商及用户的困扰。
Smartbi数据挖掘平台这个案例运用短信数据,对垃圾短信进行识别。主要实现了垃圾短信的精确识别,通过获得以上挖掘结果,为相关运营商提供一种解决垃圾短信过滤问题的方案。
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。