麻省理工学院称第三方 Twitter 机器人检测工具“不准确”:数据集过于简单,泛用性较差
发表于:2024-09-30 作者:千家信息网编辑
千家信息网最后更新 2024年09月30日,CTOnews.com 6 月 26 日消息,美国麻省理工学院(MIT)的研究团队近日发表论文指出,现有的第三方推特(Twitter)机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏泛用性。
千家信息网最后更新 2024年09月30日麻省理工学院称第三方 Twitter 机器人检测工具“不准确”:数据集过于简单,泛用性较差▲ 用于推特机器人检测的公开基准数据集 ▲ 简单模型与 SOTA 模型在基础数据集上的性能比较
CTOnews.com 6 月 26 日消息,美国麻省理工学院(MIT)的研究团队近日发表论文指出,现有的第三方推特(Twitter)机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏泛用性。
此前有消息称,机器人账户过多是阻止马斯克收购推特的原因之一。推特当时声称其日活跃用户中有 5% 是机器人账户,但马斯克表示这个数字要比 5% 高得多。
推特有自己的机器人账户识别系统,但并未公开。因此,对于普通公众而言,第三方工具是较为可行的检测方法。这些第三方工具使用从推特收集的数据集和机器学习模型来检测机器人的可疑迹象,许多工具和模型已被用于研究社交媒体上的机器人活动,相关论文甚至已达数千篇。
这些论文中的大多数基准数据集都是在不同推文中收集的数据集合,其中许多都是在特定推文(例如包含特定主题标签的推文)中收集的,每条都由人类手动标记为机器人或人类。然而这种经过专门训练的机器人检测模型在该专业领域表现出色,却并没有涵盖全部领域,并且严重依赖于特定数据,而不是机器人和人类之间的根本差异。
当这些模型在其他领域的数据集上进行测试时,它们的准确性很差,几乎与随机预测水平相当。同时,在许多数据集上,即使是相对简单的模型也与最先进的机器学习模型(SOTA)准确率相当。
换言之,在一个数据集上训练的模型不能推广到其他数据集,现有的机器人检测数据集由于数据收集简单而通用性较低。
最后,研究人员警告说,当使用现有的机器人检测数据集时,用户应该仔细考虑可能存在哪些类型的偏差。研究人员认为,一个根本的解决方案是推特等社交媒体本身就应该为研究人员提供丰富、可靠的数据以及高质量的真实标签。
CTOnews.com附上论文地址:点此前往
数据
机器
机器人
模型
检测
研究
工具
论文
账户
第三方
人员
人类
研究人员
领域
基准
媒体
是在
标签
根本
消息
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全审查法自
天津算力服务器租赁怎么收费
空间数据库技术与大数据技术
服务器上有个山形状的灯
学生网络安全教育作用
人工智能软件开发外包
银背互联网科技有限公司
安徽服务器机箱厂家虚拟主机
服务器系统管理制度
sip 管理服务器
网络安全四年薪资
煤矿网络安全事件
搭建共享存储服务器
云上部署容器需要租服务器吗
网络安全权利
手机做期货用什么软件开发
steam未能连接到ea服务器
无锡小事网络技术有限公司
北京新创互联网科技公司
数据库网吧管理系统软件
数据库流量怎么填
互联网如何引领科技发展
数据库表 类型
如何连接服务器不会卡
数据库清理日志语言
织梦文章数据库表
db2数据库远程连接
数据库与什么彼此独立
软件开发需要具备的素质
我的世界游戏时间服务器
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售