第三方推特(Twitter)机器人账户自动检测工具的局限性及其解决方案
转载 网络 | 2023年06月26日
推特有自己的机器人账户识别系统,但并未公开。因此,对于普通公众而言,第三方工具是较为可行的检测方法。这些第三方工具使用从推特收集的数据集和机 ......
6 月 26 日消息,麻省理工学院(MIT)的研究团队近日发表文章指出,现有的第三方推特(Twitter)机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏泛用性。此前有消息称,机器人账户过多是阻止马斯克收购推特的原因之一。推特声称日活跃用户中有5%是机器人账户,但马斯克表示这个数字要比5%高得多。推特有自己的机器人账户识别系统,但并未公开。
对于普通公众而言,第三方工具是较为可行的检测方法。这些第三方工具使用从推特收集的数据集和机器学习模型来检测机器人的可疑迹象,许多工具和模型已被用于研究社交媒体上的机器人活动,相关论文甚至已达数千篇。然而这些论文中的大多数基准数据集都是在不同推文中收集的数据集合,其中许多都是在特定推文(例如包含特定主题标签的推文)中收集的,每条都由人类手动标记为机器人或人类。
这种经过专门训练的机器人检测模型在该专业领域表现出色,却并没有涵盖全部领域,并且严重依赖于特定数据,而不是机器人和人类之间的根本差异。当这些模型在其他领域的数据集上进行测试时,它们的准确性很差,几乎与随机预测水平相当。
同时,在许多数据集上,即使是相对简单的模型也与最先进的机器学习模型(SOTA)准确率相当。研究人员警告说,当使用现有的机器人检测数据集时,用户应该仔细考虑可能存在哪些类型的偏差。研究人员认为,一个根本的解决方案是推特等社交媒体本身就应该为研究人员提供丰富、可靠的数据以及高质量的真实标签。
附上论文地址:点此前往
网友评论:(请各位网友遵纪守法并注意语言文明,评论仅供参考不代表本站立场)