AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统
发表于:2024-09-24 作者:千家信息网编辑
千家信息网最后更新 2024年09月24日,CTOnews.com 8 月 2 日消息,谷歌研究团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核
千家信息网最后更新 2024年09月24日AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统▲ 图源 谷歌研究团队
CTOnews.com 8 月 2 日消息,谷歌研究团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核系统,并分享了相关技术细节。
CTOnews.com经过查询得知,AI-Guardian 是一种 AI 审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。
谷歌 Deep Mind 的研究人员 Nicholas Carlini 在一篇题为"AI-Guardian 的 LLM 辅助开发"的论文中,探讨了使用 GPT-4"设计攻击方法、撰写攻击原理"的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。
据悉,GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian ,论文中提到,GPT-4 可以让 AI-Guardian 认为"某人拿着枪的照片"是"某人拿着无害苹果的照片",从而让 AI-Guardian 直接放行相关图片输入源。谷歌研究团队表示,通过 GPT-4 的帮助,他们成功地"破解"了 AI-Guardian 的防御,使该模型的精确值从 98% 的降低到仅 8%。
目前相关技术文档已经发布在 ArXiv 中,有兴趣的小伙伴们可以前往了解,不过 AI-Guardian 的开发者也同时指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。
研究
团队
图片
攻击
方案
模型
系统
技术
方法
照片
论文
开发
检测
防御
不当
精确
成功
人员
兴趣
原理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
cs软件开发
如何宣传青少年网络安全
无人机需要服务器吗
小学校园网络安全知识快板词
宝鸡软件开发参考价
管理物流用什么软件开发
世界网络安全议题
网络安全行业科普
女生可以学习软件开发吗
重庆软件开发app公司哪家好
郑州轩盈网络技术公司
网络安全广告法
服务器群杀毒
git下数据库
学院2022年网络安全工作思路
网络安全法的提取和
网络安全企业文化标语挂墙
兰州软件开发解决方案咨询
模拟创建软件开发团队
苏州直销软件开发怎样收费
地市建数据库
大话西游2服务器人气
linux数据库建实例
ftp服务器连接被重置
如何修改数据库相同数据
福州安卓智能软件开发公司
数据库期末试卷南京农业大学
qq imap 服务器
速达安装后无法连接数据库
自建数据库价格
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售