AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统
发表于:2024-11-25 作者:千家信息网编辑
千家信息网最后更新 2024年11月25日,CTOnews.com 8 月 2 日消息,谷歌研究团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核
千家信息网最后更新 2024年11月25日AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统▲ 图源 谷歌研究团队
CTOnews.com 8 月 2 日消息,谷歌研究团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核系统,并分享了相关技术细节。
CTOnews.com经过查询得知,AI-Guardian 是一种 AI 审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。
谷歌 Deep Mind 的研究人员 Nicholas Carlini 在一篇题为"AI-Guardian 的 LLM 辅助开发"的论文中,探讨了使用 GPT-4"设计攻击方法、撰写攻击原理"的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。
据悉,GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian ,论文中提到,GPT-4 可以让 AI-Guardian 认为"某人拿着枪的照片"是"某人拿着无害苹果的照片",从而让 AI-Guardian 直接放行相关图片输入源。谷歌研究团队表示,通过 GPT-4 的帮助,他们成功地"破解"了 AI-Guardian 的防御,使该模型的精确值从 98% 的降低到仅 8%。
目前相关技术文档已经发布在 ArXiv 中,有兴趣的小伙伴们可以前往了解,不过 AI-Guardian 的开发者也同时指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。
研究
团队
图片
攻击
方案
模型
系统
技术
方法
照片
论文
开发
检测
防御
不当
精确
成功
人员
兴趣
原理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库中更新逻辑字段
计算机网络技术技能举例
一般软件开发步骤
阿里云 重启数据库
计算机软件开发费税率
lore网络技术
长沙匡尚互联网科技有限公司
昭通市四合网络技术有限公司
网络技术部开发管理
埃辛诺斯 数据库
企业网络安全有关书籍推荐
食药监网站数据库
根据网络安全法惩罚冬奥会
软件开发经营活动计划与方案
科技创新与互联网规划
关于网络技术的电视剧
两个客户同时对数据库进行了更改
最规范的数据库nf
数据库字段数值显示null
服务器cpu降频排查
阳城网络安全和信息化委员会
小学护苗网络安全教育教案
华为云租服务器价格
网络安全设计应考虑
软件开发与软件测试区别
千年都有什么服务器
中医宝典数据库
为什么加强网络安全意识
数据库基本表的设计
网络安全专科录取分数线
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售