OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型
发表于:2024-11-12 作者:千家信息网编辑
千家信息网最后更新 2024年11月12日,CTOnews.com 8 月 8 日消息,OpenAI 旗下 GPT 模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI 最近推出了一个新功能,让网站可以
千家信息网最后更新 2024年11月12日OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型
CTOnews.com 8 月 8 日消息,OpenAI 旗下 GPT 模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI 最近推出了一个新功能,让网站可以阻止其网络爬虫(web crawler)从其网站上抓取数据训练 GPT 模型。
据CTOnews.com了解,网络爬虫是一种自动化的程序,可以在互联网上搜索和获取信息。OpenAI 的网络爬虫名为 GPTBot,其会以一定的频率访问各种网站,并将网页内容保存下来,用于训练 GPT 模型。
OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示,"使用 GPTBot 用户代理(user agent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。"对于不符合排除标准的来源,"允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高它们的通用能力和安全性。"
但是,这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。
互联网为大型语言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的训练数据,为 AI 训练获取数据已经变得越来越有争议。一些网站,包括 Reddit 和 Twitter,已经采取措施打击 AI 公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。
网站
数据
模型
训练
网络
爬虫
信息
内容
来源
用户
网页
问题
互联
中表
互联网
创作者
可以通过
地址
大部分
安全性
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
服务器带宽怎样才算满
首都律师更管法律数据库
德惠现代化网络安全服务保障
网络安全教材免费学
怎样设置数据库的开发者
软件开发专业哪个单招学校好
数据库分片树画法
安徽精致软件开发有限公司
数据导入数据库的时间
嵌入式软件开发 jd
网购软件开发论文
网络安全手绘画比赛
espn数据库怎么查
淘宝复制上货软件开发公司
我的世界服务器解除禁用指令
申请虚拟机服务器模板
设计师有没有软件开发
网络安全板报设计图案
服务器排名
软件开发竣工决算
网络安全宣传周活动街道
碧空之歌服务器毛蛋刀
七格互联网络科技可信吗
手机数据库登录失败
非法软件开发流程
网络安全政治经济
数据库中字段有多少
中国主要数据库企业
监督网络安全app
软件开发有哪些专业
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售