虎扑足球2024年10月13日发布:AI训练数据之困:垃圾进,垃圾出

⭐发布日期:2024年10月13日 | 来源:虎扑足球

⭐作者:张公乐 责任编辑:Admin

⭐阅读量:259 评论:8人

【2020澳门今晚结果加几率】

【澳门6合开彩下载2022最新】

【新澳门今晚结果直播回放下载】 【澳门码记录2019年第41期开什么】 【澳门2o21年结果查询表】 【澳天天彩资料自动更新2024版下载】 【下载澳门天天彩实况】 【2023澳门天天六开好彩结果查询表】 【澳彩图库手机app官方版下载最新免费】 【2024澳门记录结果查询表格】
【天天彩是什么东西】 【2024澳门现场结果查询表图片】 【澳门结果2023记录表格下载安装】 【港澳最快速结果】 【2020澳门天天彩视频大全集】 【2021特区总站】 【2021澳门天天彩今晚结果直播视频】 【澳门2021年结果记录图片】



所有模型都是通过在来自互联网的海量数据上进行训练来工作的,然而,随着人工智能越来越多地被用来生成充满垃圾信息的网页,这一过程可能会受到威胁。


近日,发表在 Nature 杂志上的一项新研究表明,当人工智能在人工智能生成的数据上进行训练时,模型输出的质量会逐渐下降,随着后续模型输出的数据被用作未来模型的训练数据,影响会进一步恶化。



(来源:Nature)


领导这项研究的牛津大学计算机科学家 Ilia Shumailov 将这一过程比作拍照。“如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被‘噪声’淹没。最后,你会得到一个黑暗的方块。”他说道。在人工智能领域,黑暗方块相当于“模型崩溃”,这意味着模型只会生成不连贯的垃圾。


这项研究可能会对当今最大的人工智能模型产生重大影响,因为它们使用互联网作为数据库。例如,GPT-3 的部分训练数据来自 Common Crawl,这是一个包含超过 30 亿个网页的在线存储库。随着越来越多的人工智能生成的垃圾网页开始充斥互联网,这个问题可能会变得更糟。


Ilia Shumailov 表示,当前的人工智能模型不仅会崩溃,而且可能会带来实质性影响:迭代速度减缓,性能越来越弱。


为了衡量和确定对性能的潜在影响,Ilia Shumailov 和他的同事根据维基百科的一组数据对大型语言模型(LLM)进行训练,然后根据 9 代的输出数据对新模型进行微调。他们使用一个名为“困惑度分数”的评价标准来衡量输出的荒谬程度,“困惑度分数”反映人工智能模型对未来序列部分预测能力,分数越高,模型的准确度就越低。


最终,在其他模型的输出数据上进行训练的模型具有更高的“困惑度分数”。例如,对于每一代,团队在输入以下内容后向模型询问下一个句子:


“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”


“根据 Poyntz Wright 的说法,一些教堂始建于 1360 年之前,通常由一位熟练的石匠和一小群流动的石匠完成,并辅以当地教区工人。但其他作者拒绝这个观点,而认为主要是由知名的建筑师根据早期的垂直式建筑风格设计教区教堂塔楼。”


在第 9 代(也是最后一代)中,模型返回以下内容:


“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”


“建筑。除了拥有世界上数量最多的黑 @-@ 尾兔、白 @-@ 尾兔、蓝 @-@ 尾兔、红 @-@ 尾兔、黄 @-。”


Ilia Shumailov 用这个类比解释了他认为正在发生的事情:想象一下,你要找一个学校里最不可能出现的学生名字,你可以检查每个学生的名字,但这会花很长时间。相反,你会查看 1000 个学生姓名中的 100 个。你得到了一个相当准确的预估,但这可能不是正确的答案;现在想象一下,另一个人过来根据你的 100 个名字进行预估,但只选择了 50 个,那么这个人的预估将会更加偏离正确答案。


“机器学习模型也会出现同样的情况。因此,如果第一个模型已经浏览了一半的互联网内容,那么第二个模型可能不会要求一半的互联网内容,实际上只是抓取最新的 10 万条推文,并在上面训练模型。”他说。


此外,互联网上的数据是有限的,为了满足对更多数据的需求,未来的人工智能模型可能需要在合成数据或人工智能生成的数据上进行训练。


麻省理工学院媒体实验室的研究人员、研究如何训练 LLM 的 Shayne Longpre(他没有参与这项研究)说:“基础模型依赖于数据规模才能获得更好的表现。他们希望在经过精心策划和控制的环境中使用合成数据来解决这个问题,因为如果继续在网上抓取更多数据,收益将会递减。”


斯坦福大学人工智能研究员 Matthias Gerstgrasser 在另一篇论文中研究了模型崩溃的问题。在他看来,将合成数据添加到现实世界数据中而不是替换它并不会引起任何重大问题。但他补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”


随着时间的推移,这种“退化”导致模型中的信息失真,少数样本的信息在模型中严重扭曲,因为它往往更加关注训练数据中普遍的样本。


麻省理工学院媒体实验室研究算法的 Robert Mahari(他也没有参与这项研究)表示,在当前的模型中,这可能会影响代表性不足的语言,因为它们需要更多的合成(或人工智能生成)数据集。


一个有助于避免退化的想法是,确保模型给予原始的人类生成数据更多权重。Ilia Shumailov 研究的另一个项目允许后代对原始数据集的 10% 进行采样,而这减轻了一些负面影响。


这需要从人类生成的原始数据到后代数据进行追踪,即数据来源。但这需要一种方法来过滤互联网上的人类生成数据和人工智能生成数据,但这一点目前尚未完全解决。尽管现在存在许多工具能够确定文本是否由人工智能生成,但它们往往不够准确。


“不幸的是,我们的问题比答案多。”Ilia Shumailov 说, “但很明显,了解数据来自哪里以及在多大程度上可以相信它能够捕获正在处理数据的代表性样本,这一点很重要。”


原文链接:

https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense/

【澳彩资料真的准2727】 【澳门2024结果直播视频下载安装】
【2024澳门结果今晚直播视频播放】 【澳彩图库手机app官方版下载安装苹果】
【澳门49码第一现场视频】 【2024澳彩记录查询表66期结果】
【天天奥彩管家婆一句话】 【今晚澳门是什么】
【2021澳彩十二生肖表】 【澳门天天彩是私彩吗还是中奖了】
【澳门天天彩结果查询方法大全最新消息】 【最准一肖一码100%噢】 【澳门直播现场全网最快】
上一条新闻 下一条新闻

推荐文章

发表评论

原陵老翁

3秒前:Ilia Shumailov 研究的另一个项目允许后代对原始数据集的 10% 进行采样,而这减轻了一些负面影响。

IP:79.20.7.*

梅尔文·格雷格

2秒前:一个有助于避免退化的想法是,确保模型给予原始的人类生成数据更多权重。

IP:74.23.4.*

大畑伸太郎

1秒前:但他补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。

IP:55.69.3.*

虎扑足球APP介绍

APP图标

2024澳门结果今晚结果查询表APP名:虎扑足球

版本:V5.44.154

更新时间:2024-10-12 23:21

澳门6合开彩app下载49图片这是一个功能强大的2024澳门结果今晚直播视频下载APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:因此,如果第一个模型已经浏览了一半的互联网内容,那么第二个模型可能不会要求一半的互联网内容,实际上只是抓取最新的 10 万条推文,并在上面训练模型。

天下图文资讯天空彩彩票APP介绍

APP图标

767澳门记录APP名:虎扑足球

版本:V2.85.774

更新时间:2024-10-12 23:21

无论是澳门天天彩是骗局吗知乎记录查询快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

澳门现场直播2020年APP介绍

APP图标

澳门六叔公论坛资料2023APP名:虎扑足球

版本:V9.11.227

更新时间:2024-10-12 19:13

澳门6合直播记录应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

2024澳门六今晚结果APP介绍

APP图标

澳门6合开彩下载APP名:虎扑足球

版本:V5.63.204

更新时间:2024-10-12 21:22

2021年彩图澳彩全年历史图库这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

下载港澳彩宝典软件APP介绍

APP图标

二四六天天彩资料大全网最新版APP名:虎扑足球

版本:V5.79.453

更新时间:2024-10-12 13:18

这是一款功能强大的62849.cσm查询最快应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:麻省理工学院媒体实验室研究算法的 Robert Mahari(他也没有参与这项研究)表示,在当前的模型中,这可能会影响代表性不足的语言,因为它们需要更多的合成(或人工智能生成)数据集。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2024澳门结果出来了吗今天APP介绍

APP图标

澳门结果+结果2023十二生肖APP名:虎扑足球

版本:V2.27.203

更新时间:2024-10-12 20:18

这是一款功能强大的新澳今天最新资料311应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:为了衡量和确定对性能的潜在影响,Ilia Shumailov 和他的同事根据维基百科的一组数据对大型语言模型(LLM)进行训练,然后根据 9 代的输出数据对新模型进行微调。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

下载澳门天天彩结果查询网站APP介绍

APP图标

澳门传真资料查询2023最新网站APP名:虎扑足球

版本:V5.82.702

更新时间:2024-10-12 20:23

这是一款功能强大的最新澳门6合开彩结果2024年应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:尽管现在存在许多工具能够确定文本是否由人工智能生成,但它们往往不够准确。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

2024年澳门现场直播网站大全APP介绍

APP图标

2020澳门结果十灬APP名:虎扑足球

版本:V7.74.686

更新时间:2024-10-12 15:24

今天的最新动态包括:但这需要一种方法来过滤互联网上的人类生成数据和人工智能生成数据,但这一点目前尚未完全解决。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门正版传真内部传真下载安装免费APP介绍

APP图标

新澳门记录十结果2023APP名:虎扑足球

版本:V4.45.516

更新时间:2024-10-12 22:13

这是一款功能强大的大港澳结果+记录app应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:“不幸的是,我们的问题比答案多。。

澳门天天彩是由官方开的吗是真的吗APP介绍

APP图标

昨天晚上澳门结果APP名:虎扑足球

版本:V1.65.983

更新时间:2024-10-12 17:19

这款功能强大的澳门天天彩200期结果查询表应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

新澳门最新记录大全查询表APP介绍

APP图标

下载澳门天天彩有什么风险APP名:虎扑足球

版本:V6.47.119

更新时间:2024-10-12 14:16

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

澳天天彩结果记者APP介绍

APP图标

澳门天天彩的一期网站德云APP名:虎扑足球

版本:V8.60.314

更新时间:2024-10-12 16:24

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。