美丽浙江2024年10月12日发布:AI数据之战:大模型的“燃料”还能烧多久?

⭐发布日期:2024年10月12日 | 来源:美丽浙江

⭐作者:박효원 责任编辑:Admin

⭐阅读量:836 评论:9人

【494949澳门今晚开什么】

【新澳彩资料免费长期公开四大才子】

【2024澳门精准正版资料73期】 【2024澳门特马图app】 【ww777766香港马会总纲诗】 【澳门六开奖结果2023开奖记录查询网站】 【澳门2024正版资料大全完整版】 【2024年白小姐开奖今期查询】 【2024澳门天天开好彩大全46】 【新澳门最快开奖结果开奖网站】
【澳门开奖记录开奖结果2024】 【新澳今天最新资料311】 【2024澳门特码今晚开奖】 【最准一肖一码一一子中特37b】 【新奥彩今晚开什么生肖】 【2024今晚开特马开什么号】 【8383848484管家婆中特】 【白小姐四肖期期准预测方法】

真实数据即将耗完,合成数据训练成替代品?

作者/ IT时报记者 贾天荣

编辑/ 王昕

AI时代,高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。

近日有外媒报道,OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联网的书籍和文章。事实上,在大模型发展如火如荼的当下,任何大模型公司对于高质量语料的需求都不会停止。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙与舒斯特公司。

但作为人工智能大模型的“燃料”,高质量语料正在面临“枯竭”。

加州大学伯克利分校计算机科学教授斯图尔特・罗素就曾发出警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。随着越来越多出版商指责大模型公司窃取受版权保护的数据,一场知识产权的纷争也即将打响,获取数据正变得越来越难。

在2024年世界人工智能大会(WAIC2024)上,如何有效供给高质语料数据,以支持大规模AI模型的产业应用,成为业界内外专家热烈讨论的核心议题之一。面对数据稀缺与模型旺盛需求之间的矛盾,学界与业界正在探索可持续的解决方案,以确保AI健康发展的同时,兼顾创新与知识产权的平衡。

“做大模型应该像造火箭”

“如果我们所有数据都放在一个表格里,那么做数据分析的门槛和成本都会比较低。”在中国科学院院士鄂维南看来,如何将大量的非结构化数据转化为结构化形式,以降低数据分析门槛与成本,成为亟待解决的问题。

非结构化数据,是如文本、图片、语音及视频等数据,因其复杂性和多样性,给大模型的数据分析带来巨大挑战。

鄂维南以全球第一个AI数据库——MyScale数据库为例,该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖,能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为,这是目前国际上综合性能最好、功能最强的AI数据库。

鄂维南强调,AI的发展需以“大模型+大数据库”双轮驱动。这意味着所有数据资源应集中于一个数据库内,通过大模型的处理,实现数据价值的最大化。同时,利用专用知识库和高质量数据,低成本地批量生产智能体或小型模型。这一策略不仅适用于特定行业,还能服务于整个科研行业,涵盖化学、材料、生物等多个领域。

针对当前数据处理工具的缺失,院士团队正致力于打造一系列工具,以弥补在数据清洗、整理及训练大模型方面的空白。此外,鄂维南院士还提出了一种创新的“忆立方模型”,旨在通过知识分层处理,减少模型规模,降低训练成本。该模型已在上海临港新片区的试点项目中得到验证,其将模型规模降低10倍,在降低模型规模与成本方面具有潜力。

我们在数据库方面是有优势的,在高性能计算方面还有很大空间没有挖掘,就像当年造火箭一样,每一样都搞不过别人,但是我们希望整个系统不比别人差。”鄂维南院士呼吁,中国应从底层逻辑出发,深入探索AI的基本原理,并从系统角度布局AI发展,涵盖算力、数据、模型与高性能计算等多个方面。他强调,单纯堆砌大模型并非长久之计,需从整体系统优化入手。

华为上海代表处战略官房思哲也表示,华为在训练其盘古大模型时,也面临着和所有大模型玩家一样的问题:“数据的规模要大,质量要高,种类也要多元化,同时需要这些数据能够以一定的配比形成体系化。”房思哲特别提到了专业知识类和行业知识类数据的获取难度,尤其是在外文数据方面。

事实上,各方对于数据获取的探索从未停止。7月6日,“语料筑基 智生时代”2024WAIC语料主题论坛上,上海市级语料公司库帕思携手大模型语料生态伙伴,集中发布了一批大模型语料成果,包括语料运营平台1.0上线、首批十大高质量语料产品发布等。其中,“语料运营平台1.0”实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

为进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生集中发布了十大语料数据产品。此外,本次论坛中还发布了金融、生命健康、教育三项行业语料术白皮书。

数据标注 用“魔法”提纯“魔法”

高质量数据的获取,离不开大量的标注工作,一段时间内,数据标注员的需求也随着AI技术的发展而大幅增加。

“AI已经进入了2.0时代。”北京星尘纪元智能科技有限公司总裁章磊回顾了2019年与国家融媒体实验室的合作,当时双方致力于语料的深度清洗、详尽标注与规则制定,三年时间里,这项工作消耗了大量的人力资源,每一句话、每一个实体、每一条问答规则都经过了细致入微的标注。

然而大模型出现之后,这一切开始发生变化。大模型的出现,意味着AI系统本身已具备了相当程度的智能,能够处理复杂的自然语言处理(NLP)任务,无需人工再深入到每一个细节之中:“对我们来说,这看似让工作变得简单,但也带来了全新的挑战。”

大模型的训练和优化,对数据的维度和认知深度提出了更高要求。与此同时,尽管需要人工介入的人员更精简,但对人员的要求却发生了质的飞跃。现在需要的是更高层次的人才,通常具备硕士研究生以上的学术背景,才能承担起大模型语料的深入体系设计工作。

在标贝(青岛)科技有限公司联合创始人兼首席技术官李秀林看来,大模型的出现不仅改变了数据需求的本质,还催生了新的供需动态和合作模式,同时也重新定义了模型在数据生产过程中的角色。

首先,从需求侧来看,大模型对数据规模和类型提出了全新要求。传统的数据需求主要集中在特定场景的精细标注,而现在,无监督学习所需的海量语料成为关键。这不仅增加了数据筛选和清洗的复杂度,还要求更深层次的数据加工技术,以确保数据质量满足大模型训练的高标准。

其次,各行业领域的专业语料在大模型的应用中扮演着至关重要的角色。处理这些领域的语料需要深厚的行业知识和专业技能,远非简单的数据标注所能比拟。这要求数据处理团队不仅要具备技术实力,还要深入了解特定领域的专业知识,才能有效挖掘和利用领域语料的价值。

随着大模型的普及,数据的供应方也在悄然变化。传统的数据公司不再是唯一的来源,许多拥有行业数据的团队或组织开始直接参与到数据供给中来。然而,如何将这些语料有效整合进大模型,成为一道亟待解决的难题。

大模型在数据生产过程中的作用发生了根本性变化。它不再仅仅是被动的数据消费者,而是成为数据生产的参与者和优化者。

由此,自动化标注的发展与应用也成为AI领域的一大热点,其目的是减少人工参与、提高数据处理效率和降低成本。章磊表示,在自动化标注的初期,预标注阶段是主流。借助已有模型的预测能力,数据被初步标记,随后交由人工审核修正,以确保标注的准确性。

然而,随着技术的演进,自动化标注不再局限于简单的模型预测。星尘纪元等企业投入大量资源,自主研发了50余种适用于各类场景的自动化标注工具和算法,实现了任务细分与专项处理,显著提升了标注效率与质量。另一方面,通过分析视频序列中的时序关系,前后帧数据互相监督,实现自我校正,显著提高了动态场景下的标注精度。

章磊表示,理想状态下,自动化标注有望覆盖90%以上的数据处理需求,甚至逼近99%的自动化水平。但在面对复杂或异常数据时,实际的提效比例只有30~50%,章磊认为,AI大模型和多模态技术的驱动下,自动化标注的准确性和覆盖率将持续提升,自动化与人工相结合的模式将成为常态。

李秀林指出,数据标注实际上是一个非常好的人机协同场景,两者相辅相成的过程。随着技术的发展,越来越多的标注工作从完全依赖人工转变为机器辅助或主导,人工的角色更多地转向了质量控制和复杂问题的解决。

在业务实践中,标贝科技经常面临新的、更复杂的标注需求,这些需求往往超出了现有模型的能力范围。面对这种情况,公司在初始阶段可能需要纯人工介入,随后工程师根据任务需求开发和迭代模型,逐步提高自动化标注的比例。这一过程体现了从“纯人工”到“人工为主导”,再到“机器为主导”,最终可能达到人工仅负责质检,甚至完全无需人工干预的演变。

合成数据 完全取代真实数据?

科技巨头们已经在多个场景探索合成数据的应用,如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator;亚马逊使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;微软的Azure云服务推出了airSIM平台,创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……

目前,GPT宣称已经用完了人类互联网的数据,英伟达的Nemotron-4也宣称用了98%的合成数据,而人工标注数据仅有2%。未来,合成数据是否会完全取代真实数据?

多位专家都认为,合成数据和真实数据各有优势和局限性,它们在AI模型训练中的角色和重要性将根据具体的应用场景和需求而变化。在未来,合成数据和真实数据很可能会并存,形成互补,共同推动AI技术的发展。

“合成数据对于大模型训练的重要性是毋庸置疑的。”房思哲透露,华为已经在大模型训练和自动驾驶等领域中使用了合成数据,在对真实世界细节要求不高的情况下,合成数据可以有效补充或替代真实数据,“但在一些对真实性要求更高的场景下,我们觉得合成数据可能使用起来是要谨慎的。”

房思哲表示,行业数据往往需要在真实世界中生成,这涉及人类活动、经验和观察,而这些是合成数据难以完全捕捉的,因此,即使基础大模型可以从合成数据中获益,行业大模型仍然需要大量高质量的真实数据来训练,以确保其在特定应用场景下的准确性和可靠性。

中云开源数据技术(上海)有限公司创始人、CEO陈刚则认为,就工业领域而言,合成数据不会成为主流。他的理由主要基于两个方面,首先,工业数据并非缺乏,而是受限于版权、产权等因素,导致现有数据未能得到充分利用;其次,合成数据在特定场景下(如核电站故障预测)具有应用价值,但在大多数情况下,特别是对于大模型而言,合成数据的迭代可能导致信息失真,使其在工业应用中难以达到实际效果。返回搜狐,查看更多

责任编辑:

【新奥门六和开奖结果】 【2024新澳今晚资料鸡号几号】
【新澳2024年最新版资料】 【2024澳门今晚开奖码】
【东方赌圣澳门六开彩开奖结果记录】 【刘伯温四肖八码期期准精选风险】
【2024全年资料免费大全优势生肖】 【澳门一码一肖期期准中选料2023】
【香港最近十五期开奖号码结果】 【12生肖开奖记录查询】
【2024今晚新澳六我奖】 【2024年澳门管家婆一肖一码一中奖】 【新澳门澳精准大全】
上一条新闻 下一条新闻

推荐文章

发表评论

常衮

6秒前:

IP:16.32.2.*

幽帝慕容暐

8秒前:合成数据 完全取代真实数据?

IP:35.19.4.*

Regina

9秒前:针对当前数据处理工具的缺失,院士团队正致力于打造一系列工具,以弥补在数据清洗、整理及训练大模型方面的空白。

IP:55.13.7.*

美丽浙江APP介绍

APP图标

澳门最精准正最精准龙门APP名:美丽浙江

版本:V1.68.224

更新时间:2024-10-11 16:18

澳门平特一肖100%免费这是一个功能强大的澳门四肖八码期期准免费公开?APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:”在中国科学院院士鄂维南看来,如何将大量的非结构化数据转化为结构化形式,以降低数据分析门槛与成本,成为亟待解决的问题。

马会传真资料2024澳门APP介绍

APP图标

新奥天天免费资料单双澳门码开奖结果APP名:美丽浙江

版本:V5.60.944

更新时间:2024-10-11 20:22

无论是澳门王中王论坛开奖资料快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新澳门开奖现场+开奖结果APP介绍

APP图标

494949最快开奖结果+APP名:美丽浙江

版本:V5.93.455

更新时间:2024-10-11 17:19

澳门资料大全免费今日生肖亮东方应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

9944CC天天彩二四六免费大全APP介绍

APP图标

新澳彩资料免费长期公开APP名:美丽浙江

版本:V8.72.912

更新时间:2024-10-11 23:17

2024年奥门今晚开奖结果这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

老澳六开彩开奖号码记录APP介绍

APP图标

2024新奥开奖结果查询APP名:美丽浙江

版本:V4.18.694

更新时间:2024-10-11 15:24

这是一款功能强大的老澳门开奖号码记录应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:近日有外媒报道,OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联网的书籍和文章。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

ww777766香港开奖结果正版104APP介绍

APP图标

2024澳门正牌资料APP名:美丽浙江

版本:V9.90.191

更新时间:2024-10-11 24:18

这是一款功能强大的澳门今晚必开一肖一特应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:然而大模型出现之后,这一切开始发生变化。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

7777788888管家婆澳APP介绍

APP图标

管家婆白小姐开奖记录APP名:美丽浙江

版本:V3.71.627

更新时间:2024-10-11 18:22

这是一款功能强大的2024新澳门开奖记录应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新噢门资料大全正版资料2024APP介绍

APP图标

香港最快开码开奖结果APP名:美丽浙江

版本:V6.24.241

更新时间:2024-10-11 21:24

今天的最新动态包括:章磊表示,在自动化标注的初期,预标注阶段是主流。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

新奥历史开奖记录查询APP介绍

APP图标

新澳门六开彩开奖结果近15期查询APP名:美丽浙江

版本:V6.66.162

更新时间:2024-10-11 18:13

这是一款功能强大的2024新澳门特马今晚开什么应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:面对数据稀缺与模型旺盛需求之间的矛盾,学界与业界正在探索可持续的解决方案,以确保AI健康发展的同时,兼顾创新与知识产权的平衡。。

澳门精准四肖期期中特公开APP介绍

APP图标

2024澳门生肖排码表 正宗版APP名:美丽浙江

版本:V3.53.926

更新时间:2024-10-11 16:19

这款功能强大的2024澳门特马今晚开奖应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

今晚澳门特马开什么APP介绍

APP图标

2023新澳门天天开好彩大全APP名:美丽浙江

版本:V8.27.736

更新时间:2024-10-11 20:22

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

澳门开奖4949.885cbmAPP介绍

APP图标

新奥门开奖结果2024澳门APP名:美丽浙江

版本:V7.16.249

更新时间:2024-10-11 23:17

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。