深圳特区报2024年10月13日发布:Open AI新模型o1问世,能像人类一样思考?外国画家创作一幅“鬼画”,卖出3次均遭退回,后被列为世界禁画

⭐发布日期:2024年10月13日 | 来源:深圳特区报

⭐作者:Gilsig 责任编辑:Admin

⭐阅读量:712 评论:2人

【打开澳门网站资料大全】

【澳门一码一肖一特一中直播】

【一码一肖100】 【2024澳门六开彩结果查询表】 【2024新澳彩料免费资料】 【澳门王中王100%的资料老澳门】 【澳门六开彩结果记录2024年】 【新澳彩资料免费资料大全33图库】 【二四六天下彩天天免费大全】 【新澳门免费资料大全新牌门】
【新澳门内部资料精准大全】 【澳门一码一码100准确】 【2024澳门六今晚结果出来新】 【澳门正版资料大全资料想入非非图】 【澳门六开彩天天结果生肖卡】 【澳门资料大全正版免费资料】 【新澳门内部资料精准大全82】 【2024管家婆资料正版大全澳门】

本文来自微信公众号:王智远,作者:王智远,原文标题:《Open AI发布新一代模型01》,题图来自:AI生成

凌晨1点,我还在追剧。

这时,朋友发来一条消息说:Open AI发布了新模型,你在电脑上试试看能用吗?哎,大哥,都要睡觉了,这要强制开机,让我起来加班码字啊。‍‍

带着好奇,打开PC端ChatGPT一看,果然,多出两个模型,分别是ChatGPT o1-mini和o1-preview。

这是什么东东?怎么叫这个名字?这个模型有什么特点?怎么还有两个版本呢?价位如何?难道是此前被传的“草莓”做出来了?

带着疑惑,熬夜看完官方文档,把内容总结分享给你。

为什么叫o1呢?官方说:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能,翻译出来就是:

这个模型在复杂推理任务上是一个重大的进步,代表了人工智能能力的一个新水平;因此,我们决定重新开始编号,把这一系列模型命名为OpenAI o1。

袄,原来因为这个模型非常厉害,能做很多复杂的事情,OpenAI 觉得这是一个新的起点,所以把编号重新设为1,开始一个新的系列。

那么,它为什么会有两个版本呢?官方说:

o1 mini版是个简化的版本。它在速度、体积和成本方面都做了优化。

这个版本在处理数学、编程推理任务时表现不错,特别适合需要快速处理问题的场合;因为它体积小,成本也低,所以,如果你想快速得到答案,那么o1 mini版可能更适合你。

相对o1 preview版,是完整版本。

比较擅长解决复杂的问题,比如,无论是科学问题、数学题还是编程,它都能处理得非常好;当然,如果你遇到的问题要广泛的知识或者深刻的理解,那么这个版本更适合你,因为它的推理能力非常强大。

我不信,于是,让国产大模型Kimi Chat给我想了一个逻辑数学逻辑题,如下:

假设我有一个农场,里面有鸡和兔子。有一天,我数了数农场里动物的头和脚,发现总共有35个头和94只脚。请问,农场里各有多少只鸡和兔子?

preview版的确很强。除了告诉我有23只鸡,和12只兔子外,还给出了步骤,整个下来,也就不到2秒。当然,这种测试用来对付Chat肯定是无压力的,如果你有时间,也可以带入工作中的问题,自己体验下。

总的来说,两个版本的主要区别是它们处理任务的能力、速度和成本;o1 mini版在速度、成本上有优势;preview版更适合推理。

不过,实际体验下来,没觉得有什么差异,也许我本身要它做的事情,比较简单。

体验完后,仔细一想,这和GPT-4o、GPT-4omini有啥区别呢?非要搞出四个模型吗?加上GPT-4,我电脑上已经有五个模型了。

查了下官方文档,有一篇文章叫《用法学硕士学习推理》(Learning to Reason with LLMs)详细介绍了一切。

他们是这么说的:

在对OpenAI的两个AI模型——o1-preview和GPT-4o的实际使用偏好测试中,人类评估者在不知情的情况下,比较了两个模型对复杂问题的回答。

结果显示,在需要大量推理的任务上,比如数据分析、编程和数学问题,大家更喜欢o1-preview。因为o1-preview经过特殊的强化学习训练,所以,在解决这类问题时,推理能力更强,更高效。

但是,在自然语言处理任务上,o1-preview的表现不如GPT-4o。这是因为它的训练重点在推理和解决问题的策略上,而不是在语言的流畅度或文本生成的多样性上。

这说明,虽然o1-preview在某些领域很出色,但它并不适合所有类型的任务,尤其是那些专注于自然语言处理的场景。

原来如此。

我又看了看o1-preview和o1 mini版适合哪些人。官方说,如果你在处理科学、编码、数学等领域的复杂问题,这些增强的推理能力可能特别有用。

比如:

医疗研究人员可以用o1来标注细胞测序数据;物理学家可以生成量子光学所需的复杂数学公式;各个领域的开发者都可以用o1来构建和执行多步的工作流程。

所以,如果你做科学、敲代码、编程、数学方面的工作,用它再好不过了。

那么,o1-preview和o1 mini到底做了哪些测试呢?

首先,为了显示o1模型在推理方面比GPT-4o有多大改进,他们在不同的人体检查和机器学习基准上测试了它。

比如:

在2024年的AIME数学考试中,GPT-4o平均只解决了12%的题目;而o1模型单次测试的平均解题率达到了74%。如果算上64次测试的平均得分,能达到83%;重新从1000个样本中排名,平均得分甚至可以达到93%。

这个成绩不仅让它进入了全美前500名,还超过了参加美国数学奥林匹克的分数线。

他们还用一个叫做GPQA钻石的难题来测试o1。这个测试涉及化学、物理和生物学的专业知识。

他们请了一些拥有博士学位的专家来回答这些问题,结果发现,o1模型的表现超过了人类专家,成为第一个在这个测试中取得这样成绩的模型。

这并不意味着o1在所有方面都比博士更厉害,而是说明它在解决某些专业问题上更为熟练。

当然,在其他一些机器学习的测试中,他们也做了大量测试;它在MMMU的视觉感知测试中得了78.2分,成为第一个能和人类专家竞争的模型;而且,在57个MMLU子测试中的54个项目上,它的表现都优于GPT-4o。

我好奇地搜索了一下,什么是 MMLU?简单讲,MMLU 像一场大型的综合考试,参加考试的不是人类,而是人工智能模型。

总之,这些测试最终结论是:

OpenAI的o1模型在全球编程比赛Codeforces中排名第89位,在美国数学奥林匹克(AIME)的资格赛中,进入了全美前500名。

在物理、生物学和化学问题的测试中,它的表现甚至超过了博士水平。

因此,o1-preview和o1 mini在解决高难度的推理和专业问题上表现更出色;而GPT-4o更适合处理日常的任务。


所以,这么强的推理能力怎么实现的?关键有四个方面:

首先,o1模型用了一种“自我对弈强化学习”(Self-play RL)的方法;这是一种通过模拟环境和自我对抗来提升模型性能的技术。

这种方法中,模型在没有外部指导,通过不断尝试和错误来学习策略和优化决策。

想象一下:

它就像在和自己下棋,一边玩一边学;过程中,不用别人教,自己试试、出错、再试,慢慢就学会了怎样做决策和解决问题。

其次,o1还模仿了人类的“慢思考”(Slow Thinking);这种思考要时间、努力和逻辑三者结合,就像我们在考试时仔细思考一个难题一样。

通过深思熟虑的方式,o1先分析问题,然后把它拆开,再推理,再解决;这让它在科学、编程或数学上更精准,更出色。

当然,这一步离不开思维链。

思维链的推理,还用一种独特的方法来监控模型。如果这些思维链是可读的,研发人员就能“读懂”模型的思考过程。

这对于监测模型是否能操纵用户行为非常有帮助,但是,为了让模型能自由地表达思考,他们不在模型中加入任何与政策、用户偏好相关的硬性规定。

因此,这个模型整合了安全政策和人类价值观,通过在模型的答案中重现思维链中的有用想法,让用户间接了解模型的思考过程。

还有一点,思维链加入了鲁棒性(Robustness)测试。所谓鲁棒性指一个系统、模型或者设备在面对各种意外情况、干扰或者变化时,仍然能够正常工作,不容易出问题。

比如:

一辆汽车,无论在高温、低温、下雨还是颠簸的路面上,都能正常行驶,这说明它的鲁棒性很好;在AI领域,鲁棒性指软件、模型在面对不同的数据输入、错误,甚至恶意攻击时,仍然能保持稳定和准确。

所以,鲁棒性强调的是在各种复杂、多变的环境下,仍然能保持可靠和稳定的性能。

除以上两点,o1在训练时还用上了数据飞轮(Data Flywheel);它的正确答案会被用来再训练它自己,帮助它变得更聪明。

当然,为支持这些复杂的思考任务,o1还用上了一些特别优化的算法、架构。这些技术让它更快、更准确地解决问题,提高了它的整体能力。

总之,o1模型训练关注五个维度:

1. 自我对弈强化学习;2. 模仿人类慢思考;3. 拆解了思维链的过程;4. 在思维链中加入了鲁棒性测试;5. 数据飞轮再强化。

看完官网文档,说白了,我觉得他们让AI更像人了。

再强大的东西,不商业化肯定不行。那么,o1模型的成本和使用限制有哪些呢?

o1-preview的价格是:

每处理一百万个输入要花15美元,每处理一百万个输出则是60美元;这说明,如果你用这个版本,输入和输出的处理费用会比较高。

真贵啊。这是什么概念?举个例子:

如果你每天和这个模型聊天100次,每次输入1000个单词,那么一天的费用是75美分乘以100次,等于75美元。按照现在汇率,75美元约等于540人民币。

这样看来,使用这个模型的成本相当于每天花540块钱。如果你每天都这么使用,一个月下来的花费就非常可观了,堪比请一个专家了。

而o1-mini的价格便宜一些。

每一百万个输入只需3美元,每一百万个输出12美元。但这个便宜版在功能上可能会有些限制;如果你是ChatGPT Plus或Team的用户,就可以优先尝试o1模型的功能。

对开发者来说,要求就严格多了,只有支付了1000美元的五级开发者才能用这个模型,而且每分钟只能调用20次。

至于API的调用限制,o1-preview每周只能调用30次,o1-mini每周可以调用50次。这种限制是按周来算的,不是按小时或分钟。

功能方面,目前的o1模型还不能支持所有的功能,比如理解图片、生成图片、解释代码、网页搜索等。所以,用户现在只能用它来进行基本的对话。

官方还说:

虽然现在o1模型成本较高,使用也有限,但随着技术发展和OpenAI的不断改进,预计将来会有更多用户能使用到这个模型,成本也可能会降低。

不管怎能说,AI越来越像人一样“深思熟虑”了,至于这个模型,谁会付费呢?谁又能为它支付1000美金呢?或许,只有大公司、研究机构、有特定需求的专业人士才能承担得起。

那到时候,真就成了花钱请了一个“AI专家”,所以,AI会替代专家吗?

总结‍

越来越像人的模型。

谁也猜不到,未来的o1-preview(mini)会发展成什么样,至少,它肯定不会是个普通的GPT。

它会发展成具身智能吗?有这个可能。随着技术不断进步,o1-preview(mini)很大概率会改变一些行业的运作方式。

本文来自微信公众号:王智远,作者:王智远

【六和彩开码资料2024码澳门】 【7777888888管家婆中特】
【澳门正版资料最新】 【4949澳门免费资料大全高手优势】
【2024新澳免费资料成语平特】 【澳门六开彩精准资料大全】
【澳门4949精准免费大全】 【溪门精淮一肖一吗100】
【新澳门码精准资料】 【新澳门历史记录查询最近十期】
【澳门王中王一肖一中一码】 【2024新澳门彩4949资料】 【澳门天天彩资料大全那些是天肖?】
上一条新闻 下一条新闻

推荐文章

发表评论

罗伯特·本·加兰特

8秒前:这对于监测模型是否能操纵用户行为非常有帮助,但是,为了让模型能自由地表达思考,他们不在模型中加入任何与政策、用户偏好相关的硬性规定。

IP:52.17.5.*

Gantenbein

9秒前:在物理、生物学和化学问题的测试中,它的表现甚至超过了博士水平。

IP:98.72.4.*

莱乔·瓦斯列夫

7秒前:Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

IP:82.63.8.*

深圳特区报APP介绍

APP图标

澳门精准资料大全免费经典版更新APP名:深圳特区报

版本:V1.83.897

更新时间:2024-10-12 13:17

www29357.Com澳门彩这是一个功能强大的新澳门正版资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:一为什么叫o1呢?

2024年澳门天天彩记录APP介绍

APP图标

2024新澳门正版免费资料APP名:深圳特区报

版本:V2.19.514

更新时间:2024-10-12 22:18

无论是澳门澳彩资料大全正版资料下载快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新澳彩资料免费资料大全APP介绍

APP图标

一码一肖100%中奖资料APP名:深圳特区报

版本:V3.65.631

更新时间:2024-10-12 22:14

新澳门开彩结果历史数据表应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

香港二四六开彩资料大全302期APP介绍

APP图标

澳门今晚必中一肖一码准确9995APP名:深圳特区报

版本:V7.79.263

更新时间:2024-10-12 14:15

新澳门正版资料免费看这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

最准一码一肖100精准APP介绍

APP图标

2024澳门六开彩结果查询APP名:深圳特区报

版本:V6.96.437

更新时间:2024-10-12 19:15

这是一款功能强大的澳门正版资料大全资料生肖卡应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:他们请了一些拥有博士学位的专家来回答这些问题,结果发现,o1模型的表现超过了人类专家,成为第一个在这个测试中取得这样成绩的模型。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

澳门传真~澳门传真APP介绍

APP图标

新澳门号码2024年结果APP名:深圳特区报

版本:V6.25.653

更新时间:2024-10-12 23:15

这是一款功能强大的澳门一码一肖100%应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:看完官网文档,说白了,我觉得他们让AI更像人了。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024年新奥门王中王结果APP介绍

APP图标

2024年新奥门结果APP名:深圳特区报

版本:V8.15.230

更新时间:2024-10-12 20:13

这是一款功能强大的澳门王中王100应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:因为o1-preview经过特殊的强化学习训练,所以,在解决这类问题时,推理能力更强,更高效。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

626969澳门精准资料44期APP介绍

APP图标

澳门944c资料免费大全二四六APP名:深圳特区报

版本:V2.53.804

更新时间:2024-10-12 20:18

今天的最新动态包括:当然,为支持这些复杂的思考任务,o1还用上了一些特别优化的算法、架构。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

7777788888王中王十记录网APP介绍

APP图标

新澳门资料大全免费澳门资料大全APP名:深圳特区报

版本:V2.68.579

更新时间:2024-10-12 13:13

这是一款功能强大的2024澳门资料大全正版资料应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:怎么叫这个名字?。

新澳精准资料免费提供网站有哪些APP介绍

APP图标

新澳精准资料免费提供630期APP名:深圳特区报

版本:V7.45.626

更新时间:2024-10-12 21:22

这款功能强大的跑狗图正版高清新一代论坛应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

7777788888澳门王中王2024年APP介绍

APP图标

新澳门黄大仙8码大公开APP名:深圳特区报

版本:V8.21.484

更新时间:2024-10-12 19:19

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

一码一肖100%APP介绍

APP图标

新奥天天免费资料单双APP名:深圳特区报

版本:V1.74.866

更新时间:2024-10-12 18:15

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。