新浪新闻2024年10月11日发布:重回第一!OpenAI升级,推理和数学大幅提高,最高提升近20%!

⭐发布日期:2024年10月11日 | 来源:新浪新闻

⭐作者:欧菲莉亚·科尔布 责任编辑:Admin

⭐阅读量:993 评论:1人

【澳门结果2020记录下开奖结果今晚】

【澳门现场直播结果+记录2019】

【澳门天天彩全年记录图片大全】 【澳门码结果今晚开什么好呢图片】 【澳门下期开什么最新开奖记录】 【澳门天天彩的一期网站】 【澳门天天彩2023记录完整版】 【2020年澳门最新结果历史】 【2020年澳门码查询开奖记录查询】 【2024年新澳门记录是什么开奖结果记录】
【澳门结果2021+记录下开奖结果查询】 【澳门二四六天天彩直播网站大全免费】 【澳彩资料库官方网站查询】 【澳门二四六天天彩下载】 【2020澳门记录完整365期】 【2024香港资料大全+正版资料诸】 【2024澳门结果查询表最新消息开奖历史记录】 【2020年香港资料大全23期开奖结果记录】

本文原文来自DataLearnerAI官方网站:

https://www.datalearner.com/blog/1051712888127681

OpenAI的GPT-4一直是全球最强的大语言模型。但是在最近的一系列新模型对比中,已经有一些模型在某些领域被认为已经接近或者超过GPT-4了。而在前几天,OpenAI更新了一个新版本的GPT-4,是GPT-4-Turbo-2024-04-09,官方说该版本的GPT在推理和数学能力上有明显提升,而实测结果也很不错。在基准测试评测中,最高有19%的提升幅度!在GPT-4这样强的模型上有这样的提升幅度,十分不错!

  • GPT-4-Turbo-2024-04-09版本简要说明
  • GPT-4-Turbo-2024-04-09基准测试结果
  • GPT-4-Turbo-2024-04-09网友实测
    • OpenAI官方自己实测:不再那么啰嗦
    • 新版GPT-4的超长上下文能力更强
    • 新版本的GPT-4不那么啰嗦
    • LiveCodeBench评测结果大幅提升
  • 新版GPT-4在大模型匿名竞技场重回第一!
  • GPT-4-Turbo-2024-04-09利用了Q*技术

GPT-4-Turbo-2024-04-09版本简要说明

这个GPT-4-Turbo版本相比此前的模型,只是更新了版本号,在最开始的时候,OpenAI只说明了他们发布了这样一个新版的GPT-4-Turbo模型,该模型有2个重要的更新:

  1. 基础的数学和推理能力大幅提高
  2. 这个模型可以接受文本和图像两类输入

这个模型刚发布的时候,官方只说了性能大幅提升以及可以接受图像输入,并没有具体说明情况。连OpenAI的联合创始人Greg Brockman也说这个模型有很大提升,但是就是不公布具体提升内容。也导致了很多人的不满。最后OpenAI才说提升了数学和推理能力。

另外需要注意的是,GPT-4-Turbo-2024-04-09模型的训练数据已经更新到2023年11月份

GPT-4-Turbo-2024-04-09基准测试结果

从前面的图我们也可以看到,综合理解能力MMLU和代码能力HumanEval几乎不变,但是数学推理都有大幅提高。


而OpenAI官方还有更加详细的数据统计,按照统计,结果如下:

注意,这些都是使用最简单的Prompt进行测试的结果,也是OpenAI自己发布的最新测试结果。从这个评测看,在数学图例方面,gpt-4-turbo-2024-04-09版本的模型都有不同程度的提高,最高可以提升19%!要知道GPT-4本身已经十分强大,这个提升幅度,在不变更版本号的前提下十分难得。而综合理解和代码能力就提升不明显。

GPT-4-Turbo-2024-04-09网友实测

其实一开始,官方只说GPT-4-Turbo-2024-04-09模型有提升,并没有其它说明。很多网友都质疑说为什么连具体提升的说明都没有。而Greg Brockman解释希望大家自己发现。可能是OpenAI官方觉得自己只要说一下就能引起广泛关注和讨论,所以一开始透露很少。

而发现大家似乎目光没有那么“聚焦”之后,OpenAI官方开始有了更多详细说明。上面测试数据就是官方发布的结果。下面是DataLearnerAI收集的实测结果。

OpenAI官方自己实测:不再那么啰嗦

官方给了一个实例,说明最新的GPT-4对话能力更强,也不那么啰嗦。例如,让GPT写一个短信邀请朋友参加生日聚会:


在此前的版本中,短信很长也很啰嗦。而后者则更新平时我们对话的结果。

新版GPT-4的超长上下文能力更强

尽管此前OpenAI宣布说GPT-4最高支持128K的输入,但是随着上下文长度的增加,能力依然会有下降。一位网友做了一个自己构造的大海捞针测试,将答案分布在不同文档、没有确定性关键词、接近以及误导的信息来测试大模型的在超长上下文的能力。这比简单的大海捞针更难。

和此前的gpt-4-1106对比,新版本的GPT-4-Turbo-2024-04-09在更长的上下文上表现提高。64K的上下文水平与此前版本的26K差不多!


这里的纵轴表示匹配到准确的结果的数量,这是一个类RAG的测试。可以看到,最新版是绿色的折线,其在更高的上下文上,表现依然很好。这个测试也是开源的:https://github.com/stunningpixels/lou-eval

新版本的GPT-4不那么啰嗦

另一个测试来自EverArt的创始人,他对比了新旧版本的GPT-4,让写一段Python代码,新版本大部分内容都是代码。而老版本除了代码以外,还有非常啰嗦的解释:


这意味着,ChatGPT可能未来会更加简洁有用。

LiveCodeBench评测结果大幅提升

LiveCodeBench是不断从LeetCode等上面收集新的代码测试数据集,致力于做无数据污染的大模型评测。他们的测试难度非常高。而最新的结果,新版GPT-4的水平也是大幅提升,尤其是在比较困难的题目上:


可以看到,在中等难度水平测试上,新版GPT-4比此前提升将近50%!非常强大!

这部分数据参考:https://livecodebench.github.io/leaderboard.html

新版GPT-4在大模型匿名竞技场重回第一!

大模型匿名竞技场Chatbot Arena是LM-SYS推出的一个大模型匿名投票的评测系统。大家提问问题之后,系统返回匿名模型结果,用户投票得分。在此前,Claude3-Opus一度超过了GPT-4成为全球最高得分的模型。

而在GPT-4-Turbo-2024-04-09发布2天后,已经有8932个投票,投票结果显示,GPT-4-Turbo-2024-04-09得分超过Claude-3-Opus,重回第一!


GPT-4-Turbo-2024-04-09利用了Q*技术

不管是官方的测试,还是网友的测试,新版的GPT-4应该都是有明显的进步的。尤其是数学推理能力的增强,也让很多人猜测这个模型是不是Q*或者GPT-4.5。

而根据一位推特网友的信息,新版的GPT-4不是Q*,但是应该是基于Q*的输出做了微调。新版的GPT-5已经准备好,只是OpenAI holding back,所以对GPT-4做了训练,得到了这个新版:


目前,新版的GPT-4已经更新到ChatGPT和OpenAI官网的API接口了,大家可以测试起来!




【2021全年资料免费大全网全解开奖结果】 【彩民之家澳门版下载】
【澳门天天彩是正规公司吗知乎】 【新澳门结果2023记录表图片大全】
【澳门今天晚上开什么号码9918开奖结果查询】 【澳门现场直播软件使用教程视频】
【澳门六叔和澳叔什么关系】 【2021年澳门天天彩结果直播】
【2024澳彩记录查询表下载最新版安装】 【澳门今年记录】
【2024澳门六今晚结果出来开奖记录今晚】 【2021年澳门彩直播视频回放开奖记录查询】 【澳门传真内部绝密信封至彩民开奖结果记录】
上一条新闻 下一条新闻

推荐文章

发表评论

Fabbri

3秒前:而Greg Brockman解释希望大家自己发现。

IP:40.78.2.*

齊藤なぎさ

4秒前:很多网友都质疑说为什么连具体提升的说明都没有。

IP:55.22.2.*

bryce

5秒前:要知道GPT-4本身已经十分强大,这个提升幅度,在不变更版本号的前提下十分难得。

IP:77.10.7.*

新浪新闻APP介绍

APP图标

最新澳门6合开彩结果查询表格下载APP名:新浪新闻

版本:V2.53.779

更新时间:2024-10-10 20:14

2024澳门直播结果查询官网下载这是一个功能强大的港澳最快结果199APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:5。

2020澳门天天彩视频大全APP介绍

APP图标

2024澳门记录历史全年APP名:新浪新闻

版本:V8.50.704

更新时间:2024-10-10 15:23

无论是直播澳门结果今晚快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2o2o年澳门结果APP介绍

APP图标

澳门天空彩天彩票网下载APP名:新浪新闻

版本:V1.74.254

更新时间:2024-10-10 24:13

澳门结果2021十记录应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

另版澳门传真图APP介绍

APP图标

现场直播澳门的结果APP名:新浪新闻

版本:V1.10.201

更新时间:2024-10-10 22:14

澳门传真免费费资料笔底生花打一肖这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

2024澳门记录结果查询表格APP介绍

APP图标

澳门码23期结果APP名:新浪新闻

版本:V6.21.501

更新时间:2024-10-10 20:24

这是一款功能强大的刘伯温一码期期应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:另外需要注意的是,GPT-4-Turbo-2024-04-09模型的训练数据已经更新到2023年11月份。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

澳门现场直播记录今天结果APP介绍

APP图标

2021澳门码结果查询APP名:新浪新闻

版本:V8.97.948

更新时间:2024-10-10 13:15

这是一款功能强大的澳门天天彩记录准确率高的软件应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:非常强大!,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

澳门天天彩是骗局吗还是真的呢视频APP介绍

APP图标

澳门传真内部绝密信封资料2024年APP名:新浪新闻

版本:V1.23.288

更新时间:2024-10-10 24:14

这是一款功能强大的澳门直播下载2023最新资料应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:在GPT-4这样强的模型上有这样的提升幅度,十分不错!,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

澳门今晚现场号码APP介绍

APP图标

澳门今晚结果2020+记录香港APP名:新浪新闻

版本:V9.84.705

更新时间:2024-10-10 13:22

今天的最新动态包括:GPT-4-Turbo-2024-04-09网友实测其实一开始,官方只说GPT-4-Turbo-2024-04-09模型有提升,并没有其它说明。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

2024澳彩记录查询表下载最新版APP介绍

APP图标

澳门天天彩结果风险大吗今天APP名:新浪新闻

版本:V3.16.981

更新时间:2024-10-10 15:14

这是一款功能强大的澳门天天二四六日结果应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:一位网友做了一个自己构造的大海捞针测试,将答案分布在不同文档、没有确定性关键词、接近以及误导的信息来测试大模型的在超长上下文的能力。。

2021年澳彩全年记录查询APP介绍

APP图标

2018正版免费全年资料大全APP名:新浪新闻

版本:V5.74.420

更新时间:2024-10-10 22:22

这款功能强大的澳门天天彩2023记录表查询最新官网应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2021年澳门彩直播结果今天APP介绍

APP图标

2020年港澳码网址大全APP名:新浪新闻

版本:V4.71.955

更新时间:2024-10-10 13:21

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

澳门传真资料查询2024年98期APP介绍

APP图标

澳门结果+记录表210香APP名:新浪新闻

版本:V1.47.982

更新时间:2024-10-10 23:21

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。