影视吐槽人2024年10月14日发布:智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

⭐发布日期:2024年10月14日 | 来源:影视吐槽人

⭐作者:Bonnie 责任编辑:Admin

⭐阅读量:327 评论:1人

【一码一肖100准免费资料方法】

【新澳门黄大仙8码大公开】

【2024全年澳门资料免费看】 【新澳门天天彩2024年全年资料】 【二四六天天免费资料门图讯最快开】 【2024澳门正版资料免费大全】 【澳门六开彩天天免费领取】 【澳门开马2024年结果查询】 【2024管家婆资料正版大全】 【白小姐精准免费四肖】
【百计千方的意思】 【管家婆精准一肖一码100%】 【123澳彩正版免费资料大全】 【澳门平特一肖100%准资特色】 【全年资料免费大全】 【w47777777香港资料大全】 【彩霸王免费内部资料】 【澳门新六开彩结果和查询】

视频大模型进入百模大战。

作者|赵健

今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。

而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。

今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。

在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。

  • 文生视频:

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风

提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。

提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条

  • 图生视频

提示词:古典美女

提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄

提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机

清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。

张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。

首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。

智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。

张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

(封面图及文中配图来源:智谱)

END.

返回搜狐,查看更多

责任编辑:

【奥门全年资料免费大全一】 【澳门六开彩免费资料最新】
【打开澳门资料】 【澳门最精准免费网站】
【澳门一肖一码100】 【2024噢门天天开好彩大全】
【一肖一码100%澳门】 【四不像正版资料】
【香港澳门正版资料2024年资料】 【新澳门历史结果近期十五期】
【澳门彩资料大全书】 【澳门最精准最快的资料】 【澳门三肖三码期期准免费资料澳门】
上一条新闻 下一条新闻

推荐文章

发表评论

戴顿·考利

4秒前:模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

IP:75.61.4.*

OliverNgele

6秒前:END.

IP:12.61.4.*

亚历山德拉·罗卡

8秒前:从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

IP:44.77.9.*

影视吐槽人APP介绍

APP图标

澳彩二四六天天结果APP名:影视吐槽人

版本:V5.60.855

更新时间:2024-10-13 13:16

2024新澳门内部资料精准大全这是一个功能强大的澳门今晚一肖一码期期准中选料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:清影的研发得到北京市的大力支持。

香港最准的100%肖一肖中特APP介绍

APP图标

2024年澳门正版资料全新APP名:影视吐槽人

版本:V3.87.857

更新时间:2024-10-13 24:22

无论是48k澳门资料大全快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

澳门最快六开APP介绍

APP图标

澳门资料大全正版资料2024年APP名:影视吐槽人

版本:V8.70.302

更新时间:2024-10-13 17:17

最准的一肖一码应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

2024年新澳门天天APP介绍

APP图标

2024澳门六开彩免费精准大全APP名:影视吐槽人

版本:V5.81.116

更新时间:2024-10-13 18:15

澳门最精准免费资料大全98期这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新澳资料大全正版2024APP介绍

APP图标

正版澳门资料免费人全APP名:影视吐槽人

版本:V3.75.984

更新时间:2024-10-13 21:14

这是一款功能强大的一肖一码100%准确澳门应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2024澳门正版资料大全免费版APP介绍

APP图标

2021年澳门全年免费资料APP名:影视吐槽人

版本:V3.18.308

更新时间:2024-10-13 20:14

这是一款功能强大的4949澳门免费资料内容资料应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:这也是Sora用到的方式。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

黄大仙今晚必开一肖APP介绍

APP图标

刘伯温白小姐一马一肖中特期准APP名:影视吐槽人

版本:V4.58.598

更新时间:2024-10-13 19:22

这是一款功能强大的澳门六开彩天天正版资料澳门应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

澳门管一肖一码100大全APP介绍

APP图标

澳门6合资料库大全APP名:影视吐槽人

版本:V1.10.304

更新时间:2024-10-13 21:17

今天的最新动态包括:从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门二四六天天彩资料大全APP介绍

APP图标

澳门精准三肖三码三期结果APP名:影视吐槽人

版本:V9.20.101

更新时间:2024-10-13 21:20

这是一款功能强大的澳中特网com应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。。

新奥彩2024年免费资料查询APP介绍

APP图标

精准澳门一肖一码澳门之家APP名:影视吐槽人

版本:V7.34.923

更新时间:2024-10-13 18:20

这款功能强大的新奥天天免费资料单双应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

新奥彩资料大全最新版APP介绍

APP图标

管家婆一肖一马资料大全APP名:影视吐槽人

版本:V8.64.705

更新时间:2024-10-13 20:23

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

新澳门六开资料大全APP介绍

APP图标

新澳彩资料免费长期公开四大才子APP名:影视吐槽人

版本:V2.33.595

更新时间:2024-10-13 21:21

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。