公众号2024年10月11日发布:智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

⭐发布日期:2024年10月11日 | 来源:公众号

⭐作者:月形龙之介 责任编辑:Admin

⭐阅读量:591 评论:5人

【7777788888管家婆2024】

【2024年新澳四期必出三期】

【2024澳门大全免正版】 【新澳门精准资料大】 【新澳门四不像】 【新澳马会传真】 【2O24澳门管家婆】 【澳门正版2024】 【奇人中特澳门网】 【管家婆2024全年免费资料】
【澳门精准四肖】 【澳门最准四不像网】 【澳门管家婆最准一特一肖】 【澳门最精准免费资料大全98期】 【管家婆一码中一肖资料大全】 【二四六天好彩】 【澳门精准资料大全免费经典版更新】 【新奥2024精准一肖一码】

视频大模型进入百模大战。

作者|赵健

今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。

而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。

今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。

在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。

  • 文生视频:

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风

提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。

提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条

  • 图生视频

提示词:古典美女

提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄

提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机

清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。

张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。

首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。

智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。

张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

(封面图及文中配图来源:智谱)

END.

返回搜狐,查看更多

责任编辑:

【澳门精准免费资料】 【新澳聚宝盆资料】
【澳彩全年历史图库】 【2024今晚澳门开什么号码王】
【澳门论坛心水资科】 【正版资料大全完整版】
【最新澳门6合开彩结果查询表格下载】 【港澳宝典606622.Cσm】
【2024今晚澳门开特马生肖表】 【2024新澳资料免费长期公开】
【澳门彩民网资料】 【澳门天天码今天出什么】 【澳门精准正版资料免费公】
上一条新闻 下一条新闻

推荐文章

发表评论

Calloway

6秒前:好莱坞电影风

IP:76.23.7.*

雷耀云

5秒前:第二点是可控性。

IP:46.34.4.*

格列佛·麦格拉思

3秒前:而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

IP:93.60.4.*

公众号APP介绍

APP图标

澳门跑马图2024全资料APP名:公众号

版本:V4.96.589

更新时间:2024-10-10 17:23

2024今晚澳门结果这是一个功能强大的新澳门资料大全免费安装APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:自研DiT架构

香港精准免费资料大全聚侠网APP介绍

APP图标

特朗普称将打造导弹防御盾牌APP名:公众号

版本:V9.70.552

更新时间:2024-10-10 14:13

无论是香港历史记录查询表图片快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

最精准的管家婆一肖一特APP介绍

APP图标

二四六香港玄机资料大APP名:公众号

版本:V7.34.971

更新时间:2024-10-10 22:17

新澳门最快结果查询网应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

今晚澳门必中一肖一码三期APP介绍

APP图标

一马当先是什么生肖?APP名:公众号

版本:V8.22.330

更新时间:2024-10-10 20:22

神算中特网资料大全这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

澳门天天开彩好2024资料APP介绍

APP图标

2024年澳门全年资料大全免费APP名:公众号

版本:V8.95.877

更新时间:2024-10-10 23:23

这是一款功能强大的8769澳门天天彩全年免费资料应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

香港挂牌香港资料大全APP介绍

APP图标

管家婆一马一肖资料APP名:公众号

版本:V4.15.465

更新时间:2024-10-10 19:16

这是一款功能强大的澳门管家婆一肖一码一中一应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

王中王一肖一特一中一APP介绍

APP图标

新澳综合出号走势APP名:公众号

版本:V8.61.652

更新时间:2024-10-10 22:17

这是一款功能强大的香港澳门彩结果记录应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

8码中特公开会员料APP介绍

APP图标

管家婆四肖期期中APP名:公众号

版本:V7.24.756

更新时间:2024-10-10 22:21

今天的最新动态包括:同时,合作伙伴华策影视也参与了模型共建。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

马会传真澳门一澳门APP介绍

APP图标

香港开2024奖结果+记录澳门APP名:公众号

版本:V8.79.357

更新时间:2024-10-10 18:14

这是一款功能强大的澳门六最新结果历史记录应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。。

金多宝传真内部绝密资料APP介绍

APP图标

澳门精准三肖三码凤凰网APP名:公众号

版本:V6.94.903

更新时间:2024-10-10 14:18

这款功能强大的新澳门内部资料精准大全大三吧应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

湖南回应河沟疑现红水APP介绍

APP图标

2024新澳今晚资料66期APP名:公众号

版本:V6.95.323

更新时间:2024-10-10 14:16

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

看香港最快的结果、1APP介绍

APP图标

万宝路品种大全价格APP名:公众号

版本:V7.28.284

更新时间:2024-10-10 16:14

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。