学霸说保险2024年10月11日发布:AI生图格局大震!Stable Diffuion 3开源,碾压闭源Midjourney

⭐发布日期:2024年10月11日 | 来源:学霸说保险

⭐作者:大富 责任编辑:Admin

⭐阅读量:972 评论:8人

【2024香港图库免费资料大全看开奖结果今晚】

【2024新澳门天天开好彩大全资料】

【二四六天天彩免费资料查询】 【香港最快免费资料大全】 【4949澳门精准资料大全最新开奖记录】 【今晚澳门天天有好彩】 【2024今晚澳门开什么号码】 【最准一肖一码100%精准软件】 【管家婆白小姐三肖三码必出一开奖记录查询】 【香港发布黄色暴雨警告开奖结果记录】
【2024新澳门原料免费462开奖结果查询】 【澳门宝典资料2024年大全】 【澳门传真免费费资料】 【2024年澳门资料天奖开众】 【澳门四不像网】 【2024年澳门天天开好大全】 【新澳门正版资料免费大全2024开奖历史记录】 【2o24新澳门正版免费资木车开奖结果记录】

编辑:编辑部

【新智元导读】重磅消息!Stable Diffusion 3,大概率会在明天开源。距离2月SD3的横空出世,已经过去了4个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的MMDiT全新架构,将彻底改变AI生图的格局。现在,全体AI社区都在翘首以盼。

万众瞩目的Stable Diffusion 3,终于要正式开源了!

几天前,在Computex 2024大会上,Stability AI联合首席执行官Christian Laforte正式官宣:SD 3 Medium将在6月12日公开发布。

据悉,之后还会开源4B和8B的版本。

消息一出,网友们就激动地奔走相告。

种种迹象表明,SD3明天的开源应该是铁板钉钉了。

目前,ComfyUI已经提交了对SD3支持的版本。

网友表示,如果此事是真的,那可就太疯狂了,生图圈子将成第一个开源碾压闭源的赛道!

这边AI生图王者Midjourney刚刚放出功能更新,网友们就在评论区纷纷留言:SD3一旦开源,你们就完蛋了。

网友们纷纷搬好板凳,坐等SD3的权重发布了。

欠债1亿的独角兽,仍坚持做开源英雄?

两个月前,Stable Diffusion 3一横空出世,立刻在人类偏好评估中斩下DALL-E 3和Midjourney v6,一举成为该领域的SOTA。

因为攻克了AI图像生成领域著名的「正确性」测试,SD3一时名声大噪,引发了极大热度。

虽然放出的模型效果惊艳全网,但选择开源也让公司的收入入不敷出。随后就是满身黑历史的CEO跑路、人才出走等负面事件,让Stability AI这头独角兽的前途风雨飘摇,一度陷入欠下1亿美元的「卖身」传闻。

在鼎盛时期的Stability AI收到过不少橄榄枝,却断然拒绝收购。然而亏损超3000万美元、拖欠1亿美元账单的事实,揭示了所有开源公司共同的困境——

如果选择将代码、权重和产品API免费开放,即便保留部分高级功能,也很难吸引到付费用户。

如果在这种情况下,SD3依然坚持开源,叫Stability AI一声「开源英雄」绝不为过。

强大的架构、更好的明暗对比度、提示遵循、训练结果、模型合并、图像分辨率……SD3的开源给我们带来的贡献可太多了!

现在,所有人都在翘首以盼。

将对开源社区影响重大

Stable Diffusion3的开源,为何意义如此重大?

在reddit的StableDiffusion社区,一位网友给出了以下总结,让我们从非技术视角,理解SD3的重要性,以及对AI社区的重大影响。

作者表示,自己希望能让外行人都明白,为何Stable Diffusion 3如此重要。

曾经Stable Diffusion的开源,就改变了游戏规则

VAE是无名英雄

VAE(变分自编码器)非常特别,因为它让提供了16个通道的特征和颜色数据供我们使用,而之前的模型只有4个通道。

下面的四张图显示出,这将产生多大的影响。

Emu论文地址:https://arxiv.org/pdf/2309.15807

这也就意味着,模型在训练时会捕获更多细节。

不仅模型的质量会更好,而且实际上会带来更快的训练速度,从而使主要的MMDiT模型(也就是实现生成的主要模型)能够更好地捕捉细节。

感兴趣的读者可以阅读下面这篇技术性解读:

文章地址:https://huggingface.co/blog/TimothyAlexisVass/explaining-the-sdxl-latent-space#the-8-bit-pixel-space-has-3-channels

与旧的模型相比,新的16通道VAE在512x512分辨率下的表现,可以说令人难以置信——即使在较小的图像尺寸下,通道维度上的特征数量也足以捕捉到很好的细节。

为了更好地说明这一点,我们可以用视频领域的标准来做个类比——

VHS和DVD都是标准定义的480i/480p,但DVD显然捕捉到了更多细节,甚至在硬件和软件的升频器上表现也很好。

或者,可以用复古游戏玩家的说法来类比——

- 复合视频线(Composite cables) -> SD1.X的VAE

- S-Video线 -> SDXL的VAE

- 组件视频线(Component cables) -> SD3的VAE

因此,将VAE应用到如今我们的AI工作流程中,一切都将变得更加高效。

在视频生成方面,则可以在低分辨率下训练以适应虚拟内存(VRAM),然后通过分辨率增强流程来保留细节。

我们不需要训练/微调文本编码器了

众所周知,训练文本编码器可以提升基于SD1.X模型和SDXL模型的性能。

然而在这位网友看来,从长远来看,这其实是低效的,因为在实际应用中存在大量的微调和模型合并。

这会在推理过程中导致大量的重新加权,从而引起混乱,使得在创作过程中捕捉细节变得更加困难。

虽然在小规模应用中可以这样做,但随着社区的扩大,训练文本编码器就变得极其繁琐了。

从技术角度来看,CLIP模型本身就很难训练和微调,因此如果尝试同时处理三个模型,可能会面临一场艰难的苦斗。

而现在,我们或许根本不需要微调文本编码器了!

第一个原因是,VAE相比旧模型,捕捉了更多的细节。

第二个原因则是,无论我们使用哪种变体,SD3都经过了适当且鲁棒的caption训练,以捕捉大多数人认为重要的所有细节。

在SD3中,可以让新的架构和VAE为我们捕捉这些细节,这样我们就可以更好地利用多个LoRA模型,实现更鲁棒的生成。

加速新的AI研究

目前,生成式AI社区和LLM社区之间还缺乏一定的协作。

在这位网友看来,随着MMDiT架构更好地与LLM社区对齐,会有更多的开发者进入生成式AI社区,带来大量丰富的研究和方法。

这将造成的影响,或许是十分重大的。

此前,LLM社区就创建了很多应用于生成式AI的伟大方法(比如LoRA就是从文本建模中派生出来的),然而,由于架构之间缺乏互操作性操作性(当前SD使用的是UNet,SD3使用的是Transformer块),会让许多人望而却步。

如果两个领域的开发者和研究者开始合作,扩展许多跨领域的多模态功能,比如文本、图像、音频、视频等,比如会创造出许多独属于开源社区的非常棒的体验。

旧方法更加完善

自从Stable Diffusion诞生以来,我们可以在眨眼间生成图像、视频、音频,甚至3D模型。

如今在谷歌Scholar上,关于Stable Diffusion的论文已经有7500多篇了。

微调方法、ControlNet、适配器、分段方法等理论,在SD上应该会比从前的架构表现得更好。

而且因为架构简单,模型会变得更易访问和使用。

事实上,由于SD3的强大图像-文本对齐和VAE,有些方法可能我们再也不需要了。

比如在音频扩散、视频扩散和3D扩散模型领域,就可以在新架构上用这些方法训练,进一步提高模型的质量和鲁棒性。

显然,ControlNets和适配器会变得更好,因为SD3实际上是使用多模态架构构建的。

这也就意味着,SD3在不同模态之间,会有更好的关系理解。

如今我们在构建新方法时,就可以在同一空间内利用这些模态,再结合上更好的文本理解和强大的VAE,SD3的前途简直不可限量!

CEO「跑路」,开源成谜

赶在2月份的时候,Stable Diffusion迭代到了第3个版本。

然而仅一个月的时间,背后核心团队却被曝出集体离职。

更让人意想不到的是,身为CEO的Emad也紧跟辞职,退出了董事会。

显然,SD3随后的开源,也变得迷雾重重。

当时,外界的猜测是,Stability AI的动荡是Emad一手酿成的。

彭博对20位现任前任员工、投资者等采访了解到,Emad在治理公司方面缺乏经验,组织结构混乱。

更有甚者,公司还习惯性地拖欠工资和税款。

Emad近日又成立了一家初创公司Schelling AI,专注去中心化AI系统

其实, 在23年底,公司内部不稳定的现象已经出现了苗头。

作为联创之一的Cyrus Hodes便起诉Emad是个「骗子」。

他指控,在公司进行重大融资几个月前,Emad曾诱骗自己以100美元价格出售15%股份。

其实,Stability AI创立之后,便以模型「开源」深受社区关注和好评。

它先后发布了多款模型「全家桶」,包括语言模型Stable LM、视频模型Stable Video Diffusiion、音频模型Stable Audio。

而比起具有里程碑意义的Stable Diffusion,一代和二代模型系列在开源社区有300-400万下载量。

在开源背后,需要的是Stability AI不断开启「烧钱」模式。

但显然,这种入不敷出的方式,根本无法支撑这家公司持续性发展。

前段时间,Information爆料称,Stability AI第一季度的营收不足500万美元。而且,公司亏损超过了3000万美元,还对外拖欠了近1亿美元的巨额账单。

更有传闻称,Stability AI正寻求卖身。

而在SD3发布之后,官方宣布称在对齐之后正式开源,结果等了3个多月,依然只是API的开放。

有Reddit网友在线发起了提问,为Stability AI寻求赚钱出路,以保证SD3能够顺利放出。

20亿参数版本先上线

好在,ComputeX大会上,终于等到了SD3的官宣开源。

一些网友纷纷收到了Stability AI邮件,即将开源的SD3 Medium是一个20亿参数的模型。

不过,有人对此质疑道,「Stability AI愚弄了所有的人,他们开源的是一个名为『SD3 Medium』的模型,其实内部还有Large和X-Large版本还未发布,这才是人们期待的真正的SD3」。

关于更大版本的开源,Stability AI自家员工表示,40亿、80亿参数的版本未来都将会陆续上线。

Stable Diffusion 3技术回顾

SD3的诞生已经在图像质量、多个对象、拼写能力方面,都得到了显著提升,让AI生图再创新里程碑。

发布当天,前CEO Emad承诺道,SD3未来将会开源,目前还在测试阶段。

甚至,它还涌现出了对物理世界的理解。

紧接着3月,Stability AI公布了新模型最详实的技术报告。

论文中,首次介绍了Stable Diffusion 3背后核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构!

论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

与之前的版本对比,SD3明显在图像质量生成上,实现了很大的改进,不仅支持多主题提示。

最重要的是,文字拼写的效果也变好了。

这一切竟是因为,其背后框架的改进和创新。

它用上了与Sora同样的DiT架构,灵感来源于纽约大学助理教授谢赛宁的研究。

而在以前的Stable Diffusion版本中,并未采用Transformer技术。

在文生图的任务中,SD3需要同时考虑文本+图像两种模态。

因此,研究者提出了一种全新的架构,称为——MMDiT(多模态Diffusion Transformer),专为处理这种多模态的能力。

具体而言,模型采用了三种不同的文本嵌入模型——两个CLIP模型和一个T5 ,来处理文本信息。

与此同时,还采用了一个自编码模型来编码图像token。

因为文本和图像嵌入在概念上有很大不同,下图右中可以看出,研究者对两种模态使用了两种不同的权重。

基于这种独特的架构,使得图像和文本信息之间可以相互流动和交互,从而在生成的结果中提高对内容的整体理解和视觉表现。

而且,这种架构未来还可以轻松扩展到其他包括视频在内的多种模态。

实验评估中,SD3在人类偏好评估中超越了DALL-E 3和Midjourney v6,成为该领域的SOTA模型。

而且,SD3是一个模型系列,提供了8亿到80亿参数版本,意味着可以在终端设备可跑,大大降低了AI应用的门槛。

网友们对此激动不已,纷纷催更他们快速上线。

SD3开源倒计时开启,接下来坐等上手了。

参考资料:

https://x.com/op7418/status/1800455685068771643

https://x.com/StabilityAI/status/1797462536117444794

https://www.reddit.com/r/StableDiffusion/comments/1d6t0gc/sd3_release_on_june_12/

https://www.reddit.com/r/StableDiffusion/comments/1dcuval/comment/l80v9an/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

【今晚开什么特马肖开奖结果】 【澳门正版内部资料大公开】
【2024澳门正版资料全年免费】 【伊朗高官见莱希遗体相拥痛哭】
【一码一肖100准打开码结果开奖结果查询】 【4777777澳门查询】
【澳门传真49正版4949】 【澳门最准一肖一码一码匠子生活】
【新澳门六开彩资料大全42期】 【2024澳门六开彩资料查询结果】
【2024澳门管家婆资料开奖记录今晚】 【澳门正版资料免费网开奖记录查询】 【新澳门资料大全正版资料开奖结果记录】
上一条新闻 下一条新闻

推荐文章

发表评论

夏海明高

3秒前:VAE(变分自编码器)非常特别,因为它让提供了16个通道的特征和颜色数据供我们使用,而之前的模型只有4个通道。

IP:79.57.7.*

长久友纪

2秒前:从技术角度来看,CLIP模型本身就很难训练和微调,因此如果尝试同时处理三个模型,可能会面临一场艰难的苦斗。

IP:81.71.6.*

德尔菲娜·尚内亚克

2秒前:而在以前的Stable Diffusion版本中,并未采用Transformer技术。

IP:35.82.6.*

学霸说保险APP介绍

APP图标

澳门精准王中王免费资料APP名:学霸说保险

版本:V4.37.518

更新时间:2024-10-10 18:17

今晚澳门六开彩结果和查询这是一个功能强大的管家婆一肖一码100中奖APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:s3.

新澳最新快资料APP介绍

APP图标

2024澳门精准正版资料63期APP名:学霸说保险

版本:V9.73.353

更新时间:2024-10-10 19:22

无论是2024新澳免费资料晒马汇快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

管家婆一肖一码APP介绍

APP图标

澳门九龙资料免费公开资料新手APP名:学霸说保险

版本:V6.93.181

更新时间:2024-10-10 22:18

看澳门正版资料大全应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

澳门免费资料大全精准版853APP介绍

APP图标

新澳门黄大仙8码大公开APP名:学霸说保险

版本:V1.81.181

更新时间:2024-10-10 14:17

澳门一码一肖一特一中五码必中这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

王中王免费资料大全料大全一精准APP介绍

APP图标

澳门2024正版资料免费公开回APP名:学霸说保险

版本:V2.62.419

更新时间:2024-10-10 17:23

这是一款功能强大的新澳门免费资料大全彩民之家应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:而且,这种架构未来还可以轻松扩展到其他包括视频在内的多种模态。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

一肖中特期期准资料免费公开了APP介绍

APP图标

正版全年免费资料大全视频APP名:学霸说保险

版本:V2.72.284

更新时间:2024-10-10 24:14

这是一款功能强大的2024年香港正版免费大全应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:然而在这位网友看来,从长远来看,这其实是低效的,因为在实际应用中存在大量的微调和模型合并。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

今晚澳门开准确生肖APP介绍

APP图标

49494949最快结果APP名:学霸说保险

版本:V1.17.320

更新时间:2024-10-10 18:23

这是一款功能强大的二四六天天彩资料大全网应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:与之前的版本对比,SD3明显在图像质量生成上,实现了很大的改进,不仅支持多主题提示。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

正版资料澳门APP介绍

APP图标

新澳天天免费资料大全APP名:学霸说保险

版本:V9.25.733

更新时间:2024-10-10 17:13

今天的最新动态包括:com/r/StableDiffusion/comments/1dcuval/comment/l80v9an/?,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

2020年澳门正版资料大全公开APP介绍

APP图标

2024今晚新澳六我奖51期APP名:学霸说保险

版本:V8.81.920

更新时间:2024-10-10 15:20

这是一款功能强大的新澳六开彩号码记录应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:文章地址:https://huggingface.。

正宗一肖一码100中奖图片大全APP介绍

APP图标

澳门十码资料期期准APP名:学霸说保险

版本:V7.83.102

更新时间:2024-10-10 22:22

这款功能强大的二四六天天免费资料大全部应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

梨花属于什么生肖APP介绍

APP图标

澳门4949结果最快APP名:学霸说保险

版本:V2.77.353

更新时间:2024-10-10 16:16

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

大乐透号码结果福彩APP介绍

APP图标

2024澳门一肖一码一特中APP名:学霸说保险

版本:V3.68.795

更新时间:2024-10-10 20:17

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。