极速nba直播吧在线直播观看_极速nba回放主营产品:轮式推土机,轮胎式推土机,夯实机,强夯机!24小时销售热线:0371-66655355
当前位置:首页 > 极速nba/中心

AI生图格局大震!Stable Diffusion 3开源倒计时2B单机可跑碾压闭源Midjourney

日期:2024-07-20 23:19:00 |    作者: 极速nba

  重磅消息!Stable Diffusion 3,大概率会在明天开源。距离2月SD3的横空出世,已逝去了4个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的MMDiT全新架构,将彻底改变AI生图的格局。现在,全体AI社区都在翘首以盼。

  网友表示,如果此事是真的,那可就太疯狂了,生图圈子将成第一个开源碾压闭源的赛道!

  这边AI生图王者Midjourney刚刚放出功能更新,网友们就在评论区纷纷留言:SD3一旦开源,你们就完蛋了。

  因为攻克了AI图像生成领域著名的「正确性」测试,SD3一时名声大噪,引发了极大热度。

  虽然放出的模型效果惊艳全网,但选择开源也让公司的收入入不敷出。随后就是满身黑历史的CEO跑路、人才出走等负面事件,让Stability AI这头独角兽的前途风雨飘摇,一度陷入欠下1亿美元的「卖身」传闻。

  在鼎盛时期的Stability AI收到过不少橄榄枝,却断然拒绝收购。然而亏损超3000万美元、拖欠1亿美元账单的事实,揭示了所有开源公司共同的困境——

  如果选择将代码、权重和产品API免费开放,即便保留部分高级功能,也很难吸引到付费用户。

  如果在这种情况下,SD3依然坚持开源,叫Stability AI一声「开源英雄」绝不为过。

  强大的架构、更好的明暗对比度、提示遵循、训练结果、模型合并、图像分辨率……SD3的开源给我们大家带来的贡献可太多了!

  在reddit的StableDiffusion社区,一位网友给出了以下总结,让我们从非技术视角,理解SD3的重要性,以及对AI社区的重大影响。

  作者表示,自己希望能让外行人都明白,为何Stable Diffusion 3如此重要。

  VAE(变分自编码器)非常特别,因为它让提供了16个通道的特征和颜色数据供个人会使用,而之前的模型只有4个通道。

  不仅模型的质量会更好,而且实际上会带来更快的训练速度,从而使主要的MMDiT模型(也就是实现生成的主要模型)能够更好地捕捉细节。

  与旧的模型相比,新的16通道VAE在512x512分辨率下的表现,可以说令人难以置信——即使在较小的图像尺寸下,通道维度上的特征数量也足以捕捉到很好的细节。

  VHS和DVD都是标准定义的480i/480p,但DVD显然捕捉到了更多细节,甚至在硬件和软件的升频器上表现也很好。

  在视频生成方面,则可以在低分辨率下训练以适应虚拟内存(VRAM),然后通过分辨率增强流程来保留细节。

  众所周知,训练文本编码器能提高基于SD1.X模型和SDXL模型的性能。

  然而在这位网友看来,从长远来看,这其实是低效的,因为在实际应用中存在大量的微调和模型合并。

  这会在推理过程中导致大量的重新加权,从而引起混乱,使得在创作过程中捕捉细节变得更困难。

  虽然在小规模应用中能这样做,但随着社区的扩大,训练文本编码器就变得极其繁琐了。

  从技术角度来看,CLIP模型本身就很难训练和微调,因此如果尝试同时处理三个模型,可能会面临一场艰难的苦斗。

  第二个原因则是,无论个人会使用哪种变体,SD3都经过了适当且鲁棒的caption训练,以捕捉大多数人认为重要的所有细节。

  在SD3中,可以让新的架构和VAE为我们捕捉这一些细节,这样我们就可以更好地利用多个LoRA模型,实现更鲁棒的生成。

  在这位网友看来,随着MMDiT架构更好地与LLM社区对齐,会有更多的开发者进入生成式AI社区,带来大量丰富的研究和方法。

  此前,LLM社区就创建了很多应用于生成式AI的伟大方法(比如LoRA就是从文本建模中派生出来的),然而,由于架构之间缺乏互操作性操作性(当前SD使用的是UNet,SD3使用的是Transformer块),会让许多人望而却步。

  如果两个领域的开发者和研究者开始合作,扩展许多跨领域的多模态功能,比如文本、图像、音频、视频等,比如会创造出许多独属于开源社区的非常棒的体验。

  自从Stable Diffusion诞生以来,我们大家可以在眨眼间生成图像、视频、音频,甚至3D模型。

  微调方法、ControlNet、适配器、分段方法等理论,在SD上应该会比从前的架构表现得更好。

  事实上,由于SD3的强大图像-文本对齐和VAE,有些方法可能我们再也不需要了。

  比如在音频扩散、视频扩散和3D扩散模型领域,就可以在新架构上用这一些方法训练,进一步提升模型的质量和鲁棒性。

  显然,ControlNets和适配器会变得更好,因为SD3其实就是使用多模态架构构建的。

  如今我们在构建新方法时,就可以在同一空间内利用这些模态,再结合上更好的文本理解和强大的VAE,SD3的前途简直不可限量!

  当时,外界的猜测是,Stability AI的动荡是Emad一手酿成的。

  彭博对20位现任前任员工、投资者等采访了解到,Emad在治理公司方面缺乏经验,组织架构混乱。

  Emad近日又成立了一家初创公司Schelling AI,专注去中心化AI系统

  他指控,在公司做重大融资几个月前,Emad曾诱骗自己以100美元价格出售15%股份。

  其实,Stability AI创立之后,便以模型「开源」深受社区关注和好评。

  而比起具有里程碑意义的Stable Diffusion,一代和二代模型系列在开源社区有300-400万下载量。

  前段时间,Information爆料称,Stability AI第一季度的营收不足500万美元。而且,公司亏损超过了3000万美元,还对外拖欠了近1亿美元的巨额账单。

  而在SD3发布之后,官方宣布称在对齐之后正式开源,结果等了3个多月,依然只是API的开放。

  有Reddit网友在线发起了提问,为Stability AI寻求赚钱出路,以保证SD3能够顺利放出。

  一些网友纷纷收到了Stability AI邮件,即将开源的SD3 Medium是一个20亿参数的模型。

  不过,有人对此质疑道,「Stability AI愚弄了所有的人,他们开源的是一个名为『SD3 Medium』的模型,其实内部还有Large和X-Large版本还未发布,这才是人们期待的线」。

  关于更大版本的开源,Stability AI自家员工表示,40亿、80亿参数的版本未来都将会陆续上线。

  SD3的诞生已经在图像质量、多个对象、拼写能力方面,都得到了显著提升,让AI生图再创新里程碑。

  发布当天,前CEO Emad承诺道,SD3未来将会开源,目前还在测试阶段。

  论文中,首次介绍了Stable Diffusion 3背后核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构!

  与之前的版本对比,SD3明显在图像质量生成上,实现了很大的改进,不仅支持多主题提示。

  它用上了与Sora同样的DiT架构,灵感来源于纽约大学助理教授谢赛宁的研究。

  因此,研究者提出了一种全新的架构,称为——MMDiT(多模态Diffusion Transformer),专为处理这种多模态的能力。

  具体而言,模型采用了三种不同的文本嵌入模型——两个CLIP模型和一个T5 ,来处理文本信息。

  因为文本和图像嵌入在概念上有很大不同,下图右中能够准确的看出,研究者对两种模态使用了两种不同的权重。

  基于这种独特的架构,使得图像和文本信息之间可以相互流动和交互,从而在生成的结果中提高对内容的整体理解和视觉表现。

  而且,SD3是一个模型系列,提供了8亿到80亿参数版本,意味着可以在终端设备可跑,大幅度的降低了AI应用的门槛。

  网友们对此激动不已,纷纷催更他们快速上线开源倒计时开启,接下来坐等上手了。