StableDiffusionSD3横空出世!再次刷新AI绘图新高度

格物时间 2024-04-18 21:08:04

在困难面前不退缩:尽管公司总裁辞职且核心团队有所变动,作为AI绘图领域的唯二真神,Stability AI依旧不断推动技术的边界,向市场交付创新产品。

昨天夜里,Stability AI正式发布了Stable Diffusion 3 API,在SD3的技术报告公布几个月之后,用户终于可以上手试用了。尽管完全开源的SD3模型还在开发中,公司承诺对普通用户永不收费。

昨天夜里,Stability AI正式发布了Stable Diffusion 3 API,在SD3的技术报告公布几个月之后,用户终于可以上手试用了。

现在,用户可以通过Fireworks AI访问SD3的API,体验其先进的功能。据官方技术报告,SD3在用户提示的遵循上表现优于DALL·E 3和Midjourney,其新的多模态扩散变压器 (MMDiT) 架构大大提升了对图像和语言的处理能力。

现在,用户可以通过Fireworks AI访问SD3的API。

根据最新的技术报告,SD3技术在理解和遵循用户提示方面显示出了显著优势。与DALL·E 3和Midjourney相比,SD3能够更加精准地捕捉到用户的需求,提供更符合预期的图像生成结果。这一优势使得SD3在用户满意度和实用性上获得了更高的评价。

SD 3新引入的多模态扩散变压器(MMDiT)架构,采用了针对图像和语言表示的独立权重集,这一创新显著提升了模型对文本的理解和拼写能力。与之前版本的稳定扩散模型相比,MMDiT架构不仅增强了文本到图像的转换效果,还优化了从复杂提示中提取和实现具体细节的能力,进一步拓宽了其应用范围和效率。

可以看到,用户可以非常精准地控制需要出现在图片中地文字内容。

新模型生成的逼真图片,足以以假乱真。

Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train.

对于完全虚构的图片也能做到美学和细节真实度的统一。

Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo.

调用API,网友用SD3和ChatGPT做了一个小游戏。

在他的观点中,SD3在保持风格一致性方面表现得比DALL·E更为出色,尤其是在生成系统工程中的美术素材时,能够更好地展现出细致和一致的艺术风格。这使得SD3在需要高度风格统一性的领域,如系统工程美术设计,更受欢迎,能有效提升整体视觉协调性和美感。

网友也分享更多用SD3生成的作品。

可以看到,如果对于图片内容中的文字有明确要求,SD3是为数不多能满足要求的模型。

机器人的手似乎也没有瑕疵了。

人物面部的细节非常真实。

狮头机器人。

机械风的中国龙造型也是细节满满,惟妙惟肖。

许多使用SD3 API的应用程序开发者在Stability AI的官方推特下面,通过展示用SD3生成的图片来为自己的API做广告。这种做法不仅展示了SD3的强大功能和多样化的应用场景,也帮助这些应用吸引了更多潜在用户的注意,提高了他们产品的市场可见度和吸引力。

模型核心构架

SD3的核心技术在于StabilityAI 开发的MMDiT技术。

模型结合了三种不同的文本嵌入器——两个CLIP模型和一个T5,以编码文本表示,并使用改进的自动编码模型对图像token进行编码。其核心采用了与Sora相同的DiT技术。

由于文本和图像的嵌入在概念上完全不同,因此模型针对这两种模式使用了两组独立的权重。正如所示,每种模态都配备了两个独立的转换器,通过将两种模态的序列连接起来进行注意力操作,使得两种表征都能在各自的空间中独立工作,同时又能相互参照。

这种特殊的架构安排使得MMDiT的性能超越了传统的UViT或DiT本身。此方法允许信息在图像和文本标记之间流动,从而提升了生成输出中的整体理解和排版质量。这种架构还能轻松扩展到视频等多种模式。

得益于SD3在提示跟随功能上的改进,模型能够根据各种不同的主题和需求创造图像,同时保持对图像风格的高度灵活性。

Stability AI的持续创新,展示了其在AI绘画领域的领导地位。随着SD3的发布,我们期待看到更多的个人和企业将这一强大工具应用于各种创新和商业场景。

0 阅读:15

格物时间

简介:个人成长