DeepFloyd IF是一个文本到图像的生成模型,可以很好地处理文本,基本上是Google的Imagen的开源版本。DeepFloyd IF不光图像质量是照片级的,还解决了Midjourney等类文生图AI绘画工具的两大难题: 准确绘制文字。
2022 年 2 月,谷歌展示了 Imagen,这是一种文本到图像模型,其性能优于当时刚刚发布的 OpenAI 的 DALL-E 2。根据该团队所示示例,该模型在文本到图像合成的准确性和质量方面击败了DALL-E。它还能够在图像中生成文本,这是任何开源模型都无法可靠地完成的功能。与其他生成AI模型(如Stable Diffusion或DALL-E 2)一样,Google团队依赖于冻结的文本编码器,该编码器将文本提示转换为嵌入,然后通过扩散模型将其解码为图像。然而,与其他模型不同的是,Imagen 不使用多模态训练的 CLIP,而是使用大型 T5-XXL 语言模型。该团队甚至能够证明,生成的图像的质量随着语言模型的大小而增加,而不是扩散模型的训练,扩散模型实际上负责图像合成。
DeepFloyd IF是一个开源的Imagen
现在,隶属于StabilityAI的DeepFloyd团队已经复制了这种架构,并发布了一种名为IF的开源镜像。根据该团队的说法,IF展示了Imagen的高图像质量和语言理解能力。它使用来自LAION-1B数据集的约2亿张图像进行了训练。IF的架构类似于Google的Imagen。|图片:深弗洛伊德在测试中,它甚至优于Google Imagen,在COCO数据集上获得了6.66的零镜头FID得分,也领先于其他可用模型,如 Stable Diffusion。根据该团队的说法,IF还支持图像到图像的翻译和Impaint。,时长00:07与 Imagen 一样,DeepFloyd IF 依赖于两个超分辨率模型,将图像的分辨率提高到 1024 x 1024 像素,并提供具有多达 43 亿个参数的不同模型大小。对于将分辨率升级到 1024 像素的最大模型,该团队建议使用 24 GB 的 VRAM,而即便是 256 像素的分辨率,最大型号运行起来仍需要 16 GB 的 VRAM。
DeepFloyd展示了文本到图像合成的更高水平
根据DeepFloyd的说法,这项工作显示了更大的UNet架构在级联扩散模型第一阶段的潜力,因此文本到图像合成的未来充满希望。换句话说,DeepFloyd的IF清楚地表明,生成式AI可以变得更好,开源社区将来可以实现像Google的Parti这样的模型,在某些方面超过了Imagen。IF模型的第一个版本受限制许可的约束,仅用于研究目的 – 即非商业目的 – 以临时收集反馈。在收集到这些反馈后,DeepFloyd和StabilityAI的团队将发布一个完全免费的商业兼容版本。
- DeepFloyd IF是Google的Imagen的开源变体。文本到图像模型可以生成高质量的图像,并且可以很好地处理文本。
- 根据该团队的说法,IF优于其他模型,如Imagen或Stable Diffusion。该团队与StabilityAI相关联。
- IF是开源的,目前需要16到24千兆字节的VRAM。