DeepFloyd IF

2年前更新 3,995 0 4

StabilityAI出品的免费AI绘画工具

收录时间：

2023-05-20

其他站点:

Hugging Face演示地址

打开网站手机查看

AI绘画工具 # StabilityAI

DeepFloyd IF

打开网站

DeepFloyd IF是一个文本到图像的生成模型，可以很好地处理文本，基本上是Google的Imagen的开源版本。DeepFloyd IF不光图像质量是照片级的，还解决了Midjourney等类文生图AI绘画工具的两大难题：准确绘制文字。

2022 年 2 月，谷歌展示了 Imagen，这是一种文本到图像模型，其性能优于当时刚刚发布的 OpenAI 的 DALL-E 2。根据该团队所示示例，该模型在文本到图像合成的准确性和质量方面击败了DALL-E。它还能够在图像中生成文本，这是任何开源模型都无法可靠地完成的功能。与其他生成AI模型（如Stable Diffusion或DALL-E 2）一样，Google团队依赖于冻结的文本编码器，该编码器将文本提示转换为嵌入，然后通过扩散模型将其解码为图像。然而，与其他模型不同的是，Imagen 不使用多模态训练的 CLIP，而是使用大型 T5-XXL 语言模型。该团队甚至能够证明，生成的图像的质量随着语言模型的大小而增加，而不是扩散模型的训练，扩散模型实际上负责图像合成。

DeepFloyd IF是一个开源的Imagen

现在，隶属于StabilityAI的DeepFloyd团队已经复制了这种架构，并发布了一种名为IF的开源镜像。根据该团队的说法，IF展示了Imagen的高图像质量和语言理解能力。它使用来自LAION-1B数据集的约2亿张图像进行了训练。IF的架构类似于Google的Imagen。|图片：深弗洛伊德在测试中，它甚至优于Google Imagen，在COCO数据集上获得了6.66的零镜头FID得分，也领先于其他可用模型，如 Stable Diffusion。根据该团队的说法，IF还支持图像到图像的翻译和Impaint。，时长00:07与 Imagen 一样，DeepFloyd IF 依赖于两个超分辨率模型，将图像的分辨率提高到 1024 x 1024 像素，并提供具有多达 43 亿个参数的不同模型大小。对于将分辨率升级到 1024 像素的最大模型，该团队建议使用 24 GB 的 VRAM，而即便是 256 像素的分辨率，最大型号运行起来仍需要 16 GB 的 VRAM。

DeepFloyd展示了文本到图像合成的更高水平

根据DeepFloyd的说法，这项工作显示了更大的UNet架构在级联扩散模型第一阶段的潜力，因此文本到图像合成的未来充满希望。换句话说，DeepFloyd的IF清楚地表明，生成式AI可以变得更好，开源社区将来可以实现像Google的Parti这样的模型，在某些方面超过了Imagen。IF模型的第一个版本受限制许可的约束，仅用于研究目的 – 即非商业目的 – 以临时收集反馈。在收集到这些反馈后，DeepFloyd和StabilityAI的团队将发布一个完全免费的商业兼容版本。

DeepFloyd IF是Google的Imagen的开源变体。文本到图像模型可以生成高质量的图像，并且可以很好地处理文本。
根据该团队的说法，IF优于其他模型，如Imagen或Stable Diffusion。该团队与StabilityAI相关联。
IF是开源的，目前需要16到24千兆字节的VRAM。

暂无评论

暂无评论...

DeepFloyd IF

DeepFloyd IF是一个开源的Imagen

DeepFloyd展示了文本到图像合成的更高水平

相关导航

NovelAI

创客贴AI画匠

Adobe Firefly萤火虫

Canva AI

Bing Image Creator

Stability AI

造梦日记

Graviti Diffus

暂无评论

热门网址