详细介绍
Imagen是一种文本到图像扩散模型,具有前所未有的逼真度和深度的语言理解能力。该模型充分利用了大型变压器语言模型在理解文本方面的强大能力,并依赖于扩散模型在生成高保真图像方面的强大性能。研究人员的关键发现是,通用的大型语言模型(例如T5),在仅对文本进行预训练的语料库上表现出惊人的编码文本用于图像合成的效果:在Imagen中增加语言模型的大小不仅提高了样本的保真度,还显着提升了图像与文本的对齐度,远远超过了增加图像扩散模型的大小。在COCO数据集上,Imagen实现了新的最先进FID分数为7.27,而且从未在COCO上进行过训练,人工评估者发现Imagen的样本在图像与文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,研究人员引入了DrawBench,这是一个全面而具有挑战性的文本到图像模型基准。通过DrawBench,他们将Imagen与包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2在内的最新方法进行比较,发现人工评估者在一对一比较中更喜欢Imagen,无论是在样本质量还是图像与文本对齐方面。
同类推荐
查看全部 →
BigjpgBigjpg是一款基于人工智能深度卷积神经网络(CNN)的图片无损放大工具。
Bigjpg是一款基于人工智能深度卷积神经网络(CNN)的图片无损放大工具。
Stability AIStability AI是一家总部位于英国伦敦的人工智能公司。
Stability AI是一家总部位于英国伦敦的人工智能公司。
触手AI触手AI,一款由杭州水母智能开发的国产AI绘图平台。
触手AI,一款由杭州水母智能开发的国产AI绘图平台。
PromptBasePromptBase,AI提示词交易与优化平台。
PromptBase,AI提示词交易与优化平台。
Neural.loveNeural.love,一款多功能AI工具平台。
Neural.love,一款多功能AI工具平台。
ToonmeToonme,一款AI驱动的照片卡通化应用。
Toonme,一款AI驱动的照片卡通化应用。
Cliclic AICliclic AI,一款免费的产品背景生成器。
Cliclic AI,一款免费的产品背景生成器。
SparkAiSparkAi,一款基于OpenAI-ChatGPT、AI大模型、AI智能体(自定义GPTs智能体对接)、AI绘画Midjourney、Dalle绘画开发的AI大模型智能问答和AI绘画系统。
SparkAi,一款基于OpenAI-ChatGPT、AI大模型、AI智能体(自定义GPTs智能体对接)、AI绘画Midjourney、Dalle绘画开发的AI大模型智能问答和AI绘画系统。
Pic CopilotPic Copilot,阿里巴巴国际团队开发的创新人工智能平台。
Pic Copilot,阿里巴巴国际团队开发的创新人工智能平台。
Skybox AISkybox AI,来自Blockade Labs的一键式360°图像生成器。
Skybox AI,来自Blockade Labs的一键式360°图像生成器。
