最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

智东西（公众号：zhidxcom）
作者 | 香草
编辑 | 李水青

最(zui)强开源文生图(tu)模型一夜(ye)易主(zhu)！

智东西8月2日报道，昨日晚间，开源文生图模型霸主Stable Diffusion原班人马，宣布推出全新的图像生成模型FLUX.1。

FLUX.1包含专业版、开发者版、快速版三种模型(xing)，其(qi)中前两款模型(xing)击败SD3-Ultra等主流模型(xing)，较小(xiao)规模的(de)(de)FLUX.1[schnell]也超(chao)越了(le)Midjourney v6.0、DALL·E 3等更大的(de)(de)模型(xing)。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲FLUX.1 ELO分数与主(zhu)流模型(xing)对(dui)比(bi)

FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最(zui)强的专业版模型FLUX.1[pro]生成图像示例，可以看到即使(shi)是生成大段的文字(zi)、多个人(ren)(ren)物，也(ye)没有出(chu)现字(zi)符(fu)、人(ren)(ren)手等细节上的错误。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲FLUX.1[pro]生成(cheng)图像示例

FLUX.1现已在开源平台Replicate上可用，以下是我用提示词“世界上最小的黑森林蛋糕，手指大小，被黑森林的树木包围”，在三款模型上生成的图像，用时分别为17.5s、12.2s、1.5s。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲三款模型生成对比

FLUX.1同时开放了API（应用程序接口），按图像张数定价，三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元（约合人民币0.4元、0.22元、0.022元）。

FLUX.1背后的公司名为Black Forest Labs（黑森林实验室），由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似，黑森林致力于研发优质多模态模型并开源，目前已完成3100万美元（约合人(ren)民币2.25亿元）的种子(zi)轮(lun)融资。

黑森林还预告不久之后将发布SOTA（当前技术指标第一）视频模型。从其放出(chu)的Demo来看，无论是流畅度、稳(wen)定性还(hai)是物理模拟都达到第一梯队水平，该公(gong)司或(huo)许会(hui)成(cheng)为视频生成(cheng)领(ling)域的一匹黑马。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲视频生成模型预告

三款模(mo)型试用地址：

//replicate.com/black-forest-labs/flux-pro

//replicate.com/black-forest-labs/flux-dev

//replicate.com/black-forest-labs/flux-schnell

一、擅长生成文字、人手，三种模型规模秒级生成

FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越，其具有三大特点：文字生成、复杂构图、人手描绘。

文字的生成在图像、视频生成中非常重要，许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词，例如生成一个黑森林Flux Schnell蛋糕：

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲黑(hei)森林(lin)Flux Schnell蛋糕

在构图方面，FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如，FLUX.1完美地演绎了这段提示词：三个魔法巫师站在一张黄色桌子上，每个巫师都拿着一个标志。左边，一个穿着黑色长袍的巫师拿着一个写着“AI”的标志；中间，一个穿着红色长袍的女巫拿着一个写着“is”的标志；在右边，一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲复杂构图

人手(shou)一(yi)直是多模态生(sheng)成(cheng)模型(xing)的(de)(de)重灾区。FLUX.1生(sheng)成(cheng)的(de)(de)人手(shou)图(tu)像虽然(ran)还不够完(wan)美(mei)，但(dan)实现(xian)了很大(da)的(de)(de)进步(bu)。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲人手

FLUX.1共有专业版、开发者版、快速版三种版本。

其中，FLUX.1[pro]是最(zui)先进的(de)一个版本，具有顶级的(de)即时(shi)跟踪、视觉质量、图像细节(jie)和输(shu)出多样(yang)性，面(mian)向专业(ye)(ye)用户提供(gong)定制的(de)企业(ye)(ye)解决(jue)方案。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲FLUX.1[pro]生(sheng)成图像示例

FLUX.1[dev]面向非(fei)商业应用，它从FLUX.1[pro]提炼而来，具有相似的质量(liang)和能力，同时比(bi)相同尺寸的标准模型更高效。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲FLUX.1[dev]生成图像(xiang)示例

FLUX.1[schnell]是三款模型中最快的，专为本(ben)地开发和个人使用而定制，并(bing)根据Apache 2.0标准许可公开提供。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲FLUX.1[schnell]生成图像示(shi)例(li)

FLUX.1现已在开源平台Replicate上可用，只需一行代码即可在云端运行，用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放，三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元（约合(he)人民币(bi)0.4元(yuan)、0.22元(yuan)、0.022元(yuan)）。

二、击败MJ V6、DALL·E 3，技术报告即将发布

性能方(fang)(fang)面，FLUX.1经过特(te)别微调，在预训练中保留了整个输出多样性，在指令(ling)遵守、视(shi)觉质量(liang)、尺寸/长(zhang)宽变化等多个方(fang)(fang)面树立了新标(biao)准。

其中FLUX.1[pro]和[dev]两款模(mo)型(xing)，在5项测评(ping)标准(zhun)中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模(mo)型(xing)。

FLUX.1[schnell]作(zuo)为(wei)轻(qing)量级模(mo)型，不仅优(you)于同类竞争对手，还优(you)于Midjourney v6.0、DALL·E 3等强大的非蒸馏模(mo)型。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲FLUX.1性能与主流(liu)模(mo)型(xing)对比

此外，所有FLUX.1模型均支持0.1和(he)2.0百(bai)万(wan)像素的多种宽(kuan)高(gao)比和(he)分辨(bian)率(lv)。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲宽高比/分(fen)辨率变化

如此强大的性(xing)能是(shi)怎(zen)么做到的？

在模(mo)型架(jia)构上，FLUX.1采用基于多(duo)模(mo)态和并行扩散Transformer模(mo)块的混合(he)架(jia)构，并将其扩展到(dao)12B参数。

团队通(tong)过建立流(liu)匹配（Flow Matching）来(lai)改进最先进的(de)扩(kuo)散模型，并通(tong)过结(jie)合(he)旋转位(wei)置嵌入（Rotary Position Embedding）和(he)并行(xing)注意力(li)层(ceng)，来(lai)提高(gao)模型性能和(he)硬(ying)件效(xiao)率(lv)。更(geng)详细的(de)技术(shu)报告将在不久后发(fa)布。

三、SD原班人马，2.25亿种子轮，要发SOTA视频模型

黑森林实验(yan)室由(you)Stable Diffusion的创始团队成(cheng)立，该(gai)团队此(ci)前的工(gong)作还包括高质量图像生(sheng)(sheng)成(cheng)模(mo)型VQGAN、视频生(sheng)(sheng)成(cheng)模(mo)型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中，4位曾加入Stability AI并持(chi)续(xu)开发SD后续(xu)版本(ben)的(de)成(cheng)员，包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以(yi)及Patrick Esser，都(dou)在黑森林(lin)实验室的(de)创始团队中。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲Stable Diffusion作者、黑森林实验室创始(shi)团队

该团队称，其(qi)核心信念是开发广泛可访问(wen)的模(mo)型(xing)，促进研究界和学术界的创(chuang)新(xin)和协作，并提高模(mo)型(xing)透明度。

黑森林实验室宣布已完成3100万美元（约合人民币2.25亿元）的种子轮融资，由知名风(feng)投(tou)(tou)机构a16z（Andreessen Horowitz）领投(tou)(tou)，VR制(zhi)造商(shang)Oculus的CEO Brendan Iribe、创(chuang)企孵(fu)化器YC的CEO陈嘉兴（Garry Tan）、英伟达研(yan)究员Timo Aila等专家及AI公司(si)跟投(tou)(tou)，还收到了来自General Catalyst等一(yi)线基金的后续投(tou)(tou)资(zi)。

该团(tuan)队的(de)顾问委员会，包括在内(nei)容创作行业拥有丰富经验的(de)前迪(di)士(shi)尼总裁Michael Ovitz，以(yi)及神(shen)经风(feng)格转(zhuan)换的(de)先(xian)驱Matthias Bethge教授。

刚刚创业的AI大神安德烈·卡帕西（Andrej Karpathy）为黑森林(lin)团队送上祝(zhu)福，并称“开源的FLUX.1图像生成模型看起来非常强大”。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲卡帕西评论

创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克（Emad Mostaque）也发来贺电，还说“之(zhi)前能与他(ta)们(men)(men)合作是我的荣幸，我相信他(ta)们(men)(men)会继续(xu)在生成每一个像素的旅程中突破界(jie)限”。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲莫斯塔克评论

在下一步的工作上，黑森林预告将发布一款SOTA文生视频模型，“让所(suo)有人都能将文(wen)本转为视频”。该模型将建(jian)立在FLUX.1的基础上，“以高清和前所(suo)未有的速度(du)实现精确创作和编辑”。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

▲视频生成模型预告

结语：多模态大模型领域黑马涌现

在众多(duo)大厂、创企狂卷文生视频之(zhi)际，文生图领域突(tu)然迎来黑(hei)马。“横空出世”的(de)(de)(de)FLUX.1的(de)(de)(de)不仅展现出卓越(yue)的(de)(de)(de)性能(neng)，在文字(zi)生成、复杂构图、人手描(miao)绘等方(fang)面突(tu)破难关，还以多(duo)样化的(de)(de)(de)版(ban)本满(man)足不同(tong)用户的(de)(de)(de)需求。

黑森林实验室凭借着Stable Diffusion原班人马的(de)(de)强大(da)实力(li)，获得(de)了(le)丰厚的(de)(de)种(zhong)子轮融资，也吸(xi)引了(le)众(zhong)多(duo)行业(ye)大(da)咖的(de)(de)关注与支持。其后续将(jiang)发布(bu)的(de)(de)视(shi)频(pin)模型，又将(jiang)为文(wen)生视(shi)频(pin)领域注入新的(de)(de)活力(li)。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、擅长生成文字、人手，三种模型规模秒级生成

二、击败MJ V6、DALL·E 3，技术报告即将发布

三、SD原班人马，2.25亿种子轮，要发SOTA视频模型

结语：多模态大模型领域黑马涌现

相关推荐