智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
最(zui)强开源文生图(tu)模型一夜(ye)易主(zhu)!
智东西8月2日报道,昨日晚间,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1。
FLUX.1包含专业版、开发者版、快速版三种模型(xing),其(qi)中前两款模型(xing)击败SD3-Ultra等主流模型(xing),较小(xiao)规模的(de)(de)FLUX.1[schnell]也超(chao)越了(le)Midjourney v6.0、DALL·E 3等更大的(de)(de)模型(xing)。

▲FLUX.1 ELO分数与主(zhu)流模型(xing)对(dui)比(bi)
FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最(zui)强的专业版模型FLUX.1[pro]生成图像示例,可以看到即使(shi)是生成大段的文字(zi)、多个人(ren)(ren)物,也(ye)没有出(chu)现字(zi)符(fu)、人(ren)(ren)手等细节上的错误。

▲FLUX.1[pro]生成(cheng)图像示例
FLUX.1现已在开源平台Replicate上可用,以下是我用提示词“世界上最小的黑森林蛋糕,手指大小,被黑森林的树木包围”,在三款模型上生成的图像,用时分别为17.5s、12.2s、1.5s。

▲三款模型生成对比
FLUX.1同时开放了API(应用程序接口),按图像张数定价,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。
FLUX.1背后的公司名为Black Forest Labs(黑森林实验室),由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100万美元(约合人(ren)民币2.25亿元)的种子(zi)轮(lun)融资。
黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出(chu)的Demo来看,无论是流畅度、稳(wen)定性还(hai)是物理模拟都达到第一梯队水平,该公(gong)司或(huo)许会(hui)成(cheng)为视频生成(cheng)领(ling)域的一匹黑马。

▲视频生成模型预告
三款模(mo)型试用地址:
//replicate.com/black-forest-labs/flux-pro
//replicate.com/black-forest-labs/flux-dev
//replicate.com/black-forest-labs/flux-schnell
一、擅长生成文字、人手,三种模型规模秒级生成
FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。
文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词,例如生成一个黑森林Flux Schnell蛋糕:

▲黑(hei)森林(lin)Flux Schnell蛋糕
在构图方面,FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如,FLUX.1完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。

▲复杂构图
人手(shou)一(yi)直是多模态生(sheng)成(cheng)模型(xing)的(de)(de)重灾区。FLUX.1生(sheng)成(cheng)的(de)(de)人手(shou)图(tu)像虽然(ran)还不够完(wan)美(mei),但(dan)实现(xian)了很大(da)的(de)(de)进步(bu)。

▲人手
FLUX.1共有专业版、开发者版、快速版三种版本。
其中,FLUX.1[pro]是最(zui)先进的(de)一个版本,具有顶级的(de)即时(shi)跟踪、视觉质量、图像细节(jie)和输(shu)出多样(yang)性,面(mian)向专业(ye)(ye)用户提供(gong)定制的(de)企业(ye)(ye)解决(jue)方案。

▲FLUX.1[pro]生(sheng)成图像示例
FLUX.1[dev]面向非(fei)商业应用,它从FLUX.1[pro]提炼而来,具有相似的质量(liang)和能力,同时比(bi)相同尺寸的标准模型更高效。

▲FLUX.1[dev]生成图像(xiang)示例
FLUX.1[schnell]是三款模型中最快的,专为本(ben)地开发和个人使用而定制,并(bing)根据Apache 2.0标准许可公开提供。

▲FLUX.1[schnell]生成图像示(shi)例(li)
FLUX.1现已在开源平台Replicate上可用,只需一行代码即可在云端运行,用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合(he)人民币(bi)0.4元(yuan)、0.22元(yuan)、0.022元(yuan))。
二、击败MJ V6、DALL·E 3,技术报告即将发布
性能方(fang)(fang)面,FLUX.1经过特(te)别微调,在预训练中保留了整个输出多样性,在指令(ling)遵守、视(shi)觉质量(liang)、尺寸/长(zhang)宽变化等多个方(fang)(fang)面树立了新标(biao)准。
其中FLUX.1[pro]和[dev]两款模(mo)型(xing),在5项测评(ping)标准(zhun)中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模(mo)型(xing)。
FLUX.1[schnell]作(zuo)为(wei)轻(qing)量级模(mo)型,不仅优(you)于同类竞争对手,还优(you)于Midjourney v6.0、DALL·E 3等强大的非蒸馏模(mo)型。

▲FLUX.1性能与主流(liu)模(mo)型(xing)对比
此外,所有FLUX.1模型均支持0.1和(he)2.0百(bai)万(wan)像素的多种宽(kuan)高(gao)比和(he)分辨(bian)率(lv)。

▲宽高比/分(fen)辨率变化
如此强大的性(xing)能是(shi)怎(zen)么做到的?
在模(mo)型架(jia)构上,FLUX.1采用基于多(duo)模(mo)态和并行扩散Transformer模(mo)块的混合(he)架(jia)构,并将其扩展到(dao)12B参数。
团队通(tong)过建立流(liu)匹配(Flow Matching)来(lai)改进最先进的(de)扩(kuo)散模型,并通(tong)过结(jie)合(he)旋转位(wei)置嵌入(Rotary Position Embedding)和(he)并行(xing)注意力(li)层(ceng),来(lai)提高(gao)模型性能和(he)硬(ying)件效(xiao)率(lv)。更(geng)详细的(de)技术(shu)报告将在不久后发(fa)布。
三、SD原班人马,2.25亿种子轮,要发SOTA视频模型
黑森林实验(yan)室由(you)Stable Diffusion的创始团队成(cheng)立,该(gai)团队此(ci)前的工(gong)作还包括高质量图像生(sheng)(sheng)成(cheng)模(mo)型VQGAN、视频生(sheng)(sheng)成(cheng)模(mo)型Stable Video Diffusion等。
Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持(chi)续(xu)开发SD后续(xu)版本(ben)的(de)成(cheng)员,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以(yi)及Patrick Esser,都(dou)在黑森林(lin)实验室的(de)创始团队中。

▲Stable Diffusion作者、黑森林实验室创始(shi)团队
该团队称,其(qi)核心信念是开发广泛可访问(wen)的模(mo)型(xing),促进研究界和学术界的创(chuang)新(xin)和协作,并提高模(mo)型(xing)透明度。
黑森林实验室宣布已完成3100万美元(约合人民币2.25亿元)的种子轮融资,由知名风(feng)投(tou)(tou)机构a16z(Andreessen Horowitz)领投(tou)(tou),VR制(zhi)造商(shang)Oculus的CEO Brendan Iribe、创(chuang)企孵(fu)化器YC的CEO陈嘉兴(Garry Tan)、英伟达研(yan)究员Timo Aila等专家及AI公司(si)跟投(tou)(tou),还收到了来自General Catalyst等一(yi)线基金的后续投(tou)(tou)资(zi)。
该团(tuan)队的(de)顾问委员会,包括在内(nei)容创作行业拥有丰富经验的(de)前迪(di)士(shi)尼总裁Michael Ovitz,以(yi)及神(shen)经风(feng)格转(zhuan)换的(de)先(xian)驱Matthias Bethge教授。
刚刚创业的AI大神安德烈·卡帕西(Andrej Karpathy)为黑森林(lin)团队送上祝(zhu)福,并称“开源的FLUX.1图像生成模型看起来非常强大”。

▲卡帕西评论
创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克(Emad Mostaque)也发来贺电,还说“之(zhi)前能与他(ta)们(men)(men)合作是我的荣幸,我相信他(ta)们(men)(men)会继续(xu)在生成每一个像素的旅程中突破界(jie)限”。

▲莫斯塔克评论
在下一步的工作上,黑森林预告将发布一款SOTA文生视频模型,“让所(suo)有人都能将文(wen)本转为视频”。该模型将建(jian)立在FLUX.1的基础上,“以高清和前所(suo)未有的速度(du)实现精确创作和编辑”。

▲视频生成模型预告
结语:多模态大模型领域黑马涌现
在众多(duo)大厂、创企狂卷文生视频之(zhi)际,文生图领域突(tu)然迎来黑(hei)马。“横空出世”的(de)(de)(de)FLUX.1的(de)(de)(de)不仅展现出卓越(yue)的(de)(de)(de)性能(neng),在文字(zi)生成、复杂构图、人手描(miao)绘等方(fang)面突(tu)破难关,还以多(duo)样化的(de)(de)(de)版(ban)本满(man)足不同(tong)用户的(de)(de)(de)需求。
黑森林实验室凭借着Stable Diffusion原班人马的(de)(de)强大(da)实力(li),获得(de)了(le)丰厚的(de)(de)种(zhong)子轮融资,也吸(xi)引了(le)众(zhong)多(duo)行业(ye)大(da)咖的(de)(de)关注与支持。其后续将(jiang)发布(bu)的(de)(de)视(shi)频(pin)模型,又将(jiang)为文(wen)生视(shi)频(pin)领域注入新的(de)(de)活力(li)。