近日,國(guó)外AI團(tuán)隊(duì)黑森林實(shí)驗(yàn)室(Black Forest Labs)宣布推出新一代 AI 圖像生成與編輯模型FLUX.1 Kontext,這是繼去年 8 月首次發(fā)布Flux模型后,該團(tuán)隊(duì)在多模態(tài)生成領(lǐng)域的又一里程碑。據(jù)官方介紹,與傳統(tǒng)文本到圖像模型不同,F(xiàn)LUX.1 Kontext 首次實(shí)現(xiàn)了文本與圖像雙輸入的上下文生成與編輯,允許用戶通過(guò)自然語(yǔ)言指令直接修改現(xiàn)有圖像的局部或全局元素,同時(shí)保持角色一致性和視覺(jué)連貫性。
Flux.1 Kontext系列模型包括兩個(gè)型號(hào):Flux.1 Kontex [pro] 和 Flux.1 Kontex [max]。Flux.1 Kontex [pro] 允許用戶生成圖像并通過(guò)多次回合對(duì)其進(jìn)行優(yōu)化,保留字符和樣式。Flux.1 Kontex [max] 強(qiáng)調(diào)速度、一致性和對(duì)提示的遵守。不過(guò),與以往的FLux模型不同,F(xiàn)lux.1 Kontex [pro] 和 Flux.1 Kontex [max] 無(wú)法下載離線使用。然而,Black Forest Labs 正在制作一個(gè)開(kāi)放的 Kontext 模型 Flux.1 Kontext [dev],可用于私人測(cè)試版,用于研究和安全測(cè)試。
FLUX.1 Kontext采用流匹配架構(gòu)(Flow Matching),徹底打破了文本編碼器與擴(kuò)散模型分離的傳統(tǒng)設(shè)計(jì)。通過(guò)將文本提示與參考圖像的潛在特征編碼為統(tǒng)一序列,模型能夠精準(zhǔn)捕捉視覺(jué)概念與語(yǔ)義指令的關(guān)聯(lián),實(shí)現(xiàn) “所見(jiàn)即所改” 的交互式創(chuàng)作。
這種架構(gòu)帶來(lái)四大核心優(yōu)勢(shì):
1. 角色一致性:多輪編輯中保持人物身份特征,例如將角色從城市街道轉(zhuǎn)移到雪山場(chǎng)景時(shí),發(fā)型、服裝等細(xì)節(jié)絲毫不差;
2. 局部編輯:支持像素級(jí)精準(zhǔn)修改,如刪除圖像中的雜物、調(diào)整特定區(qū)域色彩,而不影響其他部分;
3. 風(fēng)格參考:基于參考圖像的風(fēng)格生成新場(chǎng)景,例如將一張文藝復(fù)興風(fēng)格的油畫(huà)轉(zhuǎn)換為現(xiàn)代卡通風(fēng)格,同時(shí)保留主體構(gòu)圖;
4. 交互速度:1024×1024 分辨率下生成時(shí)間僅需 3-5 秒,比主流競(jìng)品快一個(gè)數(shù)量級(jí),顯著提升創(chuàng)意迭代效率。
5月31日,記者在官方試玩平臺(tái)Flux Playground上進(jìn)行了多場(chǎng)景測(cè)試:
文本編輯:上傳一張含有手寫(xiě)字的照片,輸入 “將文字改為Nanjing”,模型不僅準(zhǔn)確修改文字內(nèi)容,還自動(dòng)調(diào)整排版與背景光影,使新標(biāo)題與畫(huà)面融為一體。
風(fēng)格遷移:提供一張梵高的向日葵畫(huà)作作為參考,輸入 “用相同筆觸繪制一幅玫瑰畫(huà)作”,生成的圖像既保留印象派的色彩層次,又精準(zhǔn)還原玫瑰花的細(xì)節(jié)。
圖片編輯:嘗試 “將戴珍珠耳環(huán)的少女改成一個(gè)長(zhǎng)發(fā)戴著寶石耳環(huán)和項(xiàng)鏈”的創(chuàng)意,模型同時(shí)處理少女的發(fā)型、項(xiàng)鏈、耳環(huán)等元素,最終輸出的圖像細(xì)節(jié)豐富。
值得注意的是,F(xiàn)LUX.1 Kontext 對(duì)中文提示詞的理解能力也有不錯(cuò)表現(xiàn)。例如輸入“青磚黛瓦的江南水鄉(xiāng),細(xì)雨中撐傘的旗袍女子”,模型生成的畫(huà)面不僅準(zhǔn)確還原了中式建筑的韻味,人物服飾的紋理和動(dòng)態(tài)也極具真實(shí)感。