不到10天,國產「香蕉」突襲!一次7圖逼真還原,合成大法驚呆歪果仁
![]()
新智元報道
編輯:編輯部
【新智元導讀】谷歌「香蕉」P圖爆火全網,發布不過10天,終極平替就來了。今天,Vidu Q1全球上線「參考生圖」功能,一次7張圖,人物、背景、道具隨意組合,逼真還原還能腦洞大開,效果完勝Flux Kontext,直逼Nano Banana。
谷歌Nano Banana掀起的狂歡海嘯,完全不亞于ChatGPT橫空出世。
它,號稱是PS的終結者。
以往,Photoshop耗費數個小時完成的修圖,Nano Banana僅用一句話,最多30秒神速完成。
![]()
意想不到的是,谷歌發布不到10天后,國產版「Nano Banana」誕生了!
今天,Vidu Q1全球同步上線「參考生圖」功能,一舉擊碎國內參考天花板,讓圖片生成進入「生產級」時代。
![]()
一次扔進7張圖,Vidu Q1參考生圖穩拿捏,逼真還原的同時,還能隨心所欲創作。
在一致性、美學、真實性、清晰度、語義理解綜合評分上,Vidu Q1參考生圖完全碾壓Flux Kontext,與Nano Banana相媲美。
![]()
Vidu Q1參考生圖的易用性,簡直就是創作者的「生圖利器」,萬物皆可合成、萬物皆可替。
外國網友激動地表示,「這簡直是,目前最佳的AI參考生圖的工具。每次輸出的效果絕了」!
![]()
還有人盛贊Vidu Q1參考生圖一致性,并稱,Vidu這種低調的實力派,真正推動了AI領域的創新。
![]()
下面就來扒一扒Vidu Q1參考生圖的「合成大法」,保你看完腦洞大開。
國產「Nano Banana」出世
Vidu Q1「參考生圖」的核心——只要參考夠多,就能還原夠真。
一次7張圖,打破國內天花板
Vidu Q1支持單次最多7張參考圖,這一能力不僅在國內處于領先地位,更是行業頂尖水平。
相較之下,市面上的競品AI工具,通常僅支持1-3張參考圖。
在處理多元素場景時,比如同時參考多個人物形象,很多工具的生成結果往往支離破碎,不僅模糊,且經常出現相似但不像的情況。
Vidu Q1參考生圖則突破了這些限制,可自由組合多張圖片,實現無縫融合。
舉個栗子,同時輸入如下五張圖,一張主體,一張背景,還有三張道具圖,并提示小熊做出拋球的動作。
![]()
prompt:[@圖1]的人物和[@圖2]的車一起出現在[@圖3]的場景里,[@圖1]兩腳分開站在[@圖2]車前,[@圖1]兩手張開用[@圖4]和[@圖5]的球做著小丑拋球的動作,[@圖1]和[@圖2]在畫面中小一些
如下的輸出圖中,Vidu Q1參考生圖可以做到高效整合,生成出流暢、自然的結果,毫無違和感。
![]()
接下來,上一個難度的,不僅要為主體換衣,還要融合字體、馬這些要素。
![]()
prompt:[@圖1]穿著[@圖2]服裝,[@圖1]頭戴[@圖3]帽子,騎著[@圖5]馬,背景是[@圖4],右上角印有[@圖6]logo
![]()
Vidu Q1參考生圖還能同時做到「AI參考+AI生成」,將所有的參考放在一張圖中,并給出一個完整的提示。
![]()
prompt:[@圖1]一個明亮的北歐風房間,木質書桌上放著粉色筆記本和玻璃杯,旁邊花瓶里有一枝粉色花朵,桌角有小多肉植物。地上有毛絨坐墊和白色帆布包。一位戴玫瑰金圓框眼鏡、穿米白色針織背心和白裙的溫柔女生站在房間里,安靜地看著書桌,整體氛圍清新治愈。
可以看到,不論是圖中有的,還是指令要求的,Vidu Q1參考生圖都能做到完整還原。
其實上述案例是一次參考了10個物品,這意味著只需把多個物體放在一張圖中,其實Vidu Q1參考生圖可以參考的物體數量遠不止7張,而是無上限的,簡直是生圖領域的大殺器。
![]()
主體一致性,全面超越
更令人驚嘆的是,Vidu Q1參考生圖在一致性上的表現堪稱驚艷,全面超越了Flux Kontext等同類產品,甚至也超過了Nano Banana。
![]()
無論是多人互動、多場景切換,還是多次生成,它都能保證人物的面貌、特征高度穩定。
諸如多角色混淆、人物走樣、服飾或細節丟失等常見問題,在Vidu Q1參考生圖中幾乎不存在。
這種卓越的主體一致性,正是Vidu Q1參考生圖邁向「生產級應用」的核心優勢。
相較于Nano Banana,Vidu Q1參考生圖真實表現又如何?
![]()
prompt:圖1人物拿著圖2展示
就來一張簡單的,圖1拿著圖2展示,Vidu Q1參考生圖非常自然地呈現,而Nano Banana米飯擺放有些不合理。
![]()
左:Vidu;右:Nano Banana
再來看一個案例,不同模型的表現又如何?
![]()
prompt:圖1人物拿著圖3吃圖2
可以看到,Vidu Q1和Nano Banana保持了原圖的高度一致性。
而Flux.1 Kontext在衣服、人臉一致性上表現欠佳,且蛋糕比例失調,沒有體現勺子這個元素。
![]()
從左至右:Vidu Q1、Nano Banana、Flux.1 Kontext
假設讓Vidu Q1和Nano Banana,補全如下這張彩虹圖,誰做的更好?
![]()
prompt:把彩虹的右半邊補全,形成半圓彩虹
實測可以發現,Nano Banana未能準確理解提示詞中,彩虹補全要求,僅生成了另外一半彩虹。
而Vidu Q1參考原圖,成功補出未出現在圖片中的另一半彩虹,展現了極強的畫面理解力和一致性。
![]()
左:Vidu Q1;右:Nano Banana
高還原度,所見即所得
Vidu Q1參考生圖不僅支持多張參考圖輸入、主體一致性出色,還在還原度上實現了質的突破。
它在保持參考圖特征的同時,能生成高度貼近原始輸入內容,真正做到「所見即所得」。
業內常見的參考模糊、相似卻失真的問題,在Vidu Q1參考生圖面前迎刃而解。
接下來,要PK就來一個復雜的,一次上傳五張圖,具體如下:
![]()
prompt:側面視角,[@圖1]站在[@圖3]灶臺邊[@圖2]鍋前手中拿著大勺[@圖5]攪拌,鍋里裝著[@圖2],背景[@圖3][@圖4],動漫風格,2D,動畫風格,
顯然,Nano Banana在主體一致性上表現欠佳,核心元素如衣袖、領口花紋細節,與原圖差異明顯。
而Vidu Q1展現了驚艷的實力,不僅完美還原動漫主體,連手套、衣服等細節都實現了1:1精準復刻。
![]()
左:Vidu;右:Nano Banana
再比如,參考圖中男子,將其背景P為教室。
![]()
prompt:參考圖中人物,修改背景為人物在班里座位上認真聽課
以下四大模型,在背景生成上各有特點。
但在人物臉部特征、服飾細節上,Vidu Q1參考生圖都做到了最逼真還原。
Nano Banana生成的人物雙眼皮消失,發型與服裝均出現變化;Midjourney給人物戴上眼鏡,無中生有;Flux.1 Kontext生成的人物雙眼皮模糊,臉上還多了許多斑點。
![]()
從左至右:Vidu Q1、Nano Banana、Midjourney、Flux.1 Kontext
創意玩法上天,只有想不到的
一款AI工具,僅做到一致性還遠遠不夠,還需擁有強大的創作自由度,滿足多樣化的創意需求。
最近,Nano Banana被全網整出各種花活兒,讓人直呼上頭。
比如,3D人偶手辦、老照片修復/上色、多角度視圖生成、真人Cosplay、名人合影等等。
一個比較火的玩法,修復老照片,讓無數人淚目。
![]()
Vidu Q1參考生圖創作自由度,同樣令人驚嘆!
僅需「一張圖+一句話」,它就能輕松實現換裝、換背景、換角色、換道具。
甚至,Vidu Q1參考生圖也能一鍵直出人物手辦。
![]()
輸入線稿圖后,Vidu Q1魔法棒一揮,瞬間就能變成桌面上的3D立體擺件。
![]()
prompt :[@圖1]變成三維立體建筑擺在桌子上,涂上顏色
順便......還能幫你上色。
![]()
prompt:[@圖1]變成三維立體建筑擺在桌子上,建筑物替換成木頭材質,草木替換成綠色,最下面的水系替換成藍色
假設手里有一張北京著名標志建筑圖,它能變成由金屬質感的立體冰箱貼。
![]()
[@圖1]變成金屬質感的冰箱貼
萬物皆可合成
簡單的兩張圖合成,一鍵實現換裝、換背景、換風格。
馬斯克一秒換裝:
![]()
現實中,馬斯克沒嘗試過這樣的穿衣風格!
同理,演員一秒換上戲服,馬上知道古裝戲上裝效果:
![]()
Vidu Q1參考生圖不僅能實現一鍵換裝,更精細的面具,也能一鍵搞定。
比如,llya戴上三星堆黃金面具,Vidu Q1參考生圖還原度高,保留了Ilya標志性的「短發」。
![]()
最近,一款帽子「讓人頭禿」,Ilya驚呼「革命性突破」:
![]()
發際線本已稀疏的Ilya,Vidu Q1參考生圖生成的戴上帽子的效果是這樣的:
![]()
不過要讓小扎戴上這頂帽子,只能靠AI了。Vidu Q1參考生圖嘗試一把,效果逼真,AI看了都得直呼離譜:只有碳基智能才能想到的!
![]()
不止是真人照片,肖像畫中的人物在Vidu Q1參考生圖中也可以復活。比如,十一國慶快來了,可以讓名畫+名建筑,古往今來,五湖四海,任由AI打卡。
比如,蒙娜麗莎打卡北京地標祈年殿:
![]()
光影、建筑細節、背景人物,真實感拉滿。
類似的例子,可以換其他背景。比如,讓汽車登火星:
![]()
還可以反向操作,讓古代名人體驗現代生活,代言各種現代產品。
比如,北宋文豪蘇軾如果會彈吉他,大江東去該多豪邁?丙辰中秋,他又該如何表達對弟弟子由的思念?
![]()
蘇軾彈吉他
甚至古代的仕女都能免費給你打廣告。
![]()
貴妃醉酒:茅臺版
在Vidu Q1參考生圖中,還可以讓圖片中的人物,擺出各種Pose。
比如,現實中鬧掰了的Ilya和奧特曼,利用Vidu Q1的參考生圖,完全可以在「賽博世界」中重歸于好,一起比心。
![]()
讓魯迅和馬斯克跨越時空,拍一張合影。
![]()
prompt:圖1與圖2合影
Vidu可以解放創意,讓人放飛想象:主體一致不跑偏,風格融合更自然。
而且合成2張圖只是Vidu Q1參考生圖的基礎操作。
Vidu Q1支持多圖參考,這就能滿足復雜劇情、合影、多角色電商等場景。
Vidu Q1參考生圖在還原高度一致基礎上,還支持產品、道具、場景、光線等任意切換,真實性極強。
萬物皆可替
AI一鍵換裝
它能一鍵生成著裝效果,宛如24小時在線的專屬搭配顧問。
前段時間,男友Travis Kelce向霉霉求婚,配文「你的英語老師和體育老師要結婚了」掀爆全網。
![]()
說不定,許多歌迷們迫不及待地想看到,霉霉提前穿上婚紗的樣子。
上傳一張霉霉、一張婚紗圖,還有一張現場圖,Vidu Q1幫你如愿。
![]()
最終輸出的圖,讓人眼前一亮,穿上婚紗后的霉霉簡直美若天仙。
![]()
不僅是大明星,每個人都可以輕松實現一鍵換裝。
網購一件衣服不知款式合不合身,上傳一張個人照片,有了Vidu Q1,即可在線秒換春夏秋冬的衣服。
![]()
分別輸入不同季節服飾后,換裝瞬間完成了,不論哪一款穿著都好看。
![]()
![]()
又或是,把小紅書的OOTD全部試一遍。
![]()
從著裝到配飾,簡直一絕。
![]()
如果你是一名設計師,想看看手辦的格子紋理效果,輸入相關物料圖片,Vidu Q1參考生圖瞬間實現。
![]()
或是一款已打好版的衣服,想要嘗試不同花紋,Q1也可以玩兒出不同花樣。
![]()
甚至,你還可以替換圖中特定的對象。
比如,現代版「貍貓換太子」:女人手里的小孩換成寵物或者卡通人物。
![]()
或者換成史迪奇
![]()
即便替換的對象,在圖中比較小,也沒關系,比如把小女孩手中的牛奶替換為橘子汁。
![]()
Vidu Q1還能讓你「云游」世界,天天曬出不一樣的朋友圈,十一假期可以利用AI拍出完美大片了。
從相冊中,上傳一張自拍照,以及一張布達拉宮圖,P圖瞬間完成,人物和背景超自然融合,可以發圈了。
![]()
世界名畫,整出花活
再以馬格利特一幅世界名畫《人類之子》為模板,玩一場「綠色蘋果」大替換。
一句話換成南瓜,位置也是非常精準,而且人物衣服、顏色保持著高度一致性。
![]()
將南瓜放大、再放大,就得到了如下的樣子。
![]()
換個道具,一只粉色的拖鞋。
![]()
這次,再換個人物主體——黃仁勛,老黃的皮衣、眼鏡,完美還原。
![]()
兩幅世界名畫,又能碰撞出怎樣的火花?
梵高的《星夜》和馬格利特《人類之子》完美融合,堪稱孤品。
![]()
花樣玩法
《大話西游之大圣娶親》中,孫悟空戴上金箍雖獲得了無邊的法力,卻沒能保護好心愛的紫霞仙子。
![]()
不如,就讓Vidu Q1挽回這份「遺憾」。
![]()
老照片糊到看不清,讓Vidu Q1增強清晰度并換個背景,只能說太驚艷了。
![]()
和霉霉同框,自然到根本看不出來是P的。
![]()
![]()
狂「卷」一致性
解鎖AI生產級應用
從「參考生視頻」,再到「參考生圖」,Vidu的每一次進化是其在「一致性」賽道上又一次發力。
為什么他們如此執著于「一致性」?
回想AI視頻發展歷程,從Sora驚艷亮相,再到Runway Gen-4、Luma Ray 2、Midjourney V1等模型不斷迭代,最初讓人驚嘆「AI終于能生成視頻了」。
但很快,問題就暴露了:AI生成視頻往往風格跳躍、人物面目全非,細節更是隨時崩壞。
想象拍一部廣告,主角的臉從開場到結尾最后一幀變換三次,結果可想而知。

在國內,生數科技很早就洞察到這一痛點。
去年7月,Vidu 全球首推「參考生視頻」功能,以參考圖為「錨點」,確保生成過程不偏航。
這恰恰提升了AI視頻一致性,人物不會變形,風格也不會跳脫。
比如上傳一個女孩、帕臺農神廟、一束花,Vidu絲滑地將其呈現在一個場景中。
![]()

從這里開始,生數就把一致性從視頻層面,擴展到了多模態可控。
今年4月,Vidu Q1進一步升級,升級了首尾幀運鏡,加入了文生音效等功能,讓一致性覆蓋了視覺、音頻。
VBench評測中,Q1勇奪文生視頻雙榜第一,力壓Sora、Gen-3。

如今,焦點來到了最新的Vidu Q1「參考生圖」功能,同時7張圖,將一致性推向高峰。
做到了多人、多場景下高一致性,還具備了創作自由度,讓萬物皆可合成、皆可替、皆可變。
圖是基礎,視頻是延伸——先從「參考生圖」生成素材,再無縫轉為動態視頻。
整個過程,一致性貫穿始終,實現了「精細化可控」的閉環。
不難看出,一致性開啟了AI視頻「生產級應用」的新紀元。這意味著,它不再是人們手里的娛樂玩具,而是規模化落地的生產力引擎。
電商廣告,多場景拿捏
通過靈活的主體變換和場景切換,Vidu Q1參考生圖能完美適配廣告、電商、媒體、消費品等多個行業。
電商、廣告公司可以用它生成無限創意的鏡頭、海報,讓人力制作成本大幅下降;動畫師可以快速制作原型,進而專注于IP背后故事的創造......
比如,上傳五張不同的圖,讓Vidu Q1參考生圖去合成。
![]()
[@圖2]背景改為[@圖5],[@圖5]背景標注[@圖1]VOGUE logo,[@圖2]人物腳下擺著一款[@圖3]包,[@圖2]人物戴著[@圖4]帽子,[@圖2]背景不變,構圖不變,主體不變
時尚雜志大片,瞬間拿捏,每張圖細節全部呈現。
![]()
馬上中秋節了,電商想要宣傳自家月餅,不用攝影大師,Vidu Q1參考生圖直接拍出宣傳大片。
一般來說,傳統素材制作需1周,拍攝耗時2天,而Q1僅需一天即可完成全流程創作,效率提升90%。
話不多說,直接上演示。
一款抹茶冰皮月餅,想要為其配上一張「花好月圓」的背景圖,再扔給Vidu。
![]()
[@圖1]背景替換為[@圖2]的背景,嚴格遵循[@圖1]的擺放位置,擺放整齊
下圖中,Vidu Q1輸出效果令人驚艷,可以直接拿來制作宣傳圖了。
![]()
再比如,商家還有一款普通的抹茶月餅,想要不同的效果。
![]()
![]()
可以看到,Vidu Q1「參考生圖」功能助力電商促銷生成,只需一鍵合成,即可適配不同場景與節日主題。
再舉個栗子,輸入一張汽車渲染圖,就可以得到不同顏色、不同場景的圖片。
![]()
圖中的汽車變成黃/紅/黑色,行駛在海灘、街道、高速公路、雪地上
![]()
然后,將以上四張圖片分別作為Vidu Q1首尾幀的輸入和輸出,一鍵直出高級感廣告大片。
AI視頻的下半場,比拼的是誰能讓它「真正可用」。
只有高一致性,AI才能真正落地到電商、媒體、影視等高價值場景,創造規?;膬r值。
如今,生數用行動證明,一致性是通往「生產級」的鑰匙。