最新動(dòng)態(tài)

《國(guó)產(chǎn)全AI游戲來(lái)了?大模型直接打造開(kāi)放世界互動(dòng)游戲》

2025-01-16

我們正逐步邁向一個(gè)普通人僅憑創(chuàng)意就能輕松制作游戲的新時(shí)代。

今年以來(lái),AI游戲生成技術(shù)不斷取得突破,而國(guó)內(nèi)游戲AI團(tuán)隊(duì)也于近日交出了一份令人矚目的答卷。

巨人網(wǎng)絡(luò)推出了“千影 QianYing”有聲游戲生成大模型,涵蓋游戲視頻生成大模型YingGame和視頻配音大模型YingSound。

用戶只需提供一段文字或一張圖片,即可生成具備開(kāi)放世界游戲特性的視頻,并且這些視頻不僅有聲音,還支持交互,能操控角色完成多種動(dòng)作。

無(wú)需游戲引擎的開(kāi)放世界游戲體驗(yàn)

簡(jiǎn)而言之,YingGame是一個(gè)專為開(kāi)放世界游戲打造的視頻生成大模型。其研發(fā)團(tuán)隊(duì)包括巨人網(wǎng)絡(luò)AI Lab和清華大學(xué)SATLab,實(shí)現(xiàn)了對(duì)游戲角色多樣動(dòng)作的交互控制、自定義角色創(chuàng)建,同時(shí)在游戲物理仿真方面表現(xiàn)出色。

逼真的物理規(guī)律模擬

從生成的視頻來(lái)看,無(wú)論是汽車碰撞、火焰燃燒等宏大場(chǎng)景,還是水中漫步、自動(dòng)繞過(guò)障礙物等細(xì)節(jié),都展現(xiàn)出高度遵循物理規(guī)律的效果。

豐富的動(dòng)作交互

交互性是游戲的核心要素之一,YingGame能夠解析用戶的輸入,如文本、圖像或鼠標(biāo)、鍵盤操作信號(hào),使玩家可以自由控制游戲角色的動(dòng)作。

視頻展示了角色進(jìn)行射擊、變身、施法、使用道具、攀爬、匍匐、跑跳等多種肢體動(dòng)作的交互過(guò)程,相較于其他同類模型更加流暢自然。

個(gè)性化角色與精細(xì)控制

YingGame允許用戶上傳一張角色圖片以實(shí)現(xiàn)角色的自定義生成,同時(shí)提供了對(duì)角色主體的精細(xì)化控制,實(shí)現(xiàn)了從AI捏臉到AI捏人的跨越。

第一人稱視角帶來(lái)的沉浸感

此外,該模型還能生成第一人稱視角的游戲畫面,這種視角為玩家?guī)?lái)了強(qiáng)烈的沉浸感。

背后的技術(shù)原理

從技術(shù)角度分析,YingGame通過(guò)整合跨模態(tài)特征、細(xì)粒度角色表征、運(yùn)動(dòng)增強(qiáng)以及多階段訓(xùn)練策略,并建立高效、高質(zhì)量的游戲視頻訓(xùn)練數(shù)據(jù)生產(chǎn)管線,賦予了生成內(nèi)容可交互性、多樣化動(dòng)作控制、角色自定義與精細(xì)主體控制、復(fù)雜運(yùn)動(dòng)與動(dòng)作連續(xù)性等特點(diǎn)。

在交互功能的實(shí)現(xiàn)上,YingGame引入了多個(gè)Interactive Network模塊:用于理解用戶輸入的多模態(tài)交互方式的多模態(tài)交互網(wǎng)絡(luò) — MMIN (Multi-Modal Interactive Network);負(fù)責(zé)生成復(fù)雜連續(xù)角色動(dòng)作的動(dòng)作網(wǎng)絡(luò) — IMN (Interactive Motion Network);用于自定義角色生成并提升角色質(zhì)量的角色網(wǎng)絡(luò) — ICN (Interactive Character Network)。

為了構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù),巨人AI團(tuán)隊(duì)精心設(shè)計(jì)了一套高效的游戲視頻數(shù)據(jù)處理流程:

根據(jù)場(chǎng)景和高光片段挑選優(yōu)質(zhì)視頻,并從中提取音頻信息作為V2A訓(xùn)練集;基于運(yùn)動(dòng)得分、美學(xué)評(píng)分等因素篩選視頻;采用vLLM-based video caption方法,并利用clip score進(jìn)行文本視頻對(duì)齊評(píng)分過(guò)濾;執(zhí)行多任務(wù)數(shù)據(jù)處理,例如分割、主體檢測(cè)、姿態(tài)估計(jì)、深度估計(jì)、相機(jī)運(yùn)動(dòng)估計(jì)等。

開(kāi)啟有聲AI游戲新時(shí)代

除了YingGame之外,巨人還推出了一款針對(duì)視頻配音場(chǎng)景的多模態(tài)音效生成大模型 YingSound。

此前,AI游戲生成領(lǐng)域尚未實(shí)現(xiàn)這一功能,而“聲音”對(duì)于游戲來(lái)說(shuō)至關(guān)重要。

YingSound由巨人網(wǎng)絡(luò)AI Lab、西工大ASLP Lab和浙江大學(xué)聯(lián)合開(kāi)發(fā),其最突出的能力在于:為無(wú)聲視頻添加精準(zhǔn)匹配的音效,確保音畫同步。

YingSound擁有卓越的時(shí)間對(duì)齊能力和視頻語(yǔ)義理解能力,能夠生成多種類型的高精度音效,并適用于廣泛的應(yīng)用場(chǎng)景,如游戲視頻、動(dòng)漫視頻、真實(shí)世界視頻、AI生成視頻等。

出色的視頻畫面理解能力

讓我們看看一段游戲配音示例。通過(guò)演示視頻可以看出,該模型能夠準(zhǔn)確生成與場(chǎng)景相符的音效,如開(kāi)鏡、炮轟、射擊等聲音,生動(dòng)再現(xiàn)了坦克進(jìn)攻與士兵防守射擊的場(chǎng)面,營(yíng)造出沉浸式的游戲氛圍。

△視頻源自 《戰(zhàn)地游戲》錄屏

在動(dòng)漫場(chǎng)景中,模型展現(xiàn)了對(duì)復(fù)雜劇情的強(qiáng)大理解力。例如,在一段鳥(niǎo)兒互相扔蛋的動(dòng)畫里,模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列節(jié)奏感十足且貼合視頻內(nèi)容的音效。

△視頻源自 動(dòng)畫《Boom》片段

再看一個(gè)小球快速移動(dòng)的畫面,模型生成的聲音完美契合畫面動(dòng)態(tài)變化,根據(jù)不同狀態(tài)產(chǎn)生相應(yīng)的場(chǎng)景音效,充分體現(xiàn)了其對(duì)動(dòng)畫內(nèi)容的深刻理解。

△視頻源自 3D動(dòng)畫短片《The Marble》片段

在真實(shí)世界場(chǎng)景中,通過(guò)對(duì)一段激烈的乒乓球?qū)?zhàn)視頻的處理,模型精確捕捉每次擊球產(chǎn)生的音效,甚至模擬出球員跑動(dòng)時(shí)鞋底與地面摩擦的聲音,這表明 YingSound 在視頻整體語(yǔ)義理解和音效生成方面表現(xiàn)優(yōu)異。

測(cè)評(píng)結(jié)果優(yōu)異

研究團(tuán)隊(duì)公開(kāi)了 YingSound 的兩個(gè)核心組件:基于 DiT 的 Flow-Matching 音效生成模塊,以及多模態(tài)思維鏈(Multi-modal CoT)控制模塊,為音效生成提供了強(qiáng)有力的支持。

在音效生成模塊中,團(tuán)隊(duì)基于 DiT 的 Flow-Matching 框架,創(chuàng)新性地提出了音頻-視覺(jué)融合結(jié)構(gòu)(Audio-Vision Aggregator, AVA)。該模塊通過(guò)動(dòng)態(tài)融合高分辨率視覺(jué)與音頻特征,確??缒B(tài)對(duì)齊效果。借助多階段訓(xùn)練策略,從 T2A 到 V2A 逐步過(guò)渡,采用不同數(shù)據(jù)配比進(jìn)行訓(xùn)練,使模型具備從文本、視頻或兩者結(jié)合生成高質(zhì)量音效的能力。

同時(shí),團(tuán)隊(duì)設(shè)計(jì)了多模態(tài)視頻-音頻鏈?zhǔn)剿季S結(jié)構(gòu)(Multi-modal CoT),結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)少樣本情況下音效生成的精細(xì)控制,適用于短視頻、動(dòng)漫及游戲等多種配音場(chǎng)景。


團(tuán)隊(duì)精心構(gòu)建了一個(gè)符合行業(yè)標(biāo)準(zhǔn)的V2A(video-to-audio)數(shù)據(jù)集,涵蓋了電影、游戲、廣告等多個(gè)領(lǐng)域的音視頻素材。為確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)制定了一套嚴(yán)格的數(shù)據(jù)處理流程,涉及數(shù)據(jù)收集、標(biāo)注、過(guò)濾和剪輯。針對(duì)不同視頻類型的復(fù)雜性和差異性,團(tuán)隊(duì)基于多模態(tài)大語(yǔ)言模型(MLLMs)及人工標(biāo)注,完成了時(shí)間戳和聲音事件的高質(zhì)量標(biāo)注。同時(shí),通過(guò)嚴(yán)格篩選,排除了背景音樂(lè)干擾及音視頻不同步的內(nèi)容,最終生成符合行業(yè)標(biāo)準(zhǔn)要求的訓(xùn)練數(shù)據(jù),為后續(xù)研究與開(kāi)發(fā)奠定了堅(jiān)實(shí)基礎(chǔ)。


根據(jù)客觀指標(biāo)評(píng)估,YingSound 大模型在整體效果、時(shí)間對(duì)齊和視頻語(yǔ)義理解等方面均達(dá)到業(yè)內(nèi)領(lǐng)先水平。

長(zhǎng)遠(yuǎn)來(lái)看,視頻生成技術(shù)因其展現(xiàn)的巨大潛力,可能會(huì)對(duì)游戲產(chǎn)業(yè)帶來(lái)革命性的變革。

未來(lái),僅靠文字描述就能創(chuàng)作出一款游戲?qū)⒉辉偈菈?mèng)想。隨著該領(lǐng)域的快速發(fā)展,AI將賦予游戲創(chuàng)作更多可能性,創(chuàng)作者們的想象力或許將成為唯一的限制因素。

今年年初,史玉柱曾表示巨人網(wǎng)絡(luò)正在探索打造一個(gè)AI游戲孵化平臺(tái),旨在降低游戲制作門檻,讓更多人能夠參與其中。如今,他們已經(jīng)提交了首份成果,期待他們?cè)贏I游戲賽道上的更多精彩表現(xiàn)。