今年初,由OpenAI發(fā)布的文生視頻大模型Sora震驚了世界。僅需輸入文字指令,便可生成長達(dá)一分鐘高清分辨率、畫面精致的動態(tài)視頻。Sora優(yōu)異的性能表現(xiàn)讓許多人感嘆。但同時,關(guān)于國內(nèi)人工智能技術(shù)發(fā)展?fàn)顩r也不可避免地被提及國內(nèi)能否研發(fā)出中文版的Sora?
▲Sora生成視頻截圖。圖片來源:OpenAI官網(wǎng)
3月12日,南山轄區(qū)的北京大學(xué)深圳研究生院-兔展智能AIGC聯(lián)合實(shí)驗(yàn)室正式發(fā)布了“Open-Sora”計(jì)劃旨在復(fù)現(xiàn)一個“開源版Sora”。該項(xiàng)目由2014年成立的南山企業(yè)深圳兔展智能創(chuàng)始人、CEO董少靈與北京大學(xué)信息工程學(xué)院助理教授、博士生導(dǎo)師袁粒領(lǐng)銜發(fā)起,期望通過產(chǎn)業(yè)公司和科研機(jī)構(gòu)的強(qiáng)強(qiáng)聯(lián)手,以開源的方式對外傳播中國團(tuán)隊(duì)的技術(shù)自信,號召全球社區(qū)一起做人類普惠的技術(shù)內(nèi)容。
復(fù)現(xiàn)“開源版Sora”全球用戶都可用
不久前,馬斯克對OpenAI提起了訴訟,指控OpenAI背離了創(chuàng)立初衷,從一個開源的非營利組織轉(zhuǎn)變?yōu)殚]源、追求商業(yè)利益的機(jī)構(gòu)。截至目前,發(fā)布近一個月的Sora還尚未面向全部公眾開放,在其官方網(wǎng)站上也只有一份非常簡短的技術(shù)報(bào)告,并未涉及模型背后的原理——在董少靈看來,“OpenAI”正逐漸變成“CloseAI”。
“與之恰恰相反,我們Open-Sora Plan中的數(shù)據(jù)是完全開源的,全世界范圍內(nèi)的用戶都可以直接拿去用,甚至利用它們來盈利。”作為技術(shù)模塊的主要負(fù)責(zé)人,袁粒在發(fā)布現(xiàn)場向記者表示。據(jù)袁粒介紹,Open-Sora計(jì)劃的核心技術(shù)框架包括視頻編碼器與解碼器、Diffusion Transformer模型和條件注入模型三大模塊,目前基于已經(jīng)搭好的訓(xùn)練框架,能夠支持動態(tài)輸入、多尺度、多分辨率的訓(xùn)練,對于可變比例、可變時長的視頻已經(jīng)取得了較好的生成效果。
與“財(cái)大氣粗”的OpenAI相比,該團(tuán)隊(duì)在條件和算力存在一定缺口的情況下選擇了更高效、低功耗的大模型訓(xùn)練方式,例如用“2D+1D Diffusion Transformer”替代計(jì)算量更大的3D Diffusion Transformer,以及同步推進(jìn)除了文本控制外的更多條件控制的視頻生成訓(xùn)練。
該項(xiàng)目在GitHub上一經(jīng)發(fā)布,就立馬引起國際人工智能界相當(dāng)一部分的關(guān)注。發(fā)布一周內(nèi)就有超5000名技術(shù)開發(fā)人員為該項(xiàng)目標(biāo)星,融合了30余次開源創(chuàng)作者的拉取請求(Pull Request),獲得14萬余次訪問,代碼被克隆超800次,來自美國、英國、加拿大、德國、澳大利亞、迪拜、沙特阿拉伯、伊朗等多個國家的技術(shù)人員參與其中,積極貢獻(xiàn)。
在袁??磥?,“Open-Sora”作為一個開源的項(xiàng)目,其優(yōu)勢在于能夠集結(jié)全世界技術(shù)人員的力量,讓大家在自己擅長的領(lǐng)域發(fā)揮專業(yè)優(yōu)勢,同時也能夠獲得算力和數(shù)據(jù)方面的資源支持。目前,該計(jì)劃“初步驗(yàn)證當(dāng)前框架有效性”的第一階段目標(biāo)已完成,第二階段團(tuán)隊(duì)希望在有效框架基礎(chǔ)上訓(xùn)練出能夠生成20秒以上720p清晰度視頻的模型,同時將“生成更加逼近Sora時長和效果的視頻”作為第三階段的拓展目標(biāo)。
盡管目前由于較大的算力缺口和數(shù)據(jù)要求,能夠?qū)崿F(xiàn)拓展目標(biāo)的難度較大,但董少靈依然表示:“在技術(shù)方面中國并不比Sora弱,Sora能做的我們也能做,大家要樹立這樣的自信?!?/span>
不止步于娛樂視頻生產(chǎn),AI技術(shù)應(yīng)賦能產(chǎn)業(yè)
Open-Sora背后的底層模型,是兔展智能在去年推出的基于視覺為核心的原創(chuàng)多模態(tài)大模型“兔靈”,這是一個視覺占七成、語言占三成的全新混合體。同是作為視覺大模型,目前外界對Sora的想象止步于娛樂向視頻的生產(chǎn),但兔展智能對于Open-Sora的展望卻遠(yuǎn)不止于此,對董少靈來說,將Open-Sora背后的底層模型打造成深植于產(chǎn)業(yè)、賦能產(chǎn)業(yè)發(fā)展的中國本土的視覺大模型,讓產(chǎn)業(yè)的供給與用戶的需求更精準(zhǔn)的匹配,才是更有價值的事情。
在董少靈的介紹里,“兔靈”是一個聚焦于設(shè)計(jì)領(lǐng)域的視覺大模型,能夠根植于工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)、室內(nèi)設(shè)計(jì)、服裝設(shè)計(jì)等多個設(shè)計(jì)類細(xì)分行業(yè),在供給大于需求的時代讓客戶的個性化需求更加精準(zhǔn),同時節(jié)約設(shè)計(jì)成本、打通產(chǎn)業(yè)鏈,實(shí)現(xiàn)真正的“人工智能+”賦能行業(yè)。
發(fā)布會現(xiàn)場,董少靈對目前大模型已經(jīng)落地的項(xiàng)目進(jìn)行了展示。其中在建筑設(shè)計(jì)方面,“兔靈”能夠通過文本描述引導(dǎo)生成三維建筑模型,自由調(diào)整建筑視角,并結(jié)合AI局部重繪的能力補(bǔ)全設(shè)計(jì)效果圖,這樣一來實(shí)現(xiàn)方案設(shè)計(jì)及效果圖制作提效97%,成本節(jié)約達(dá)14.6%。
“我們想做的絕不是‘下一代的抖音’,而是希望能將AI真正應(yīng)用到行業(yè)中,更加精準(zhǔn)地匹配產(chǎn)業(yè)鏈中的供給與需求?!倍凫`向記者表示。在他的展望中,隨著Open-Sora計(jì)劃的不斷發(fā)展,“兔靈”大模型也將不斷獲得訓(xùn)練,未來,不具備設(shè)計(jì)專業(yè)技能的普通人也能夠設(shè)計(jì)出個性化的物品,隨之而來的則是建筑、服裝、材料等各個行業(yè)產(chǎn)能的提高與產(chǎn)業(yè)鏈的完善。
本次Open-Sora開源計(jì)劃堅(jiān)持“人類級使命”“奮斗者為本”“開放式創(chuàng)新”“真問題驅(qū)動”四大原則,共同探索產(chǎn)學(xué)研協(xié)同創(chuàng)新發(fā)展的新路徑。未來,兔展智能與北京大學(xué)深圳研究生院將在推動視覺大模型更好賦能中國產(chǎn)業(yè)發(fā)展方面攜手并進(jìn),為世界帶來更多中國聲音。
來源?|??蛇口消息報(bào)?綜合深圳商報(bào)?讀特新聞 SNG大灣區(qū)
編輯?|?喻夢婷?責(zé)編?|?楊澤楠??審核 |?盧東勃?王婷婷
轉(zhuǎn)載 | 創(chuàng)新南山