8月31日,低調(diào)的AI領(lǐng)域佼佼者MiniMax在上海舉辦了首次公開的“MiniMax Link伙伴日”活動,正式對外展示了其創(chuàng)新成果?;顒由希琈iniMax的創(chuàng)始人閆俊杰隆重推出了公司的視頻生成模型video-1和音樂模型,并預(yù)告了即將在未來數(shù)周內(nèi)發(fā)布的全新大模型abab7,該模型在速度和效果上均對標(biāo)行業(yè)領(lǐng)先的GPT-4o。
video-1視頻生成模型作為此次發(fā)布會的亮點之一,雖未詳盡披露具體技術(shù)細節(jié),但閆俊杰強調(diào)其高壓縮率、優(yōu)異的文本響應(yīng)能力和多樣化的風(fēng)格特點,能夠生成原生高清、高幀率的視頻內(nèi)容。目前,video-1已實現(xiàn)文本到視頻的轉(zhuǎn)換,并計劃在未來迭代中增加圖像轉(zhuǎn)視頻、視頻編輯及更高級別的可控性功能?,F(xiàn)場演示中,用戶通過簡單輸入提示詞,僅需1-2分鐘即可生成6秒的視頻片段,展現(xiàn)出良好的應(yīng)用潛力和用戶體驗。
在隨后的討論中,閆俊杰深入探討了AI大模型領(lǐng)域的諸多未解之題,包括商業(yè)模式(2B vs 2C)、市場定位(國內(nèi) vs 海外)以及Scaling law的適用性等。他指出,盡管存在諸多分歧,但視頻生成已成為行業(yè)內(nèi)普遍認(rèn)可的發(fā)展方向。自年初OpenAI推出Sora視頻大模型以來,各大廠商紛紛跟進,視頻生成模型的快速涌現(xiàn)標(biāo)志著該領(lǐng)域的蓬勃發(fā)展。
閆俊杰進一步闡述了MiniMax布局視頻生成的戰(zhàn)略考量。他認(rèn)為,隨著信息時代的發(fā)展,多模態(tài)內(nèi)容已成為人類獲取信息的主要方式,視頻和語音交互的重要性日益凸顯。為了提升用戶覆蓋度和使用深度,大模型廠商必須能夠輸出多模態(tài)內(nèi)容,而不僅僅是文本。因此,MiniMax在已有的文字、聲音和圖片生成能力基礎(chǔ)上,向視頻生成領(lǐng)域邁進,是順應(yīng)時代潮流的必然選擇。
然而,他也坦誠地指出了視頻生成領(lǐng)域的諸多挑戰(zhàn)。目前的視頻生成結(jié)果尚難以完全滿足用戶期望,模型在理解物理規(guī)則和生成控制方面存在不足。此外,視頻生成所需的數(shù)據(jù)量巨大,處理復(fù)雜度遠高于文本生成,對基礎(chǔ)設(shè)施和算法提出了更高要求。閆俊杰強調(diào),解決這些問題需要耐心和持續(xù)的技術(shù)創(chuàng)新,同時也需要行業(yè)內(nèi)外的共同努力和合作。
未來,啟明創(chuàng)投等投資機構(gòu)對視頻生成領(lǐng)域的發(fā)展充滿信心。他們認(rèn)為,隨著技術(shù)的不斷進步和3D能力的融入,可控的視頻生成將在影視、動畫等領(lǐng)域引發(fā)生產(chǎn)模式的深刻變革。同時,圖像和視頻隱空間表示的壓縮率提升也將極大提高生成速度和質(zhì)量,為視頻生成技術(shù)的廣泛應(yīng)用奠定堅實基礎(chǔ)。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com