發(fā)布時間:2025-11-22 16:48:08 來源:骨軟筋酥網(wǎng) 作者:百科
發(fā)布時間:2024-02-16 15:59:14來源:逗游作者:逗游網(wǎng)
Alien Hop角色好玩的發(fā)布休閑快樂小游戲ChatGPT開發(fā)團隊OpenAI發(fā)布了最新的視頻生成模型“Sora”,此模型可以根據(jù)文字指令能生成長達(dá)1分鐘的首款視頻生成高清視頻,并且有一定的模型南京秦淮找國內(nèi)小姐(高端外圍服務(wù))vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)“現(xiàn)實模擬”能力,相比制作游戲的發(fā)布物理引擎,其上限要高得多,首款視頻生成下面帶來詳細(xì)介紹。模型

1.他們能訓(xùn)練出這個模型的發(fā)布基礎(chǔ)是:找到了一種統(tǒng)一的用文本描述視頻材料的范式,得以讓大量的首款視頻生成視頻以及對應(yīng)的描述材料去訓(xùn)練模型,得到這個模型能力就是模型南京秦淮找國內(nèi)小姐(高端外圍服務(wù))vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)文本和視覺呈現(xiàn)之間的某種互相生成關(guān)系(能力),那如何得到大量帶有相應(yīng)文本字幕的發(fā)布視頻呢?
他們應(yīng)用了 DALL·E 3 中的重構(gòu)字幕技術(shù)(原來是針對圖片的)到視頻。首先訓(xùn)練一個高度描述性的首款視頻生成字幕生成器模型,然后使用它為訓(xùn)練集中的模型所有視頻生成文本字幕。 可以想見,發(fā)布訓(xùn)練及使用模型耗費的首款視頻生成算力驚人,所以不太可能在短期內(nèi)大范圍開放;

2.大的模型框架是:擴散模型+時空補丁,基于深度學(xué)習(xí)的擴散模型,讓一個隨機噪聲分布(指向圖像的)轉(zhuǎn)變成有意義的圖像或視頻內(nèi)容,而時空補丁,定義了一個時間序列,使畫面的的變化符合時間邏輯;
3.Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。因為是直接生成而不是裁剪視頻,在取景,動態(tài)效果上也有一定優(yōu)勢;

4.這個模型還有幾個出人意料但合理的能力:
a.它可以從一個時間點,向前或者向后去延伸視頻,也就是說以某個畫面為基點,生成這個時點之前的一段視頻或之后的一段視頻;
b.自如改變視頻的風(fēng)格和環(huán)境;
c.通過插值方式自然的將兩個視頻連接起來;
d.這一點非常重要,就是這個模型涌現(xiàn)出了一定的“現(xiàn)實模擬”能力,在展示視頻中我們看到的不同的鏡頭運用,包括 3D畫面的一致性(比如同一物體因為鏡頭變化,呈現(xiàn)出的在視覺上保持形狀的一致),還包括現(xiàn)實物體的交互(比如要面包后面包上的咬痕)并非刻意設(shè)計,或者“建?!钡慕Y(jié)果,而是自然涌現(xiàn)的,這點我們在純語言模型上已經(jīng)見識過了。
而在這個模型上面涌現(xiàn)出的能力,用文章中的原話來描述“是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動物和人的強大模擬器的一條有前途的道路?!?/p>
相關(guān)文章
隨便看看