提到國外的生成式 AI 大模型,文本生成領(lǐng)域有 ChatGPT,圖像生成領(lǐng)域有 Midjourney 和 Stable Diffusion,那么視頻生成領(lǐng)域有什么?
(資料圖片僅供參考)
很多人第一個會想到 Runway 公司的 Gen-1。
Gen-1 是 Runway 在今年 2 月推出的一款(也是該公司的第一款)由文本生成視頻的 AI 大模型。不過就在幾天前,它的迭代版本 Gen-2 也正式發(fā)布了。
在此之前,Gen-2 從 3 月下旬開始已經(jīng)進行了一段時間的小范圍測試。雖然當時 Runway 的發(fā)言人 Kelsey Rondenet 說過 Gen-2 會在未來幾周對所有人開放,不過直到 6 月,這個承諾才算真的兌現(xiàn)了。
所以千呼萬喚始出來的 Gen-2,到底進化到哪一步了?
真正的從零開始生成視頻
在發(fā)布 Gen-1 的時候,Runway 專門開辟了一個網(wǎng)頁來給大家講解 Gen-1 能怎么用,大致來講主要包括了下面 5 個功能:
- 輸入一張圖片提示,來讓原視頻變成你想要的風格;
- 上傳視頻 + 一段提示詞,生成你想要的視頻(比如讓一只拉布拉多變成斑點狗);
- 輸入圖片或提示詞,來讓一段只做了 3D 建模的視頻草稿變完整;
- 上傳一段隨意拍攝的視頻,自動生成一段有故事感的片段(比如隨意擺放的書最后成了一片高樓大廈);
- 在原視頻的基礎(chǔ)上,更自由地定制你想要的視頻風格(哪怕變出一只現(xiàn)實里并不存在的奇行種)。
發(fā)現(xiàn)沒有,使用 Gen-1 的前提是必須先有一個現(xiàn)成的視頻。說白了,Gen-1 的作用其實就相當于給原視頻加了一個更高級的濾鏡。而到了 Gen-2,可以說才真正實現(xiàn)了從零開始生成視頻的夢想。
從介紹來看,Gen-2 比 Gen-1 多了 3 個厲害的功能:
- 文本到視頻:只用輸入一段提示詞,就能生成一段視頻;
- 文本和圖片到視頻:輸入一張圖片 + 一段提示詞,就能讓圖片動起來;
- 圖片到視頻:只用輸入一張圖片,就能自動生成一段視頻(比如讓圖片里的云飄起來,水流起來,人走動起來)。
此圖為輸入 "The late afternoon sun peeking through the window of a New York City loft" 的提示詞生成如果說 Gen-1 充其量只能當做一個修改視頻的工具,那么 Gen-2 幾乎已經(jīng)能作為一個視頻生產(chǎn)工具了——試想一句話生成的一個個視頻片段,最后拼到一起就能講一個完整的故事了……
總之就是只能拿來玩和能拿來用的區(qū)別。
雖然目前 Gen-2 生成的視頻依然存在細節(jié)模糊不清、形態(tài)扭曲等等品質(zhì)問題,且生成的視頻長度最多只有 4 秒,但它可能是現(xiàn)在視頻生成領(lǐng)域最厲害的 AI 大模型工具了。
當然,從 Gen-2 開始,也標志著 Runway 公司正式進入了收費時代:不同于 Gen-1 的完全免費,Gen-2 免費版的視頻生成功能有限(試用額度只有 105 秒,約等于 26 個 4 秒視頻,且分辨率低、有水?。?,用戶需要每月付 15 美元(或 144 美元包年)才能用到它的完整功能。
Runway 有啥來頭?
Gen-2 背后的 Runway 是一家成立于 2018 年的年輕公司,一直在研究怎么用 AI 來提升視頻制作效率。
除了 TikTok 和 YouTube 上的普通用戶,Runway 的客戶還包括了不少主流影視工作室,比如扣扣熊主持的《深夜秀》就用到過 Runway 的工具來輔助編輯圖像。
它最著名的一次應用應該是去年在中國觀眾中間非常出圈的電影《瞬息全宇宙》,據(jù)報道里面讓人印象深刻的面條手,還有石頭對話等超現(xiàn)實場景都用到了 Runway 的技術(shù)。
不過很多人可能會忽略的是,早些天被爆出大丑聞的 Stable Diffusion 也和 Runway 關(guān)系密切。準確來說是一直被外界視作 Stable Diffusion(時下圖像生成領(lǐng)域最熱門的大模型之一)背后公司的 Stability AI 爆雷了,媒體列出 Stability AI 的罪狀之一就是,它把 Stable Diffusion 的 10 億代碼成果 " 據(jù)為己有 ",而它充其量只是給 Stable Diffusion 提供了算力(出了錢)。
實際上真正為 Stable Diffusion 出力的是慕尼黑大學、海德堡大學,以及 Runway。
Stable Diffusion 最早發(fā)表在 CVPR 2022 年中的一篇論文也就是說,Runway 是 Stable Diffusion 的研發(fā)者之一。
Runway 在去年還因為官宣發(fā)布了 Stable Diffusion v1.5 版本一度被 Stability AI 抓著不放,但那次的輿論最終還是站在了 Runway 這邊。
這也是 Runway 在 " 成名 " 以前為數(shù)不多的 " 八卦 "。
后來就像大多數(shù)的大模型開發(fā)公司一樣,不再參與 Stable Diffusion 項目的 Runway 在發(fā)布 Gen-1 之后,發(fā)展速度就像坐上了火箭,并且在本月初拿到了谷歌的投資,距離 D 輪 1 億美元的融資剛過去一個月,累計融資至少已有 2 億美元,成為大模型領(lǐng)域的明星公司。
說個更直觀的數(shù)字,2021 年 12 月對沖基金 Coatue 花 3500 萬美元投資 Runway 時,其估值為 2 億美元,一年后估值變成 5 億美元,再過了半年,它的估值就又翻了 3 倍(保守說有 15 億美元)。
網(wǎng)友:好萊塢 is dead
Gen-2 的正式發(fā)布讓不少網(wǎng)友感到興奮。
在 Runway 官宣發(fā)布 Gen-2 的推文下,出現(xiàn)了一些普通用戶 " 求教程 " 的聲音:
不過已經(jīng)有行動力強的用戶開始試著用 Gen-2 生成自己的視頻了,不少用戶都在 Runway 推文的評論區(qū)交上了自己的 4 秒鐘 " 作業(yè) "。盡管 Runway 只是在網(wǎng)站列出了 Gen-2 的主要功能,并沒有教給大家更多 Gen-2 的玩法,但聰明的網(wǎng)友已經(jīng)自己學著用 Gen-2 生成的視頻剪輯出了一個有反轉(zhuǎn)的短故事。
比如這個叫 "Monster of the sea(海怪)" 的48 秒故事:天氣晴朗、風平浪靜的一天,一搜帆船開始還很悠然地行駛在海上,船上的游客愜意地碰著杯喝著酒,可突然狂風大作,船員拿起望遠鏡往遠處望,發(fā)現(xiàn)一只巨大的海怪出現(xiàn)在海面,船隨著海浪開始顛簸,甚至燃燒了起來,船上的人紛紛跳水棄船逃生。
來自推特網(wǎng)友 @MHU甚至有直接用 ChatGPT 寫了劇本、再用 Gen-2 生成的視頻拼成一個故事的。
還有用戶拿 Gen-2 生成的素材剪了一個 1 分鐘的電影預告片,甚至在最后幽默地加了一個戛納電影節(jié)的標志,如果生成的視頻質(zhì)量再高一點,怕不是真能以假亂真。
來自推特網(wǎng)友 @Toni Seldr不過視頻質(zhì)量差、生成的視頻時長太短等也確實成了用戶吐槽 Gen-2 的點。
并且在為安卓用戶提供 App 服務的問題上,Gen-2 和 Gen-1 一樣也還是沒有長進。當然,更多用戶還是對 Runway 表現(xiàn)出了寬容。有網(wǎng)友評價說," 雖然它有太多的不完美,但有一點可以肯定,整個視聽工業(yè)都將迎來革命性的改變。"還有網(wǎng)友更激進地說," 好萊塢已死,任何人都可能做出一部世界級的電影。"真能取代好萊塢嗎?可以理解為什么廣大網(wǎng)友對 Gen-2 的推出如此興奮。Gen-2 對普通用戶的好處是明擺著的——假以時日,文本生成視頻技術(shù)一旦成熟,將意味著拍電影不再只是大制片廠的專屬,任何一個普通人都可以做一部自己的電影。
Runway 并沒有明確說過 Gen-2 面向的人群到底是誰。不過我們可以從它推出 App 以及之前和影視工作室有過的合作等等動作來看,大致猜到有哪些人會用到 Gen-2:專業(yè)的制片公司,個人工作室性質(zhì)的獨立生產(chǎn)者,以及我們這樣的普通用戶。
雖然 Gen-2 看起來對普通用戶很友好,但制片公司們會用 Gen-2 這樣的工具也是肯定的。
畢竟大模型不同于過去任何一個熱過之后就銷聲匿跡的概念,它將成為未來又一次深刻改變?nèi)祟惖漠a(chǎn)業(yè)革命,幾乎已經(jīng)是各行各業(yè)的共識。
事實上在國內(nèi),已經(jīng)有影視項目開始借助大模型來完成一些工作。比如在劇本籌備階段,會把分鏡頭故事板的產(chǎn)出工作交給 Midjourney(據(jù)說能省下幾十萬元的成本)。
那假設(shè),有一天 Gen-N 成熟到也能生成能直接拿去用的完美鏡頭呢?
或者可以拿大模型在游戲行業(yè)的應用做個類比,Midjourney 等工具的使用顯然已經(jīng)對游戲公司產(chǎn)生了非?,F(xiàn)實的影響:先是出于節(jié)省成本的需要砍掉美術(shù)外包團隊,接著就是在自己人身上動刀,甚至有從業(yè)者提到最多有 8 成的原畫師會下崗。
考慮到如今大模型的迭代速度,它的影響真正顯現(xiàn)在影視行業(yè)也會是遲早的事。
不過我反而覺得,Gen-2 大模型可能會淘汰那些影視行業(yè)流水線上的 " 工人 ",但卻淘汰不了真正的藝術(shù)家。
之前聽到過一個說法,AI 大模型生成的內(nèi)容里,可能有 80% 都會是對人類過去經(jīng)驗無聊的重復,但也可能有 20% 閃光的東西。就比如在中式美學和賽博朋克如何進行融合的問題上,普通創(chuàng)作者可能需要極長時間進行思考,AI 卻可能生成一個讓人意想不到的結(jié)果,給人帶來驚喜。
這 20% 是 AI 存在的意義,剩下的就需要真正有創(chuàng)造力的人去補足。
還有從業(yè)者提到過一個觀點,AI 大模型運用到影視行業(yè)的生產(chǎn),不意味著非專業(yè)人士也能輕松上手——如果想借助 AI 的力量創(chuàng)作劇本,還需要針對劇本公式和故事結(jié)構(gòu)等相關(guān)知識進行充電。不具備基礎(chǔ)知識的小白即便有了 AI 這個超級助理也無濟于事。
所以回到 AI 是不是能取代好萊塢的問題,事實上好萊塢可能是最早對新技術(shù)的 " 入侵 " 有所感知的,就像在今年 5 月初,數(shù)以千計的好萊塢編劇工會(WGA)成員曾進行罷工示威,訴求之一便是抵制在劇本寫作中廣泛使用 AI 的現(xiàn)象。
如果有一天 Gen-N 真的來了,好萊塢導演們可能第一個不答應。
標簽: