OpenAI 開啟未來的大門:Sora文字指令讓AI模型創建真實感十足的場景
OpenAI 最新推出的 Sora 是一個能夠透過文字指令創建逼真且充滿想像力場景的人工智能模型。Sora能夠生成長達一分鐘的視頻,同時保持視覺質量並遵循用戶的指令。該模型正在訓練中,旨在理解和模擬物理世界的運動,目標是開發一個能夠幫助人們解決需要真實世界互動的問題的模型。
Sora 可以創建包含多個角色、特定運動類型以及有關主題和背景的準確細節的複雜場景。該模型不僅理解用戶請求的內容,還理解這些事物在物理世界中的存在方式。該模型對語言有深入的理解,能夠準確解釋指令,生成表達生動情感的引人入勝的角色。Sora還可以在生成的視頻中創建多個攝影機角度,以準確保留角色和視覺風格。
目前模型存在一些限制。它可能在準確模擬複雜場景的物理特性方面遇到困難,可能無法完全理解特定的因果關係。例如,一個人可能咬了一口餅乾,但餅乾上可能看不到明顯的咬痕。該模型有時可能會混淆指令中的空間細節,例如將左右混淆,並且在準確描述隨時間發生的事件方面可能會遇到困難,例如跟隨特定的攝影軌跡。
在Sora的開發和部署過程中,安全是一個重要的考慮因素。在將Sora納入OpenAI產品之前,OpenAI 正在實施幾項重要的安全措施。我們正在與紅隊合作 – 領域專家,涉及的領域包括誤導資訊、仇恨內容和偏見,他們將對模型進行對抗性測試。OpenAI 還正在開發工具,以幫助檢測欺騙性內容,例如可以識別Sora生成的視頻的分類器。如果將模型部署在OpenAI產品中,我們計劃在未來結合C2PA元數據。
除了開發部署準備的新技術之外,我們還利用為DALL·E 3開發的現有安全方法,這些方法同樣適用於Sora。例如,一旦集成到OpenAI產品中,OpenAI 的文字分類器將檢查並拒絕違反OpenAI 使用政策的文字輸入提示,例如要求極端暴力、顯性內容、仇恨圖像、名人肖像或他人的知識產權。OpenAI 還開發了強大的圖像分類器,在呈現給用戶之前,對每個生成的視頻幀進行審核,以確保符合OpenAI 的使用Sora是一個能夠透過文字指令創建逼真且充滿想像力場景的人工智能模型。