OpenAI、テキストから動画が作成できるAIモデル「Sora」を発表。日本語の「空」から命名

2024.2.16 2024.2.17 Webサービス

コピーしました

米OpenAIは2月15日(現地時間)、文章から動画を作成できるAIモデル、「Sora」を発表しました。現時点では危険性などのリスクを評価するためにOpenAIが主導して結成した専門家らであるレッドチームが利用できるようになった他、一部のデザイナーや映画関係者などが利用できるようになったもので、一般ユーザがいつから利用できるかについては明らかにしていません。

OpenAIの「Sora」とは？

OpenAIの「Sora」は同社が新しく公開したテキストから動画生成が行えるAIモデルです。
Soraはユーザから与えられた文章から最長1分の動画が作成できるとしたうえで、複数のキャラクターや被写体の詳細を含む複雑なシーンを正確に生成できるとOpenAIは説明してます。

なお、このモデルはユーザが文章で何を要求したかを理解するだけでなく、指示されたものが物理世界にどのように存在するかさえ理解します。

「Sora」が持つ強み

OpenAIが公開したSoraは与えられた文章から動画が作成できる他、複数のキャラクター、特定の動きのタイプやメインとなる被写体と背景の正確な詳細を含む複雑なシーンを生成できます。

また、OpenAIは与えられた文章をを正確に解釈し、鮮やかな感情を表現する魅力的なキャラクターを生成できる点や、一つの生成された動画内で複数のショットを作成し、キャラクターや視覚スタイルを正確に維持させることをSoraの強みとしてアピールしました。

東京を歩く「スタイリッシュな女性」に看板が隠れるものの、動画内で看板の内容そのものに変更がない様子を示している。 — 標識のようにも見える看板は内容こそ不明なものの、女性の顔に隠れた後も内容が変わらず一貫性がある。

これまでもAIで動画を作成するモデルはありましたが、OpenAIが公開したSoraで作成した動画では背景で出てきたオブジェクトが、メインの被写体に隠れた後、再度出現した際にも同一のオブジェクトとして持続させられることが確認できるなど、オブジェクトの同一性を維持できるモデルという点で他のモデルと一線を画しています。

「Sora」の弱点は

OpenAIは公開したSoraについて弱点についても言及しています。
現行モデルの弱点として、複雑なシーンの物理シミュレーションが困難になる可能性があり、特定の因果関係を理解できない場合があります。この事象の具体例として、クッキーを人がかじったシーンを出力した際にクッキーに神跡が残らないなどが考えられるとしています。

このほか、左右を混同するなど空間的なディテールや時間経過やカメラの軌跡などの解釈がうまくいかない可能性があるそうです。