米OpenAIは2月15日(現地時間)、文章から動画を作成できるAIモデル、「Sora」を発表しました。現時点では危険性などのリスクを評価するためにOpenAIが主導して結成した専門家らであるレッドチームが利用できるようになった他、一部のデザイナーや映画関係者などが利用できるようになったもので、一般ユーザがいつから利用できるかについては明らかにしていません。
OpenAIの「Sora」とは?
OpenAIの「Sora」は同社が新しく公開したテキストから動画生成が行えるAIモデルです。
Soraはユーザから与えられた文章から最長1分の動画が作成できるとしたうえで、複数のキャラクターや被写体の詳細を含む複雑なシーンを正確に生成できるとOpenAIは説明してます。
なお、このモデルはユーザが文章で何を要求したかを理解するだけでなく、指示されたものが物理世界にどのように存在するかさえ理解します。
「Sora」が持つ強み
OpenAIが公開したSoraは与えられた文章から動画が作成できる他、複数のキャラクター、特定の動きのタイプやメインとなる被写体と背景の正確な詳細を含む複雑なシーンを生成できます。
また、OpenAIは与えられた文章をを正確に解釈し、鮮やかな感情を表現する魅力的なキャラクターを生成できる点や、一つの生成された動画内で複数のショットを作成し、キャラクターや視覚スタイルを正確に維持させることをSoraの強みとしてアピールしました。
これまでもAIで動画を作成するモデルはありましたが、OpenAIが公開したSoraで作成した動画では背景で出てきたオブジェクトが、メインの被写体に隠れた後、再度出現した際にも同一のオブジェクトとして持続させられることが確認できるなど、オブジェクトの同一性を維持できるモデルという点で他のモデルと一線を画しています。
「Sora」の弱点は
OpenAIは公開したSoraについて弱点についても言及しています。
現行モデルの弱点として、複雑なシーンの物理シミュレーションが困難になる可能性があり、特定の因果関係を理解できない場合があります。この事象の具体例として、クッキーを人がかじったシーンを出力した際にクッキーに神跡が残らないなどが考えられるとしています。
このほか、左右を混同するなど空間的なディテールや時間経過やカメラの軌跡などの解釈がうまくいかない可能性があるそうです。
OpenAIの「Sora」は日本語の「空」に由来?
このOpenAIのSoraというAIモデルは日本語の「空」に由来しているとの情報もあります。
これは米日刊紙のNY Timesが伝えており、OpenAIのある社員は「無限の創造的可能性のアイデアを呼び起こす」としてこの名称にしたとしています。
これを裏付けるようにOpenAIが公開したSoraが作成したという動画の中には「東京」を舞台にしたデモ動画が複数本あります。
この他、一部のユーザからは「Sora」がアラビア語で「絵」という意味を持つため、由来であるという指摘もあります。
まとめ
米Googleや米MetaといったIT大手も同様の動画作成モデルを開発する中、OpenAIの発表が今後の開発合戦をより加速させるのは確実で、今回のSoraの発表で弱点とした部分を克服しながら、優位性を保てるのか注目が集まります。