Sora (人工知能モデル)

Sora
	Soraが生成した東京の通りを歩く女性の動画
開発元	OpenAI
初版	2024年12月9日 (16日前)
プラットフォーム	OpenAI
種別	Text-to-videoモデル（英語版）
公式サイト	sora.com
	テンプレートを表示

Sora（ソラ）は、OpenAIが開発したtext-to-videoモデル（英語版）である。このモデルは、ユーザーのプロンプトに基づいて短い動画クリップを生成するほか、既存の短い動画を拡張することも可能である。Soraは2024年12月にChatGPT PlusおよびChatGPT Proユーザー向けに一般公開された^[1]。

歴史

Sora以前にも、MetaのMake-A-Video、Runway（英語版）のGen-2、GoogleのLumiereといったテキストから動画を生成するモデルが開発されており、Lumiereは2024年2月時点でも研究段階にある^[2]。Soraを開発したOpenAIは、2023年9月にtext-to-imageモデルのDALL-E 3をリリースした企業でもある^[3]。

Soraを開発したチームは、その「無限の創造力」を表すために、モデルに日本語の「空」という語句にちなんで「Sora」と名付けた^[4]。2024年2月15日、OpenAIはSoraが生成した高解像度の動画クリップを複数公開し、最初のプレビューを実施した。公開された動画には、山道を走るSUV、ろうそくの隣にいる「短くてふわふわしたモンスター」のアニメーション、雪の中を東京で歩く二人、そしてカリフォルニア・ゴールドラッシュの偽の歴史映像が含まれており、最大1分間の動画を生成できると発表した^[2]。その後、モデルのトレーニング手法を詳述した技術報告書が共有された^[5]^[6]。また、OpenAIのCEOであるサム・アルトマンはXでユーザーのプロンプトに応じてSoraが生成した動画を投稿した。

OpenAIは、将来的にSoraを一般公開する計画を示しているが、具体的な時期は明言しておらず、すぐに公開する予定はないと述べた^[2]^[7]。同社は、誤情報やバイアスの専門家を含む少数の「レッドチーム」に限定的なアクセスを提供し、モデルに対する敵対的テスト（英語版）を行った^[3]。また、動画制作者やアーティストを含む少数のクリエイティブな専門家にも共有し、創造的分野での有用性についてのフィードバックを求めた^[8]。

2024年11月24日、Hugging Faceで、テスターグループによってSoraのAPIキーが流出し、テスターグループは、Soraが「アートウォッシング（英語版）」に使用されていると主張し、抗議する声明を発表した。このAPIキーは流出から3時間以内にOpenAIによってアクセスが取り消された。OpenAIは声明で「数百人のアーティスト」が開発に貢献しており、「参加は任意」であると述べた^[9]。

能力と限界

Soraが生成した、ベッドに人が横たわりその隣に猫が乗っている動画（ハルシネーションがある）

Soraの技術は、DALL-E 3の技術を応用したものである。OpenAIによれば、Soraは拡散トランスフォーマーであり^[10]、デノイズ型潜在拡散モデルで、Transformerがデノイザーとして機能する。動画は、3D「パッチ」をデノイズして潜在空間で生成され、その後、ビデオデコンプレッサーによって標準空間に変換される。再キャプション付けは、video-to-textモデルを使用して、動画に詳細なキャプションを作成することで、トレーニングデータを補強（英語版）するために使われる^[6]。

OpenAIは、一般に公開されている動画と、目的のためにライセンスされた著作権保護された動画を使用してモデルをトレーニングしたが、具体的な数やソースについては明かしていない^[4]。OpenAIは、発表時にSoraの限界についても認めており、複雑な物理現象のシミュレーションや因果関係の理解、左右の区別が苦手であると述べている^[11]。例えば、オオカミの子オオカミの集団が増殖して収束する場面が、理解しにくいシナリオを作り出すことがある^[12]。また、OpenAIは、既存の安全慣行に従い、性的、暴力的、憎悪的、さらに有名人や既存の知的財産を含む内容のプロンプトを制限すると発表した^[3]。

Soraの研究者であるティム・ブルックスは、モデルがデータセットだけで3Dグラフィックスを生成する方法を習得したと述べている。同じくSoraの研究者であるビル・ピーブルズは、モデルがプロンプトなしで異なるビデオアングルを自動的に作成したと述べた^[2]。OpenAIによれば、Soraが生成した動画には、AIで生成したことを示すC2PAメタデータ（英語版）がタグ付けされている^[4]。

反応

MIT Technology Reviewのウィル・ダグラス・ヘブンは、デモ動画を「印象的」と評価する一方で、選別されたものであり、Soraの典型的な出力を代表していない可能性があると指摘した^[8]。アメリカの学者オーレン・エツィオーニ（英語版）は、この技術が政治キャンペーンにおけるオンライン上の偽情報の作成に使われる可能性について懸念を表明した^[4]。同様にWiredのスティーブン・レヴィ（英語版）は、誤情報の温床となる潜在的な危険性を指摘し、プレビュークリップについては「印象的だが完璧ではない」と述べ、「映画的な文法を芽生えさせた」点を評価した。しかし、「テキストから動画を生成する技術が実際の映画制作を脅かすのは、仮にその時が来るとしても、非常に長い時間がかかるだろう」とも述べた^[2]。CNETのリサ・レイシーは、例示動画を「人間の顔が近くで映る場面や海洋生物が泳ぐ場面を除けば、驚くほどリアル」と評した^[3]。

映画監督のタイラー・ペリーは、Soraが映画業界に与える潜在的な影響への懸念を理由に、自身がアトランタに計画していたスタジオの8億ドル規模の拡張を保留すると発表した^[13]^[14]。

脚注

出典

^ “Sora | OpenAI” (英語). openai.com. 2024年12月9日閲覧。
^ ^a ^b ^c ^d ^e Levy, Steven (February 15, 2024). “OpenAI's Sora Turns AI Prompts Into Photorealistic Videos”. Wired. オリジナルのFebruary 15, 2024時点におけるアーカイブ。 February 16, 2024閲覧。.
^ ^a ^b ^c ^d “Meet Sora, OpenAI's Text-to-Video Generator”. CNET (February 15, 2024). February 16, 2024時点のオリジナルよりアーカイブ。February 16, 2024閲覧。
^ ^a ^b ^c ^d Metz, Cade (February 15, 2024). “OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos”. The New York Times. オリジナルのFebruary 15, 2024時点におけるアーカイブ。 February 15, 2024閲覧。
^ “Video generation models as world simulators”. OpenAI (February 15, 2024). February 16, 2024時点のオリジナルよりアーカイブ。February 16, 2024閲覧。
^ ^a ^b Edwards, Benj (February 16, 2024). “OpenAI collapses media reality with Sora, a photorealistic AI video generator” (英語). Ars Technica. February 17, 2024時点のオリジナルよりアーカイブ。February 17, 2024閲覧。
^ “OpenAI teases 'Sora,' its new text-to-video AI model”. NBC News (February 15, 2024). February 15, 2024時点のオリジナルよりアーカイブ。February 16, 2024閲覧。
^ ^a ^b Heaven (February 15, 2024). “OpenAI teases an amazing new generative video model called Sora”. MIT Technology Review. February 15, 2024時点のオリジナルよりアーカイブ。February 15, 2024閲覧。
^ “OpenAI Shuts Down Sora Access After Artists Released Video-Generation Tool in Protest: ‘We Are Not Your PR Puppets’”. Variety (November 27, 2024). 2 December 2024閲覧。
^ Peebles, William; Xie, Saining (2023). “Scalable Diffusion Models with Transformers”. 2023 IEEE/CVF International Conference on Computer Vision (ICCV). pp. 4172–4182. arXiv:2212.09748. doi:10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. オリジナルのFebruary 17, 2024時点におけるアーカイブ。 February 17, 2024閲覧。
^ Pequeño IV, Antonio (February 15, 2024). “OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts”. Forbes. オリジナルのFebruary 15, 2024時点におけるアーカイブ。 February 15, 2024閲覧。
^ “Sora-generated video of wolves playing with some video issues”. ABC News Australia. 16 May 2024閲覧。
^ Kilkenny, Katie (2024年2月23日). “Tyler Perry Puts $800M Studio Expansion on Hold After Seeing OpenAI's Sora: "Jobs Are Going to Be Lost"” (英語). The Hollywood Reporter. February 26, 2024時点のオリジナルよりアーカイブ。2024年2月26日閲覧。
^ Edwards, Benj (2024年2月23日). “Tyler Perry puts $800 million studio expansion on hold because of OpenAI's Sora” (英語). Ars Technica. February 26, 2024時点のオリジナルよりアーカイブ。2024年2月26日閲覧。

外部リンク

公式ウェブサイト

[1] “Sora | OpenAI” (英語). openai.com. 2024年12月9日閲覧。

[Wired-2] Levy, Steven (February 15, 2024). “OpenAI's Sora Turns AI Prompts Into Photorealistic Videos”. Wired. オリジナルのFebruary 15, 2024時点におけるアーカイブ。 February 16, 2024閲覧。.

[CNET-3] “Meet Sora, OpenAI's Text-to-Video Generator”. CNET (February 15, 2024). February 16, 2024時点のオリジナルよりアーカイブ。February 16, 2024閲覧。

[NYT_CM_2024_02_15-4] Metz, Cade (February 15, 2024). “OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos”. The New York Times. オリジナルのFebruary 15, 2024時点におけるアーカイブ。 February 15, 2024閲覧。

[OAI_research-5] “Video generation models as world simulators”. OpenAI (February 15, 2024). February 16, 2024時点のオリジナルよりアーカイブ。February 16, 2024閲覧。

[ars-6] Edwards, Benj (February 16, 2024). “OpenAI collapses media reality with Sora, a photorealistic AI video generator” (英語). Ars Technica. February 17, 2024時点のオリジナルよりアーカイブ。February 17, 2024閲覧。

[NBC-7] “OpenAI teases 'Sora,' its new text-to-video AI model”. NBC News (February 15, 2024). February 15, 2024時点のオリジナルよりアーカイブ。February 16, 2024閲覧。

[WDH_MIT_2024_02_15-8] Heaven (February 15, 2024). “OpenAI teases an amazing new generative video model called Sora”. MIT Technology Review. February 15, 2024時点のオリジナルよりアーカイブ。February 15, 2024閲覧。

[9] “OpenAI Shuts Down Sora Access After Artists Released Video-Generation Tool in Protest: ‘We Are Not Your PR Puppets’”. Variety (November 27, 2024). 2 December 2024閲覧。

[10] Peebles, William; Xie, Saining (2023). “Scalable Diffusion Models with Transformers”. 2023 IEEE/CVF International Conference on Computer Vision (ICCV). pp. 4172–4182. arXiv:2212.09748. doi:10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. オリジナルのFebruary 17, 2024時点におけるアーカイブ。 February 17, 2024閲覧。

[11] Pequeño IV, Antonio (February 15, 2024). “OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts”. Forbes. オリジナルのFebruary 15, 2024時点におけるアーカイブ。 February 15, 2024閲覧。

[12] “Sora-generated video of wolves playing with some video issues”. ABC News Australia. 16 May 2024閲覧。

[13] Kilkenny, Katie (2024年2月23日). “Tyler Perry Puts $800M Studio Expansion on Hold After Seeing OpenAI's Sora: "Jobs Are Going to Be Lost"” (英語). The Hollywood Reporter. February 26, 2024時点のオリジナルよりアーカイブ。2024年2月26日閲覧。

[14] Edwards, Benj (2024年2月23日). “Tyler Perry puts $800 million studio expansion on hold because of OpenAI's Sora” (英語). Ars Technica. February 26, 2024時点のオリジナルよりアーカイブ。2024年2月26日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

歴史

能力と限界

反応

関連項目

脚注

出典

外部リンク