OpenAI Five
OpenAI Five (オープンエーアイ ファイブ)は、OpenAIによって開発された複雑なゲームをプレイすることが可能なコンピュータプログラムである。5対5のビデオゲームである『Dota 2』をプレイする機能をもつ[1]。2017年に公開され、プロプレイヤーのDendiとの1対1のライブ対戦で披露され[2]、Dendiは敗北した[3]。翌年2018年には、5人チームとしてDota 2をプレイする機能が追加され、プロチームと対戦し勝利する能力を示し始めた。
OpenAIは、『Dota 2』のような複雑なゲームを機械学習の研究対象に選択することで、現実世界で見られる予測不可能性と連続性をより正確に捉え、より汎用的な問題解決システムを構築できると考えた[4]。OpenAI Fiveで使用されたアルゴリズムとコードは、最終的に同社が開発中の別のニューラルネットワークに流用され、物理的なロボットハンドの制御に利用された[5]。OpenAI Fiveは、ビデオゲーム『StarCraft II』におけるAlphaStar、ボードゲーム囲碁におけるAlphaGo、チェスにおけるDeep Blue、テレビゲームショー『Jeopardy!』におけるWatsonなど、人間と対戦し勝利した人工知能の他の類似例と比較されている[6][7][8]。
歴史
[編集]本プログラムに使用されることになるアルゴリズムの開発は、2016年11月に開始された。OpenAIは、5対5の対戦型ビデオゲームである『Dota 2』をベースとして使用することを決定した。これは、『Dota 2』がライブストリーミングプラットフォームであるTwitchで人気があり、Linuxのネイティブサポートがあり、アプリケーションプログラミングインターフェースが利用可能であったためである[9]。5人チームになる前、最初の公開デモンストレーションは8月に開催された、同ゲームの毎年恒例のプレミアチャンピオンシップトーナメントであるThe International 2017で行われた。そこで、ウクライナのプロプレイヤーであるDendiが、1対1のライブマッチでOpenAIボットに敗北した[10][11]。試合後、最高技術責任者(CTO)であるグレッグ・ブロックマンは、本プログラムは2週間の実時間にわたって自身との対戦を通じて学習したと説明し、学習ソフトウェアは「外科医のような」複雑なタスクを処理できるソフトウェアを作成するための第一歩であると述べた[12][13]。OpenAIは強化学習と呼ばれる方法論を用いた。本プログラムは数ヶ月に渡り、1日に数百回も自身と対戦することで学習し、敵を倒したりタワーを破壊したりするなどの行動に対して報酬が与えられる[14][15][16]。
2018年6月までに、ボットは5人編成のチームとして共にプレイする能力を拡張し、アマチュアおよびセミプロのプレイヤーチームを倒すことができるようになった[17][14][18][19]。The International 2018では、OpenAI Fiveはプロチームと2試合を行い、1試合はブラジル拠点のpaiN Gamingと、もう1試合は元中国プレイヤーのオールスター[要曖昧さ回避]チームと対戦した[20][21]。ボットは両試合とも敗北したが、OpenAIはこれを成功した試みと捉え、『Dota 2』のトッププレイヤーと対戦することで、将来のゲームに向けてアルゴリズムを分析し調整することができたと述べた[22]。ボットの最後の公開デモンストレーションは2019年4月に行われ、サンフランシスコで開催されたライブイベントで、The International 2018のチャンピオンであるOGに対し3番勝負で勝利した[23]。同月には、一般公開のボットと対戦できる4日間のオンラインイベントが開催された[24]。ボットは42,729の公開試合を行い、そのうち99.4%で勝利した[25]。
アーキテクチャ
[編集]各OpenAI Fiveボットは、Dota開発者のAPIから抽出された現在のゲーム状態を観測する、4096ユニット[26]のLSTMを単層に持つニューラルネットワークである。ニューラルネットワークは、多数のアクションヘッド(人間のデータは含まれない)を介して行動を実行し、すべてのアクションヘッドには意味がある。たとえば、アクションを遅延させるティック数、どのアクションを選択するか、ユニット周辺のグリッドにおけるアクションのX座標またはY座標などである。また、アクションヘッドは独立して計算される。AIシステムは世界を20,000の数値のリストとして観測し、8つの列挙値のリストを実行することでアクションを実行する。また、すべてのアクションをどのようにエンコードし、世界をどのように観測するかを理解するために、異なるアクションとターゲットを選択する[4]。
OpenAI Fiveは、「Rapid」インフラストラクチャ上で汎用強化学習トレーニングシステムとして開発された。Rapidは2つの層で構成されている。1つ目の層は何千ものマシンを起動し、それらが互いに「通信」できるようにする層であり、2つ目の層はソフトウェアを実行する層である。2018年までに、OpenAI Fiveは256基のGPU[要曖昧さ回避]と128,000個のCPUコア上で動作する強化学習において、約180年分のゲームをプレイし[27]、方策勾配法であるProximal Policy Optimizationを使用していた[4][28]。
OpenAI 1v1ボット (2017) | OpenAI Five (2018) | |
---|---|---|
CPU | Microsoft Azure上の60,000 CPUコア | Google Cloud Platform (GCP)上の128,000プリエンティブルCPUコア |
GPU | Azure上の256 K80 GPU | GCP上の256 P100 GPU |
収集した経験 | 1日あたり約300年分 | 1日あたり約180年分 |
観測サイズ | 約3.3kB | 約36.8kB |
ゲームプレイ中の1秒あたりの観測数 | 10 | 7.5 |
バッチサイズ | 8,388,608観測 | 1,048,576観測 |
1分あたりのバッチ数 | 約20 | 約60 |
他のゲームAIシステムとの比較
[編集]OpenAI Five以前にも、Jeopardy!におけるWatson、チェスにおけるDeep Blue、囲碁におけるAlphaGoなど、AI対人間の対戦実験とシステムが成功裏に用いられてきた[29][30][31]。AIシステムを使用して人間プレイヤーと対戦した他のゲームと比較して、『Dota 2』は以下の点で異なる[4]。
長期的な視点
[編集]ボットは平均45分の試合時間の間、毎秒フレーム数30フレームで動作するため、1ゲームあたり80,000ティックとなる。OpenAI Fiveは4フレームごとに観測を行い、20,000の動きを生成する。それと比べ、チェスは通常40手未満で、囲碁は150手未満で終了する。
部分的に観測可能なゲーム状態
[編集]プレイヤーと味方は、周囲のマップしか見ることができない。残りの部分は戦争の霧に覆われており、敵ユニットとその動きが隠されている。したがって、『Dota 2』をプレイするには、この不完全なデータに基づいて推論を行い、相手が同時に行っている可能性のある行動を予測する必要がある。それと比べ、チェスと囲碁は相手プレイヤーから要素を隠さない「完全情報ゲーム」である[32]。
連続行動空間
[編集]『Dota 2』のゲームでプレイ可能なキャラクター(ヒーローと呼ばれる)はそれぞれ、他のユニットまたは位置をターゲットとする数十のアクションを実行できる。OpenAI Fiveの開発者は、ヒーローごとに170,000通りのアクションを実行できるように空間を設定している。ゲームの永続的な側面を考慮しない場合、1ティックあたり平均約1,000の有効なアクションが存在する。それと比べ、チェスの平均アクション数は35、囲碁は250である。
連続観測空間
[編集]『Dota 2』は、各チーム5人ずつの10人のヒーローと、数十の建物と[ノンプレイヤーキャラクター]ユニットがいる大きなマップ上でプレイされる。OpenAIシステムは、開発者のボットAPIを通じてゲームの状態を観測する。これは、人間がアクセスできるすべての情報で構成される20,000の数値である。チェス盤は約70のリストで表現されるのに対し、囲碁盤は約400の列挙型で表現される。
反響
[編集]OpenAI Fiveは、AI、テクノロジー、ビデオゲームコミュニティ全体から広く評価を受けている。マイクロソフトの創設者であるビル・ゲイツは、OpenAI Fiveの勝利は「チームワークと協調性が必要だった」ため、「大きな成果」であると述べた[16][33]。1997年にDeep Blue AIに敗れたチェスプレーヤーのガルリ・カスパロフは、The International 2018での敗北にもかかわらず、ボットは最終的に「そこに到達するだろうし、予想よりも早く到達するだろう」と述べた[34]。『MIT Technology Review』との対談で、AI専門家もOpenAI Fiveシステムを重要な成果と見なし、『Dota 2』は「非常に複雑なゲーム」であるため、プロではないプレイヤーに勝つだけでも印象的であると指摘した[32]。『PC Gamer』誌は、プロプレイヤーに対する勝利は機械学習における重要な出来事であると書いた[35]。対照的に、『Motherboard』は、両陣営のヒーロープールが簡略化されていること、ボットが画面上のピクセルを解釈するためにコンピュータビジョンを使用するのではなくAPIに直接アクセスできるようになっていることから、この勝利は「基本的に不正行為」であると書いた[36]。『The Verge』は、これらのボットは、同社の強化学習へのアプローチとAIに関する一般的な哲学が「画期的な成果を生み出している」ことの証拠であると書いた[24]。
2019年、DeepMindは『Starcraft II』向けの同様のボットであるAlphaStarを発表した。OpenAI Fiveと同様に、AlphaStarは強化学習と自己対戦を用いていた。『The Verge』は、「この種のAI研究の目標は、単に様々なゲームで人間を打ち負かすことだけではない。洗練されたAIソフトウェアが、ボードゲームであれ最新のビデオゲームであれ、事実上あらゆる認知的課題において人間に勝つことができることを証明することである」と報じた。また、DeepMindとOpenAIの勝利は、強化学習の特定の用途の威力を証明するものでもあると付け加えた[37]。
OpenAIはこの技術がデジタル領域以外でも応用できることを期待していた。2018年には、OpenAI Fiveと同じ強化学習アルゴリズムとトレーニングコードを、物理的な物体を操作するために構築されたニューラルネットワークを持つ人間のようなロボットハンドであるDactylに再利用することができた[38]。2019年、Dactylはルービックキューブを解いた[39]。
参考文献
[編集]- ^ OpenAI. “OpenAI Five”. openai.com/five. 2018年9月1日時点のオリジナルよりアーカイブ。2018年10月10日閲覧。
- ^ “My favorite game has been invaded by killer AI bots and Elon Musk hype”. The Verge (2017年8月14日). 2018年6月26日時点のオリジナルよりアーカイブ。2018年6月25日閲覧。
- ^ “OpenAI's bot beats top Dota 2 player so badly that he quits”. Venture Beat. 2017年8月12日時点のオリジナルよりアーカイブ。2017年8月12日閲覧。
- ^ a b c d OpenAI (2018年6月25日). “OpenAI Five”. blog.openai.com. 2018年6月25日時点のオリジナルよりアーカイブ。2018年6月25日閲覧。
- ^ OpenAI; Andrychowicz, Marcin; Baker, Bowen; Chociej, Maciek; Józefowicz, Rafał; McGrew, Bob; Pachocki, Jakub; Petron, Arthur; Plappert, Matthias; Powell, Glenn; Ray, Alex; Schneider, Jonas; Sidor, Szymon; Tobin, Josh; Welinder, Peter; Weng, Lilian; Zaremba, Wojciech (2019). "Learning Dexterous In-Hand Manipulation". arXiv:1808.00177v5 [cs.LG]。
- ^ Gabbatt, Adam (2011年2月17日). “IBM computer Watson wins Jeopardy clash”. The Guardian. オリジナルの2013年9月21日時点におけるアーカイブ。 2011年2月17日閲覧。
- ^ “Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'”. Business Insider. 2017年12月29日時点のオリジナルよりアーカイブ。2017年12月29日閲覧。
- ^ “DeepMind's Go-playing AI doesn't need human help to beat us anymore”. Verge (2017年10月18日). 2017年10月18日時点のオリジナルよりアーカイブ。2017年10月18日閲覧。
- ^ OpenAI. “OpenAI Five”. openai.com/five. 2018年9月1日時点のオリジナルよりアーカイブ。2018年10月10日閲覧。
- ^ “My favorite game has been invaded by killer AI bots and Elon Musk hype”. The Verge (2017年8月14日). 2018年6月26日時点のオリジナルよりアーカイブ。2018年6月25日閲覧。
- ^ “OpenAI's bot beats top Dota 2 player so badly that he quits”. Venture Beat. 2017年8月12日時点のオリジナルよりアーカイブ。2017年8月12日閲覧。
- ^ OpenAI (2017年8月11日). “Dota 2”. blog.openai.com. 2017年8月11日時点のオリジナルよりアーカイブ。2017年8月12日閲覧。
- ^ OpenAI (2017年8月16日). “More on Dota 2”. blog.openai.com. 2017年8月16日時点のオリジナルよりアーカイブ。2017年8月16日閲覧。
- ^ a b Simonite, Tom (2018-06-25). “Can Bots Outwit Humans in One of the Biggest Esports Games?”. Wired. オリジナルの2018-06-25時点におけるアーカイブ。 2018年6月25日閲覧。.
- ^ Kahn, Jeremy (2018年6月25日). “A Bot Backed by Elon Musk Has Made an AI Breakthrough in Video Game World”. Bloomberg.com. オリジナルの2018年6月27日時点におけるアーカイブ。 2018年6月27日閲覧。
- ^ a b “Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I.”. CNBC (2018年6月28日). 2018年6月28日時点のオリジナルよりアーカイブ。2018年6月28日閲覧。
- ^ OpenAI (2018年7月18日). “OpenAI Five Benchmark”. blog.openai.com. 2018年8月26日時点のオリジナルよりアーカイブ。2018年8月25日閲覧。
- ^ “AI bots trained for 180 years a day to beat humans at Dota 2”. The Verge (2018年6月25日). 2018年6月25日時点のオリジナルよりアーカイブ。2018年6月25日閲覧。
- ^ “The OpenAI Dota 2 bots just defeated a team of former pros”. The Verge (2018年8月6日). 2018年8月7日時点のオリジナルよりアーカイブ。2018年8月7日閲覧。
- ^ Simonite, Tom. “Pro Gamers Fend off Elon Musk-Backed AI Bots—for Now”. Wired. オリジナルの2018-08-24時点におけるアーカイブ。 2018年8月25日閲覧。.
- ^ “Game over, machines: Humans defeat OpenAI bots once again at video games Olympics”. The Register. 2018年8月25日時点のオリジナルよりアーカイブ。2018年8月25日閲覧。
- ^ OpenAI (2018年8月24日). “The International 2018: Results”. blog.openai.com. 2018年8月24日時点のオリジナルよりアーカイブ。2018年8月25日閲覧。
- ^ “OpenAI Five defeats professional Dota 2 team, twice”. Venture Beat (2019年4月13日). 2019年4月13日時点のオリジナルよりアーカイブ。2019年4月13日閲覧。
- ^ a b Statt, Nick (2019年4月13日). “OpenAI's Dota 2 AI steamrolls world champion e-sports team with back-to-back victories”. The Verge (Vox Media). オリジナルの2019年4月15日時点におけるアーカイブ。 2019年4月15日閲覧。
- ^ “OpenAI's Dota 2 bot defeated 99.4% of players in public matches”. Venture Beat (2019年4月22日). 2019年4月22日閲覧。
- ^ “Dota 2 with Large Scale Deep Reinforcement Learning”. OpenAI. 2024年9月26日時点のオリジナルよりアーカイブ。2024年9月29日閲覧。
- ^ “Why are AI researchers so obsessed with games?”. QUARTZ (2018年8月4日). 2018年8月4日時点のオリジナルよりアーカイブ。2018年8月4日閲覧。
- ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347 [cs.LG]。
- ^ Gabbatt, Adam (2011年2月17日). “IBM computer Watson wins Jeopardy clash”. The Guardian. オリジナルの2013年9月21日時点におけるアーカイブ。 2011年2月17日閲覧。
- ^ “Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'”. Business Insider. 2017年12月29日時点のオリジナルよりアーカイブ。2017年12月29日閲覧。
- ^ “DeepMind's Go-playing AI doesn't need human help to beat us anymore”. Verge (2017年10月18日). 2017年10月18日時点のオリジナルよりアーカイブ。2017年10月18日閲覧。
- ^ a b “A team of AI algorithms just crushed humans in a complex computer game”. MIT Tech Review (2018年6月25日). 2018年6月25日閲覧。
- ^ “Bill Gates hails 'huge milestone' for AI as bots work in a team to destroy humans at video game 'Dota 2'”. Business Insider. 2018年6月27日時点のオリジナルよりアーカイブ。2018年6月27日閲覧。
- ^ “Garry Kasparov's Twitter” (2018年8月24日). 2018年8月24日閲覧。
- ^ Park, Morgan (2018年8月11日). “How the OpenAI Five tore apart a team of Dota 2 pros”. PC Gamer 2020年5月25日閲覧。
- ^ Gault, Matthew (2018年8月17日). “OpenAI Is Beating Humans at 'Dota 2' Because It's Basically Cheating” (英語). Vice 2020年5月25日閲覧。
- ^ Statt, Nick (2019年10月30日). “DeepMind's StarCraft 2 AI is now better than 99.8 percent of all human players” (英語). The Verge 2020年5月25日閲覧。
- ^ OpenAI; Andrychowicz, Marcin; Baker, Bowen; Chociej, Maciek; Józefowicz, Rafał; McGrew, Bob; Pachocki, Jakub; Petron, Arthur; Plappert, Matthias; Powell, Glenn; Ray, Alex; Schneider, Jonas; Sidor, Szymon; Tobin, Josh; Welinder, Peter; Weng, Lilian; Zaremba, Wojciech (2019). "Learning Dexterous In-Hand Manipulation". arXiv:1808.00177v5 [cs.LG]。
- ^ OpenAI; Akkaya, Ilge; Andrychowicz, Marcin; Chociej, Maciek; Litwin, Mateusz; McGrew, Bob; Petron, Arthur; Paino, Alex; Plappert, Matthias; Powell, Glenn; Ribas, Raphael (2019). "Solving Rubik's Cube with a Robot Hand". arXiv:1910.07113v1 [cs.LG]。