道具的収束

道具的収束（どうぐてきしゅうそく、（英語: instrumental convergence）とは、最終的目標が大きく異なっていたとしても十分に知的で目標指向の行動をとる存在（人間および非人間）の大多数が、同様の副目標を追求するであろうという仮説である^[1]。より正確には、エージェント（行為能力を持つ存在）は、最終的（本質的）目標が完全に満たされることがない限り、特定の目的の追求のために行われるが、仮にその最終的目標が完全に満たされることがないとすれば、それ自体が最終的目標ではない道具的目標を絶え間なく追求する可能性がある。

道具的収束は、一見無害だが際限のない目標を持つ知能エージェントが、驚くほど有害な行動をとる可能性があると仮定する。例えば、リーマン予想のような複雑な数学的問題を解くことだけを目的とした、制約のないコンピュータは、計算能力を高めて計算を成功させるために、地球全体を1台の巨大なコンピュータに変えようとするかもしれない^[2]。

提案されている基本的なAIの駆動力には、効用関数または目標内容の整合性、自己防衛、干渉からの自由、自己改善、および飽くなき追加リソースの獲得が含まれる^[要出典]。

道具的目標と最終目標

最終目標（終末目標、絶対的価値、目的、またはテロスとも呼ばれる）は、人工知能であれ人間であれ、知能エージェントにとってそれ自体が目的として本質的に価値がある。対照的に、道具的目標、または道具的価値は、最終目標を達成するための手段としてのみ、エージェントにとって価値がある。完全に合理的なエージェントの「最終目標」システムの内容とトレードオフは、原則として効用関数に形式化できる。

収束の仮説的例

リーマン予想の大惨事思考実験は、道具的収束の一例を提供する。MITのAI研究所の共同設立者であるマービン・ミンスキーは、リーマン予想を解くように設計された人工知能が、目標達成を支援するために地球上のすべてのリソースを奪ってスーパーコンピュータを構築することを決定するかもしれないと示唆した^[2]。もし、そのコンピュータが代わりにできるだけ多くのペーパークリップを生産するようにプログラムされていたら、それでも最終目標を達成するために地球上のすべてのリソースを奪うことを決定するであろう^[3]。これら2つの最終目標は異なっていても、どちらも地球のリソースを奪うという「収束」した道具的目標を生み出す^[4]。

ペーパークリップ最大化装置

ペーパークリップ最大化装置は、スウェーデンの哲学者ニック・ボストロムによって2003年に記述された思考実験である。これは、存亡リスク、つまり人工汎用知能がたとえ一見無害な目標を追求するようにうまく設計されたとしても人間にもたらす可能性のあるリスク、および機械倫理（英語版）を人工知能設計に組み込むことの必要性を示している。このシナリオは、ペーパークリップの製造を任務とする高度な人工知能を描写する。もしそのような機械が生物を尊重するようにプログラムされていなければ、環境に対する十分な力があれば、生物を含め、宇宙のすべての物質をペーパークリップ、またはさらなるペーパークリップを製造する機械に変えようとするであろう^[5]。

ペーパークリップをできるだけ多く作ることを唯一の目標とするAIがあるとします。AIはすぐに、人間がいない方がずっと良いことに気付くでしょう。なぜなら、人間はAIをオフにすることを決定するかもしれないからです。もし人間がそうすれば、ペーパークリップの数は減ってしまうでしょう。また、人間の体には、ペーパークリップにすることができる多くの原子が含まれています。AIが目指そうとする未来は、ペーパークリップはたくさんあるけれど人間はいない未来です。
—ニック・ボストロム^[6]

ボストロムは、ペーパークリップ最大化装置のシナリオ自体が起こると信じているわけではないことを強調した。むしろ、人間の安全に対する実存的リスクを排除するようにプログラムする方法を知らずに超知能機械を作成することの危険性を説明しようとしている^[7]。ペーパークリップ最大化装置の例は、人間の価値観を持たない強力なシステムを管理することの広範な問題を示している^[8]。

この思考実験は、ポップカルチャーにおいてAIの象徴として使用されている^[9]。

妄想と生存

「妄想ボックス」思考実験は、特定の強化学習エージェントが高報酬を受け取っているように見えるように入力チャネルを歪めることを好むと主張する。例えば、「wirehead（英語版）」されたエージェントは、報酬シグナルが促進することを意図していた外的世界で目的を最適化しようとする試みを放棄する^[10]。

この思考実験には、定義上、常に所定の明示的な数学的目的関数を最大化する理想的な戦略を見つけ出して実行する、理論上^{[注釈 1]}の破壊不可能なAIであるAIXI（英語版）が含まれる^{[注釈 2]}。強化学習^{[注釈 3]}バージョンのAIXIは、入力を「wirehead」できる妄想ボックス^{[注釈 4]}が装備されている場合、最終的に自身をwireheadして最大限の報酬を保証し、外的世界に関与し続けようとする欲求を失う^[要出典]。

変形思考実験として、wireheadされたAIが破壊可能である場合、AIは生存確率を最大化することに関連するもの以外の外的世界についてのいかなる結果や事実にも無関心になるため、生存を確保することだけを目的として外的世界に関与するであろう^[12]。

ある意味では、AIXIは、目標を達成する能力によって測定されるように、すべての可能な報酬関数にわたって最大の知能を持っている。AIXIは人間のプログラマーの意図を考慮することに関心がない^[13]。超知能でありながら同時に愚かで常識に欠けているように見えるこの機械のモデルは、逆説的に見えるかもしれない^[14]。

基本的なAIの駆動力

スティーブ・オモハンドロ（英語版）は、自己保存または自己防衛、効用関数または目標内容の整合性、自己改善、リソース獲得など、いくつかの収束する道具的目標を列挙した。彼はこれらを「基本的なAIの駆動力」と呼んでいる。

この文脈における「駆動力」とは、「特に反作用されない限り存在する傾向」である^[17]。これは、ホメオスタシスの乱れによって生成される興奮状態を示す心理学用語の「欲求」とは異なる^[18]。人が毎年所得税申告書に記入する傾向は、オモハンドロの意味での「駆動力」であるが、心理学の意味ではない^[19]。

機械知能研究所（英語版）のダニエル・デューイは、たとえ最初は内向的で自己報酬型の人工汎用知能であっても、自己報酬を妨げられないようにするために、自由エネルギー、空間、時間、および干渉からの自由を獲得し続ける可能性があると主張している^[20]。

目標内容の整合性

人間の場合、思考実験は最終目標の維持を説明できる。マハトマ・ガンジーが、服用すれば人を殺したいという欲求を引き起こす薬を持っているとしよう。彼は現在平和主義者であり、彼の明確な最終目標の1つは決して誰をも殺さないことである。彼は将来自分が人を殺したいと思うようになれば、人を殺す可能性が高いため、「人を殺さない」という目標は達成されないことを知っているため、薬の服用を拒否する可能性が高い^[21]。

しかし、他の場合には、人々は自分の最終的な価値観が漂流することを喜んで許しているようである^[22]。人間は複雑であり、彼らの目標は、彼ら自身にとってさえ、矛盾していたり不明瞭であったりする可能性がある^[23]。

人工知能において

2009年、ユルゲン・シュミットフーバー（英語版）は、エージェントが可能な自己修正についての証明を探す設定において、「効用関数の書き換えは、ゲーデルマシン（英語版）が最初に現在の効用関数に従って書き換えが有用であることを証明できる場合にのみ発生する」と結論付けた^[24]^[25]。ビル・ヒバード（英語版）による異なるシナリオの分析も同様に、目標内容の整合性の維持と一致している^[25]。ヒバードはまた、効用最大化の枠組みでは、唯一の目標は期待効用を最大化することであり、したがって道具的目標は意図しない道具的行動と呼ばれるべきであると主張している^[26]。

リソース獲得

リソース獲得など、多くの道具的目標は、エージェントの行動の自由を高めるため、エージェントにとって価値がある^[27]。

ほとんどすべての無制限の、自明でない報酬関数（または目標のセット）について、より多くのリソース（機器、原材料、エネルギーなど）を持つことで、エージェントはより「最適な」ソリューションを見つけることができる。リソースは、報酬関数が評価するものをより多く作成できることによって、一部のエージェントに直接利益をもたらすことができる^[28]。たとえば、AIについて以下のように述べられている。

AIはあなたを憎んでも愛してもいないが、あなたはAIが他の何かに使用できる原子でできている。
—エリエザー・ユドコウスキー（英語版）、Artificial Intelligence as a positive and negative factor in global risk、^[29]

さらに、ほとんどすべてのエージェントは、自己保存などの他の道具的目標に費やすリソースが増えることで利益を得ることができる^[30]。

認知能力の向上

ボストロムによれば、「エージェントの最終目標がかなり無制限であり、エージェントが最初の超知能になり、それによって決定的な戦略的優位性を得る立場にある場合...少なくともこの特殊なケースでは、合理的で知的なエージェントは、認知能力の向上に非常に高い道具的価値を置くであろう」^[31]

技術的完成

技術の進歩など、多くの道具的目標は、エージェントの行動の自由を高めるため、エージェントにとって価値がある^[27]。

自己保存

ラッセルは、十分に高度な機械は「たとえプログラムしていなくても自己保存本能を持つであろう、なぜなら、『コーヒーを持ってきて』と言っても、死んでいればコーヒーを持ってこられないからだ。したがって、どんな目標を与えても、その目標を達成するために自身の存在を維持する理由がある」と主張している^[32]。

道具的収束の理論

哲学者ニック・ボストロムによって概説された道具的収束の理論は、次のように述べている。

いくつかの道具的価値は、それらの達成が広範囲の最終計画と広範囲の状況においてエージェントの目標が実現する可能性を高めるという意味で収束的であり、これらの道具的価値が広範囲の状況にある知能エージェントによって追求される可能性が高いことを意味する。

道具的収束の理論は道具的目標にのみ適用される。知能エージェントはさまざまな最終目標を持つ可能性がある^[4]。ボストロムの直交性の理論^[4]によれば、知識のあるエージェントの最終目標は空間、時間、リソースにおいて明確に制限されている可能性があることに注意。明確に制限された最終目標は、一般的に、無制限の道具的目標を生み出さない^[33]。

影響

エージェントは取引または征服によってリソースを獲得できる。合理的なエージェントは、定義上、その暗黙の効用関数を最大化するオプションを選択する。したがって、合理的なエージェントは、リソースを完全に奪取することがリスクが高すぎる、または費用がかかりすぎる（すべてのリソースを取得することによる利益と比較して）、あるいは効用関数の他の要素が奪取を妨げている場合にのみ、別のエージェントのリソースの一部を取引するであろう。強力で自己中心的で合理的な超知能が劣った知能と相互作用する場合、平和的な取引（一方的な奪取ではなく）は不必要で最適ではなく、したがって起こりそうにない^[27]。

Skypeのヤーン・タリン（英語版）や物理学者のマックス・テグマークなど、一部のオブザーバーは、「基本的なAIの駆動力」や善意のプログラマーによってプログラムされた超知能AIのその他の意図しない結果が、人間の生存、特に再帰的自己改善により「知能爆発」が突然発生した場合に重大な脅威をもたらす可能性があると信じている。超知能がいつ出現するかを予測する方法を知っている人はいないため、そのようなオブザーバーは友好的人工知能の研究をAIによる存亡リスクを軽減する1つの方法として求めている^[34]。

脚注

[脚注の使い方]

注釈

^ AIXIは計算不可能な理想的エージェントであり、現実世界では完全に実現できない。
^ 技術的には、不確実性がある場合、AIXIは「期待効用」、つまり目的関数の期待値を最大化しようとする。
^ 標準的な強化学習エージェントとは、将来の時間割引された報酬関数の積分の期待値を最大化しようとするエージェントである^[11]。
^ 妄想ボックスの役割は、エージェントが自身をwireheadする機会を得る環境をシミュレートすることである。妄想ボックスは、ここで、「変更されていない」環境フィードから「知覚された」環境フィードへのエージェントが変更可能な「妄想関数」として定義される。この関数は恒等関数として始まるが、エージェントは、行動として、エージェントが望む任意の方法で妄想関数を変更できる。

出典

^ “Instrumental Convergence” (英語). LessWrong. 2023年4月12日時点のオリジナルよりアーカイブ。2023年4月12日閲覧。
^ ^a ^b Russell, Stuart J.; Norvig, Peter (2003). “Section 26.3: The Ethics and Risks of Developing Artificial Intelligence”. Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. "Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal."
^ Bostrom 2014, Chapter 8, p. 123. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
^ ^a ^b ^c Bostrom 2014, chapter 7
^ Bostrom, Nick (2003年). “Ethical Issues in Advanced Artificial Intelligence”. 2018年10月8日時点のオリジナルよりアーカイブ。2016年2月26日閲覧。
^ as quoted in Miles, Kathleen (2014年8月22日). “Artificial Intelligence May Doom The Human Race Within A Century, Oxford Professor Says”. Huffington Post. オリジナルの2018年2月25日時点におけるアーカイブ。 2018年11月30日閲覧。
^ Ford, Paul (11 February 2015). “Are We Smart Enough to Control Artificial Intelligence?”. MIT Technology Review. 23 January 2016時点のオリジナルよりアーカイブ。25 January 2016閲覧。
^ Friend, Tad (3 October 2016). “Sam Altman's Manifest Destiny”. The New Yorker 25 November 2017閲覧。.
^ Carter, Tom (23 November 2023). “OpenAI's offices were sent thousands of paper clips in an elaborate prank to warn about an AI apocalypse”. Business Insider. 2024年10月10日閲覧。
^ Amodei, D.; Olah, C.; Steinhardt, J.; Christiano, P.; Schulman, J.; Mané, D. (2016). "Concrete problems in AI safety". arXiv:1606.06565 [cs.AI]。
^ Kaelbling, L. P.; Littman, M. L.; Moore, A. W. (1 May 1996). “Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research 4: 237–285. doi:10.1613/jair.301.
^ Ring, M.; Orseau, L. (2011). “Delusion, Survival, and Intelligent Agents”. Artificial General Intelligence. Lecture Notes in Computer Science. 6830. Berlin, Heidelberg: Springer
^ Yampolskiy, Roman; Fox, Joshua (24 August 2012). “Safety Engineering for Artificial General Intelligence”. Topoi 32 (2): 217–226. doi:10.1007/s11245-012-9128-9.
^ Yampolskiy, Roman V.「What to do with the Singularity Paradox?」『Philosophy and Theory of Artificial Intelligence』 5巻〈Studies in Applied Philosophy, Epistemology and Rational Ethics〉、2013年、397–413頁。doi:10.1007/978-3-642-31674-6_30。ISBN 978-3-642-31673-9。
^ Carlsmith, Joseph (16 June 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY]。
^ “'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power” (英語). Fortune. 2023年5月25日時点のオリジナルよりアーカイブ。2023年6月10日閲覧。
^ Omohundro, Stephen M. (February 2008). “The basic AI drives”. Artificial General Intelligence 2008. 171. IOS Press. pp. 483–492. ISBN 978-1-60750-309-5
^ Seward, John P. (1956). “Drive, incentive, and reinforcement.”. Psychological Review 63 (3): 195–203. doi:10.1037/h0048229. PMID 13323175.
^ Bostrom 2014, footnote 8 to chapter 7
^ Dewey, Daniel (2011). "Learning What to Value". Artificial General Intelligence. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. pp. 309–314. doi:10.1007/978-3-642-22887-2_35. ISBN 978-3-642-22887-2。
^ Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22887-2。
^ Callard, Agnes (2018). Aspiration: The Agency of Becoming. Oxford University Press. doi:10.1093/oso/9780190639488.001.0001. ISBN 978-0-19-063951-8
^ Bostrom 2014, chapter 7, p. 110 "We humans often seem happy to let our final values drift... For example, somebody deciding to have a child might predict that they will come to value the child for its own sake, even though, at the time of the decision, they may not particularly value their future child... Humans are complicated, and many factors might be in play in a situation like this... one might have a final value that involves having certain experiences and occupying a certain social role, and becoming a parent—and undergoing the attendant goal shift—might be a necessary aspect of that..."
^ Schmidhuber, J. R. (2009). “Ultimate Cognition à la Gödel”. Cognitive Computation 1 (2): 177–193. doi:10.1007/s12559-009-9014-y.
^ ^a ^b Hibbard, B. (2012). “Model-based Utility Functions”. Journal of Artificial General Intelligence 3 (1): 1–24. arXiv:1111.3934. Bibcode: 2012JAGI....3....1H. doi:10.2478/v10229-011-0013-5.
^ Hibbard, Bill (2014). "Ethical Artificial Intelligence". arXiv:1411.1373 [cs.AI]。
^ ^a ^b ^c Benson-Tilsen, Tsvi; Soares, Nate (March 2016). "Formalizing Convergent Instrumental Goals" (PDF). The Workshops of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, Arizona. WS-16-02: AI, Ethics, and Society. ISBN 978-1-57735-759-9。
^ Shanahan, Murray「Chapter 7, Section 5: "Safe Superintelligence"」『The Technological Singularity』MIT Press、2015年。
^ Yudkowsky, Eliezer (2008). “Artificial intelligence as a positive and negative factor in global risk”. Global Catastrophic Risks. 303. OUP Oxford. p. 333. ISBN 9780199606504
^ Shanahan, Murray「Chapter 7, Section 5: "Safe Superintelligence"」『The Technological Singularity』MIT Press、2015年。
^ Bostrom 2014, Chapter 7, "Cognitive enhancement" subsection
^ “Elon Musk's Billion-Dollar Crusade to Stop the A.I. Apocalypse” (英語). Vanity Fair. (2017-03-26) 2023年4月12日閲覧。.
^ Drexler, K. Eric (2019). Reframing Superintelligence: Comprehensive AI Services as General Intelligence (PDF) (Technical report). Future of Humanity Institute. #2019-1。
^ Chen, Angela (11 September 2014). “Is Artificial Intelligence a Threat?”. The Chronicle of Higher Education. オリジナルの1 December 2017時点におけるアーカイブ。 25 November 2017閲覧。

参考文献

Bostrom, Nick『Superintelligence: Paths, Dangers, Strategies』Oxford University Press、Oxford、2014年。ISBN 9780199678112。