推計統計学

推計統計学（すいけいとうけいがく、英: inferential statistics, inductive statistics）あるいは統計的推論（英: statistical inferenece）とは、母集団全体を知ることができない場合に、母集団から抽出された部分集団（抽出集団、標本集団）をもとに、確率論を用いて母集団の様子を推定する統計学の分野を言う。推計という語は、推定、推論、推測などと訳されることもある。

概要

19世紀後半から20世紀初頭にかけて発達した統計学は、現在では推計統計学と区別して、「記述統計学 (descriptive statistics) 」と呼ばれている。集団の規則性を求めることが統計学の目的であるが、記述統計学においては集団の規則性は大量の標本を観察することによってのみ発見することができるものだと考えられていた。そのため記述統計学は、現実的な制約により少数の標本しか得られない現象について、その帰属する母集団の規則性を求めることができなかった。そのような事例に対応するために発達したのが推計統計学である。

推計統計学は実世界の様々な分野で使われているが、分かりやすい例としては抜き取り調査による品質管理や疫学調査などが挙げられる。

推計統計学は、頻度主義に基づいたものとベイズ統計学に基づいたものに分けられる。

頻度主義における統計学的推論は、母集団を規定する量＝パラメータ（母数）を既定の固定値としてそれを推定するという方法（パラメトリック推定）に基いて発展してきた。基礎的なパラメトリック推定における統計学的推測は、以下のように細分される。

点推定: ${\hat {\theta }}=\arg \max _{\theta }Estimator(\theta )$
区間推定
仮説検定

最近は、不確実性を確率分布として表現するベイズ統計学が注目されている。

統計モデル

$X\sim p_{model}(X\mid \theta )$

統計モデルとは、対象を統計（母集団と標本）の側面から抽象化したものである。（推測）統計学では母集団が確率的に標本を生み出すと考えるため、統計モデルは確率分布を内包したモデルとなる。例えばコイン振りの統計モデルはベルヌーイ分布でモデル化しうるし、ほかの分布でもモデル化できるかもしれない。

良い統計モデルを設定しようとする過程全体のことを統計モデリングという。モデル選択は統計モデリングの重要事項の1つのである。選択された統計モデルは母集団と一致するように、データ（標本）に基づいてとそのパラメータが推定される（統計的推測）。母集団とモデルのずれは汎化誤差（過剰適合 § 汎化誤差）で評価されることもある。

統計的機械学習の文脈では、母集団が標本を生成するモデルという面に着目して生成モデルと呼ばれることもある（詳しくは機械学習 § 統計的機械学習）。

統計的推測

${\begin{array}{lcl}X\sim q(X\mid \theta _{0})\\p_{model}(X\mid {\hat {\theta }})\end{array}}$

統計的推測とは、「データが与えられたとき、そのデータを発生している確率分布を推測すること」である^[1]。すなわち、真なる母集団から標本（データ）が得られたとき、その（一般には観測できない）真なる母集団確率分布を推測する過程が統計的推測である。

一般的な真なる推測の流れは、

標本（データ）x の取得
真なる母集団 q(X|θ₀) を模した統計モデル p(X|θ) のモデリング
標本 x に基づいたパラメータ θ の推測 -> 推定値 ${\hat {\theta }}$
真なる母集団の統計的推測結果として p (X| ${\hat {\theta }}$ ) の提示

となる。

統計的推論は個別・具体的事象(標本)から一般・普遍的な規則や原理(母集団モデル)を求める方法論であり、帰納的推論の一種である。

区間推定

点推定で推定したパラメータのバラツキや信頼区間を示すこと。

正規分布の場合には標準誤差 (Standard Error, SE) を用いることが多い。平均値の標準誤差を特に SEM (standard error of the mean) と呼ぶ。SEMは以下の式で算出される。

SEM={\sqrt {\frac {\sum \limits _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}}{n(n-1)}}}

また、より具体的に信頼区間（95%信頼区間、99%信頼区間などが用いられる）を表示することもある。

仮説検定

区間推定値から、母集団が特定の分布に従っているかどうかを検証すること。
具体的には、データが特定の分布に従う母集団から抽出されたとする仮説を立て、この仮説の検定を行う。この仮説を帰無仮説（きむかせつ）という。たとえば、「抽出集団は、平均値50、標準偏差○の母集団から抽出されたものである。」、「抽出集団Aと抽出集団Bはともに平均値、標準偏差が99%同じ母集団から抽出されたものである。」といった仮説が帰無仮説となる。こうした帰無仮説から予想される統計量と、実際に抽出集団のデータから計算された統計量が一致する確率（p値という）を求め、その確率が予め決めた基準(有意水準、5%または1%が使用されることが多い）よりも小さい（つまり｢起こりそうもない｣）場合には「有意差がある」として、上の仮説は棄却される。

仮説検定には様々な手法があり、帰無仮説により使い分ける必要がある。統計学的検定手法は、データが特定の確率分布に従うことを仮定する「パラメトリックな手法」と、それを仮定しない「ノンパラメトリック手法」に分けられる。

統計的推測の正しさと汎化誤差

統計的推論では観測されたデータを基に真の分布 p_true(x)を統計モデル p_model(x|θ)で近似しようとする、言い換えれば2分布の誤差を最小化しようとする。観測されたデータ=「真の分布の部分集合」から真の分布全体の推測をした際の誤差という意味で、これは汎化誤差と呼ばれる。すなわち統計的推測の目的は汎化誤差を最小化する統計モデルの構築にある。

しかし実際の統計的推測をおこなう際には p_true(x) が不明な場合が多い。p_true(x) が明らかならばそもそも推論をおこなう必要がほぼないからである。つまり一般には汎化誤差は直接計算できない^[2]。汎化誤差が計算できないということは、統計モデルが正しいか否かには答えられない、ということである。

だからといって汎化誤差が無意味なわけではない。データ（標本）は真の分布 p_true(x) からランダムサンプリングされる確率変数である。そして統計モデルは確率変数たるデータによって学習されるため、汎化誤差もまた確率変数である。確率変数であるということは統計的な性質を見出すことが可能である（分布など）。すなわち存在するデータで学習された統計モデルの汎化誤差は計算できないが、汎化誤差の振る舞いは研究することができる。これを利用し、

どのような分布 p_model(X|θ)が
どのようなデータ x を与えられたとき
どのような推測法で ${\hat {\theta }}$ を得ると

汎化誤差がいかに振る舞うか（例: ガウス分布に十分な量のデータを与え最尤推定をおこなうと汎化誤差はxxxのようにふるまう）を知ることができる。この研究が進展すれば、観測された目の前のデータに基づいて学習された p_model(x|θ)の正しさには答えられなくても、その統計的振る舞いを答えることができる。

例えば尤度に着目したとき、尤度を最大化すること（最尤推定）が汎化誤差の期待値を最小化するかは明らかではない。尤度の最大値ではなく、尤度の周辺平均値の最大値が汎化誤差期待値を最小化するかもしれない。汎化誤差の振る舞いを解析することで、この疑問に答えることができる。

数学的道具立て

汎化誤差を議論するにあたって、その基礎にあるのは分布間の差異・距離である。カルバック・ライブラー情報量（KLダイバージェンス）やワッサースタイン計量はその一例である。KLダイバージェンスを用いれば、最尤推定はD_KL最小化手法とみることができる。

統計的推測においてどの統計モデル（確率分布とそのパラメータ）を選ぶべきか（統計的モデル選択）の基準には以下のような数学的道具が用いられる^[3]。

方法論とそれらの比較

得られたデータ（標本）に基づいて母集団分布を推定する様々な方法論があり、それらはそれぞれの特徴がある。

表: 統計的推測手法
手法名	母数 θ	予測分布^[4]	概要
最尤推定	${\hat {\theta }}=\arg \max _{\theta }L(\theta \mid data)$	$f(x^{*}\mid {\hat {\theta }})$	最大尤度による母数点推定+条件付予測分布
MAP推定	${\hat {\theta }}=\arg \max _{\theta }L(\theta \mid data)\cdot P(\theta )$	$f(x^{*}\mid {\hat {\theta }})$	MAPによる母数点推定+条件付予測分布
ベイズ推定	$P(\theta \mid data)={\frac {L(\theta \mid data)\cdot P(\theta )}{P(data)}}$	$\int f(x^{*}\mid \theta )P(\theta \mid data)d\theta$	母数事後分布+事後予測分布（母数によるモデル生成分布の平均^[5]）

それぞれを評価する特徴としては、汎化誤差の振る舞いなどが挙げられる。

出典

^ 渡辺. 統計的推測と学習. 東京工業大学.
^ 渡辺澄夫, 「学習理論の基礎概念」『計測と制御』 44巻 5号 2005年 p.293-298, doi:10.11499/sicejl1962.44.293, 計測自動制御学会。
^ 後藤正幸、「統計的モデル選択 - データが選ぶ良いモデルとは？ (PDF) 」
^ 「将来観測されるであろうデータx*の分布を予測分布（predictive distribution）といいます」豊田秀樹. (2016). はじめての統計データ分析. p.38. 朝倉書店.
^ 「事後予測分布は『事後分布 f(θ|x)による統計モデルf(x*|θ)の平均』です。... これが母数によるモデル生成分布の平均です。」豊田秀樹. (2016). はじめての統計データ分析. p.38. 朝倉書店.

参考文献

東京大学教養学部統計学教室(編) 編『統計学入門』東京大学出版会、1991年。
蓑谷千凰彦『推定と検定のはなし』東京図書、1988年。
R. A. フィッシャー著、渋谷政昭, 竹内啓(訳) 編『統計的方法と科学的推論』1962年。
吉村(1971), 「アザラシ状奇形の原因－サリドマイド仮説の成立に関する統計学上の争点について」『科学』41(3) 146-154, 1971-03, NAID 40017543798: 推計統計学の好例として

[1] 渡辺. 統計的推測と学習. 東京工業大学.

[2] 渡辺澄夫, 「学習理論の基礎概念」『計測と制御』 44巻 5号 2005年 p.293-298, doi:10.11499/sicejl1962.44.293, 計測自動制御学会。

[3] 後藤正幸、「統計的モデル選択 - データが選ぶ良いモデルとは？ (PDF) 」

[4] 「将来観測されるであろうデータx*の分布を予測分布（predictive distribution）といいます」豊田秀樹. (2016). はじめての統計データ分析. p.38. 朝倉書店.

[5] 「事後予測分布は『事後分布 f(θ|x)による統計モデルf(x*|θ)の平均』です。... これが母数によるモデル生成分布の平均です。」豊田秀樹. (2016). はじめての統計データ分析. p.38. 朝倉書店.

[1]

[2]

[3]

[4]

[5]