| この記事は 英語版の対応するページを翻訳することにより充実させることができます。(2024年5月)翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
- 英語版記事を日本語へ機械翻訳したバージョン(Google翻訳)。
- 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
- 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
- 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
- 翻訳後、
{{翻訳告知|en|Variance|…}} をノートに追加することもできます。
- Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。
|
数学の統計学における分散(ぶんさん、英: variance)とは、データ(母集団、標本)、確率変数(確率分布)の標準偏差の自乗のことである。分散も標準偏差と同様に散らばり具合を表し、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。
分散は具体的には、平均値からの偏差の2乗の平均に等しい。データ x1, x2, …, xn の分散 s2 は
![{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b8585b9312f919118b37d373e5e58e04c22c3de9)
- ここで x は平均値を表す。
分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。
確率変数 X の分散 V[X][注 1]は、X の期待値を E[X] で表すと
- V[X] = E[(X − E[X])2]
となる。
確率変数の分散は確率変数の2次の中心化モーメントである。
統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、英: sample variance)を、推計統計学においては不偏分散(ふへんぶんさん、英: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、英: unbiased sample variance)を用いる。
言葉の由来[編集]
英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]。
確率変数の分散[編集]
2乗可積分確率変数 X の分散は期待値を E[X] で表すと
![{\displaystyle V[X]=E{\big [}(X-E[X])^{2}{\big ]}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1c9e1333fa4694399485b647fa56ff340390c016)
で定義される。これを展開して整理すると
![{\displaystyle {\begin{alignedat}{5}V[X]&=E{\big [}(X-E[X])^{2}{\big ]}\\&=E{\big [}X^{2}-2XE[X]+(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E{\big [}XE[X]{\big ]}+E{\big [}(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E[X]E[X]+(E[X])^{2}(\because E[X]=Const)\\&=E[X^{2}]-(E[X])^{2}\\\end{alignedat}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/82a0afbf41e388dd12e1f4c1cc2d3ba23f2def23)
とも書ける。また確率変数 X の特性関数を φX(t) = E[eitX] とおくと(i は虚数単位)、これは 2階連続的微分可能で
![{\displaystyle V[X]=-\varphi _{X}''(0)+(\varphi _{X}'(0))^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bdb60093736aead61f6564aba943c3f30e54d10e)
と表示することもできる。
チェビシェフの不等式から、任意の正の数 ε に対して
![{\displaystyle P(|X-E[X]|>\varepsilon )\leq {\frac {V(X)}{\varepsilon ^{2}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4e80ff8a7f678745fd6f49addd2df58d96ee5d1d)
が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。
X, X1, …, Xn を確率変数、a, b, a1, …, an を定数とし、共分散を Cov[ · , · ] で表すと
(非負性)
(位置母数(英語版)に対する不変性)
(斉次性)
![{\displaystyle V{\bigl [}\textstyle \sum \limits _{i}a_{i}X_{i}{\bigr ]}=\sum \limits _{i,j}a_{i}a_{j}\operatorname {Cov} [X_{i},X_{j}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f940246cc2ee946214fdf5876fb9699ab9300636)
を満たす。したがって、特に X1, …, Xn が独立ならば、
![{\displaystyle \operatorname {Cov} [X_{i},X_{j}]={\begin{cases}V(X_{i})&(i=j)\\0&(i\neq j)\end{cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/58ffdcedc634d548c4b068202b414cd404dcb424)
より
![{\displaystyle V[X_{1}+\dotsb +X_{n}]=V[X_{1}]+\dotsb +V[X_{n}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/90ba06be77968b979c2c8243507d57e3ad99eef9)
が成り立つ。
- 確率変数 X が一様分布 U(a, b) に従うとき、V(X) = (b − a)2/12
- 確率変数 X が正規分布 N(μ, σ2) に従うとき、V(X) = σ2
- 確率変数 X が二項分布 B(n, p) に従うとき、V(X) = np(1 − p)
- 確率変数 X がポアソン分布 Po(λ) に従うとき、V(X) = λ
データの分散[編集]
推計統計学では、母集団の分散と標本の分散を区別する必要がある。
母分散[編集]
大きさが n である母集団 x1, x2, …, xn に対して、平均値を μ で表すとき、偏差の自乗の平均値
![{\displaystyle \sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/37aa47f2be9dff96c5d1c13b88ed9e01c4bd96dc)
を母分散(ぼぶんさん、英: population variance)と言う[4]。
標本分散・不偏標本分散[編集]
大きさが n である標本 x1, x2, …, xn に対して、平均値を x で表すとき、偏差の自乗の平均値
![{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8765b165044ef51f97a80d5d063d9ae44aec3ebe)
で定義される s2 を標本分散(ひょうほんぶんさん、英: sample variance)と言う。s は標準偏差と呼ばれる[4]。
定義より、
![{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-({\bar {x}})^{2}={\overline {x^{2}}}-({\bar {x}})^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/32cdd8b585a7963a5cc584093943f4f5cc240b74)
となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summation(英語版)のような手法により、誤差を小さくする工夫がなされることもある)。
一般に、標本分散の平均値は母分散より少し小さくなる。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s2] について、
![{\displaystyle E[s^{2}]=\left(1-{\frac {1}{n}}\right)\sigma ^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7051e07b242f13dbc306a40d8004161f1df33084)
が成り立つ。そこで
![{\displaystyle {\hat {\sigma }}^{2}={\frac {1}{n-1}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n-1}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1}}{\bar {x}}^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3f2939691a5efaf87edf92ae0f1b1de9a7184140)
を用いると、平均値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、英: unbiased sample variance)や不偏分散(ふへんぶんさん、英: unbiased variance)と呼ぶ[4]。
上記の標本分散は不偏でないことを強調する場合偏りのある標本分散(英: biased sample variance)と言う。
なお、不偏標本分散を単に標本分散と呼ぶ文献もある。
定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。
参考文献[編集]
関連項目[編集]