|| 統計の正しさの根拠
『データ数を増やせば』正しい値に近づく
この「保証」の話が「統計学の基礎」になります。
スポンサーリンク
目次
マルコフの不等式「平均と区間を表す定数で確率の上限が決まる」
チェビシェフの不等式「分散と区間で確率の上限が決まる」
大数の法則「標本を増やせば標本の平均が全体の平均に近づく」
大数の弱法則「例外がどんどんなくなっていく感じ」
大数の強法則「最終的には一定の状態に落ち着く感じ」
中心極限定理「全ての標本平均が正規分布に近づく感じ」
『大数の法則』という言葉を聞いたことはありませんか?
「サンプル」が『多ければ多いほど』
『正確な予測値が得られる』
こういう感じの話なんですが、
たぶん、聞いたことがある人は多いと思います。
\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \\ \\ \\ \\ \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1 \end{array}
数式的にはこんな感じの話で
ちょっとややこしく見えますが
言ってること自体は非常に直感的なので
そんな難しく考えなくて良いです。
ただこれ、厳密にはちょっとややこしくて
かなり方程式方程式しています。
\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \\ \\ \displaystyle P\Bigl(|X-μ_X|≥nσ\Bigr)&≤&\displaystyle\frac{1}{n^2}&&(n>0,σ≥0) \end{array}
使うのはこれ。
それぞれに名前があって
これらは統計学の根拠になっています。
マルコフの不等式 Markov’s inequality
|| 確率を定数で抑えられる?
「区間」「期待値」で『確率の最大値』を抑えられる
\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \end{array}
これがこの不等式の主張になります。
「データの値 X が正」
「データの区間 c>0 」とします。
不等式の発想と導出
この不等式を得るまでの発想に至るため
とりあえず「期待値」の定義から確認しておきます。
\begin{array}{llllll} \displaystyle E[X]&:=&\displaystyle\int_{0}^{\infty}xf(x)\,dx \end{array}
そして「一点 c 」でこれを区切ると
\begin{array}{llllll} \displaystyle \int_{0}^{\infty}xf(x)\,dx&=&\displaystyle\int_{0}^{c}xf(x)\,dx+\int_{c}^{\infty}xf(x)\,dx \\ \\ &=&μ \end{array}
これはこうなるんですが
\begin{array}{llllll} \displaystyle \displaystyle\int_{0}^{c}xf(x)\,dx&≥&0 \\ \\ \displaystyle \int_{c}^{\infty}xf(x)\,dx &≥&0 \end{array}
「確率」を表している以上
この部分は必ずこうなります。
\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle \int_{c}^{\infty}xf(x)\,dx \end{array}
となるとこうなるわけですから
ここで『確率』を表す部分が
\begin{array}{llllll} \displaystyle ?&≥&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}
「期待値」と「点」で表せるんじゃ?
みたいにぼんやりと思えてきます。
なにせこの場合の「区間」は「 c≤x 」です。
\begin{array}{llllll} \displaystyle \displaystyle \int_{c}^{\infty}xf(x)\,dx&≥&\displaystyle \int_{c}^{\infty}cf(x)\,dx \end{array}
つまり x=c のパターンは最小
\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle \int_{c}^{\infty}xf(x)\,dx \\ \\ &&\displaystyle \int_{c}^{\infty}xf(x)\,dx&≥&\displaystyle \int_{c}^{\infty}cf(x)\,dx \end{array}
ということはこうなるわけですから
\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle \int_{c}^{\infty}cf(x)\,dx \\ \\ &=&\displaystyle c\int_{c}^{\infty}f(x)\,dx \end{array}
こうなります。
\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle c\int_{c}^{\infty}f(x)\,dx \\ \\ \displaystyle \frac{E[X]}{c}&≥&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}
てことはこうなるわけで、
これで良い感じの不等式が得られました。
確認しておくと
\begin{array}{rlllll} \displaystyle E[X]&=&μ \\ \\ c&≤&x \end{array}
この c,μ は定数です。
\begin{array}{llllll} \displaystyle \frac{E[X]}{c}&≥&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}
つまり「区間」と「期待値」が定まっているのなら
\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&:=&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}
\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \end{array}
その2つの定数によって
「確率」の値は制限される、と言うことができます。
チェビシェフの不等式 Chebyshev’s
|| 分散の時はどうなるんだろ?
これは『分散』を考えた場合の
「マルコフの不等式」になります。
\begin{array}{llllll} n>0,σ≥0 \\ \\ \displaystyle \displaystyle P\Bigl(|X-μ_X|≥nσ\Bigr)&≤&\displaystyle\frac{1}{n^2} \end{array}
『期待値と定数』で「確率」を抑えられる。
なら『分散と定数』でも「確率」を抑えられるんじゃ?
これはそんな感じの発想から生まれたもので
かなり数式数式しているものになります。
不等式の導出
この式の導出はちょっと複雑で、
あまり馴染みのない方法を使って求められています。
\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \end{array}
出発点はこの「マルコフの不等式」
ここから「期待値 E[X] 」と「定数 c 」を
「分散 σ^2 」と「定数」に変えてみるわけですが
\begin{array}{llllll} \displaystyle σ^2&=&E[(X-μ_X)^2] \\ \\ X&→&(X-μ_X)^2 \end{array}
\begin{array}{llllll} \displaystyle \displaystyle P\Bigl( (X-μ_X)^2≥c \Bigr)&≤&\displaystyle\frac{E[(X-μ_X)^2]}{c} \\ \\ &=&\displaystyle \frac{σ^2}{c}\end{array}
これはこの時点では特に意味を持ちません。
ただ文字が変わっただけです。
文字の削減
↓ の式のままでは特に意味が無い。
\begin{array}{llllll} \displaystyle \displaystyle P\Bigl( (X-μ_X)^2≥c \Bigr)&≤&\displaystyle \frac{σ^2}{c}\end{array}
これは確かなことで
だからこそ、ここでちょっと考える必要があります。
\begin{array}{llllll} \displaystyle c&→&? \end{array}
そこで注目されるのがこの部分で
思えば、この点 c は任意(なんでもいい)
\begin{array}{llllll} \displaystyle \frac{σ^2}{c} \end{array}
つまり「範囲内の値」であれば
どのような値をとったとしても特に問題はありませんから
\begin{array}{llllll} \displaystyle c&→&nσ^2 \end{array}
「文字の数を削減する」という方針で行くなら
このような適当な値を入れることができます。
\begin{array}{llllll} \displaystyle P \Bigl( (X-μ_X)^2≥nσ^2 \Bigr)&=&P \Bigl( |X-μ_X|≥|\sqrt{n}σ| \Bigr) \end{array}
\begin{array}{llllll} \displaystyle P \Bigl( |X-μ_X|≥|\sqrt{n}σ| \Bigr)&≤&\displaystyle \frac{σ^2}{nσ^2} \\ \\ &=&\displaystyle\frac{1}{n} \end{array}
\begin{array}{llllll} \displaystyle P \Bigl( |X-μ_X|≥|\sqrt{n}σ| \Bigr)&≤&\displaystyle\frac{1}{n} \end{array}
するとこうなるので
『分散の係数 n の点』を定めるだけで
『確率を定数 n だけで抑えられる』
こういう事実が分かるわけで
ということは、この時点で
「分散で抑えてみる試み」に意味が生まれます。
式の整理
ただ、このままだと左辺が微妙。
「 n 」が √ になるのでなんか収まりが悪い。
\begin{array}{llllll} \displaystyle P\Bigl(|X-μ_X|≥nσ\Bigr)&≤&\displaystyle\frac{1}{n^2} \end{array}
なので特に問題も無さそうですから
定数 c を「 n^2σ^2 」にして √ を消してみると
なんか良い感じに綺麗な式が出来上がります。
これが「チェビシェフの不等式」で
これにより『1つの値で確率の上限が決まる』
そんな事実が証明されることになりました。
大数の法則 Law of Large Numbers
|| 数こそ正義という事実の裏付け
『標本数(サンプルの数)が多い』ほど
\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \\ \\ \\ \\ \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1\end{array}
『標本平均(一部の平均)』が
『真の平均(全体の平均)』に近づく
ということを表す法則のこと。
これは『確率収束』やら『概収束』の話で
式はそれを表すものになります。
大数の法則の条件
これが成立するには
3つほどの条件が必要になります。
『標本確率変数』が独立(当たり前な感じ)
『標本確率変数』が同一の分布に従う(別のやつじゃない)
「標本平均」も確率変数
以上がその条件なんですけど
まあこれだけ見てもよく分からないですよね。
まあ要は『普通の感覚』の話なんですが
「独立同分布である」という言葉の意味を知らないと
きちんと理解するのは難しいかもしれません。
大数の弱法則 Weak LLN
|| 確率収束?についてのお話
『サンプル数が多く』なっていくと
「例外が無視されていく」感覚の話。
\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \end{array}
「 ε,μ 」は定数
「 \overline{X_n} 」は確率変数を表す記号とします。
式の解説
『僅かにでも誤差 ε があれば』
『サンプル数 n をどこまでも大きくすれば』
\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \end{array}
「標本平均 \overline{X_n} 」と『母数 μ との誤差 ε 』
『この誤差を超える確率 P 』が
「 0 に近づいていく」とこの式は言っています。
↑ の式はその感覚を表現するもので
\begin{array}{llllll} \displaystyle \displaystyle P\Bigl( |\overline{X_n}-μ|>ε \Bigr) \\ \\ \displaystyle =\int_{-\infty}^{-ε+μ}f(x_n)\,dx_n+\int_{ε+μ}^{\infty}f(x_n)\,dx_n&≤&\displaystyle\frac{σ^2}{nε^2} \end{array}
分解するとこんな感じのことを言っています。
基礎は「チェビシェフの不等式」です。
\begin{array}{llllll} \displaystyle \displaystyle σ^2 &&→&&\displaystyle\frac{σ^2}{n} \end{array}
また「標本平均の分散」は ↑ ですから
\begin{array}{llllll} \displaystyle P\Bigl[ (X-μ_X)^2≥c \Bigr] &≤&\displaystyle\frac{E[(X-μ_X)^2]}{c} \\ \\ &=&\displaystyle\frac{σ^2}{c} \end{array}
\begin{array}{llllll} \displaystyle P \Bigl[ (\overline{X_n}-μ_{X_n})^2≥c \Bigr] &≤&\displaystyle\frac{E[(\overline{X_n}-μ_{X_n})^2]}{c} \\ \\ &=&\displaystyle\frac{\displaystyle\left(\frac{σ^2}{n}\right)}{c} \\ \\ &=&\displaystyle\frac{σ^2}{nc} \end{array}
こうだと言えます。
大数の強法則 Strong LLN
|| 概収束?についてのお話
「最終的には一定になる」みたいな感じ。
\begin{array}{llllll} \displaystyle \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1 \end{array}
感覚的には「動きが無くなる」感じの話で
例えば「ある人物が1日に手を動かす回数」
こういうものを考える場合
実際にはどんな値をとるかは分かりませんが
しかし「 1000 年後」では
ほぼ確実に「 0 回」と言えますよね。
これが「大数の強法則」の感覚で
\begin{array}{llllll} \displaystyle \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1 \end{array}
この式は『最終的には( n\to\infty )』
「真の値 μ 」に『ほぼ確実に一致する』
ということを表現しています。
証明には「モーメント母関数」の知識が必要になるので
詳しくは別の記事で扱います。
中心極限定理 Central Limit Theorem
|| 統計学の基本定理
「簡単な分布に落ち着く」感じ。
ここでの簡単な分布というのは「正規分布」のことで
「期待値」と「分散」の存在は前提になります。
証明には「正規分布」「特性関数」の知識が必要に。
簡単にはちょっと書けないので
詳しいことは別の記事で話します。