|| こんな感じの値が出るんじゃない? っていう値
「標本(一部のデータ)」から「母数(全体のやつ)」を
どうにかこうにか『推測』して得た値のこと。
スポンサーリンク
目次
推定値「実際に得た値から予想できる値のこと」
誤差「推定量(予想)と母数(知りたいやつ)の違い」
統計学で重要な性質
不偏性「偏りが無い感じ」
一致性「ほんとの値に近づいていく感じ」
有効性「誤差のばらつき具合がちっちゃい感じ」
頑健性「データの影響を受けないデータの特徴」
不偏推定量「偏りが無い推定量のこと」
一致推定量「正しくなっていく推定量のこと」
有効推定量「誤差のばらつきが少ない推定量のこと」
『推定量』というのは
「統計量」もしくは「関数」のことを指す単語で
\begin{array}{llllll} \displaystyle μ&≒&θ_{\mathrm{est}} \end{array}
『母数 μ 』に「すごく近い」と
『予想できる値 θ_{\mathrm{est}} 』全般を指す単語になります。
\begin{array}{llllll} \displaystyle \mathrm{Size}(X)&≒&\infty \end{array}
「サンプル」が多過ぎる場合によく使われる概念で
「統計」ではわりと頻繁に見る単語です。
推定値 Estimated Value
|| 量と値の違い
『母数 μ 』の「予想できる値 \hat{μ} 」のこと。
\begin{array}{llllll} \displaystyle \hat{μ}&=&\displaystyle\frac{5+7+3+3+7+9+2+3+4+6}{10} \end{array}
『推定「量」』は「確率変数(取り得るやつ)」を使い
『推定「値」』は「定数(サンプルから計算)」を使います。
\begin{array}{llllll} \displaystyle E[\overline{X}]&=&μ \end{array}
こういう『式 E[\overline{X}] 』は「推定量」です。
誤差 Error
|| ほんとの値と予想の違い
『予想と実際のズレ』のこと。
\begin{array}{llllll}\mathrm{Error}&=& \displaystyle μ-θ_{\mathrm{est}} \end{array}
μ は「母数」
θ_{\mathrm{est}} は『点推定量』を表す記号だとします。
実際の値 μ は正確には分からないので
だいたい「 0 」にはなりません。
不偏性 Unbiased
|| 偏ってないこと
「推測した『期待値』が真の値になる」感じ。
\begin{array}{llllll} \displaystyle E[θ_{\mathrm{est}}]-θ_{\mathrm{true}}&=&0 \end{array}
「予想 θ_{\mathrm{est}} の期待値 E[θ_{\mathrm{est}}] 」と言える値が
「実際の値(母数) θ_{\mathrm{true}} になる」
この時「不偏性を持つ」と言います。
偏り Bias
|| ばらけてない感じ
「特定の情報が多い」感じ。
\begin{array}{llllll} \displaystyle \mathrm{Bias}(θ_{\mathrm{est}})&=&E[θ_{\mathrm{est}}]-θ_{\mathrm{true}} \end{array}
『偏りがある』場合
この値 \mathrm{Bias}(θ_{\mathrm{est}}) は 0 になりません。
話自体は単純ですね。
「予想 θ_{\mathrm{est}} 」の期待値が母数と異なるなら
\begin{array}{llllll} \displaystyle θ_{\mathrm{est}}&=&θ_{\mathrm{true}}±α \end{array}
予想に使われた「この値 θ_{\mathrm{est}} の中身」には
例えば「平均」であれば
\begin{array}{llllll} \displaystyle E[x_1]&=&μ±ε \end{array}
\begin{array}{llllll} \displaystyle E[\overline{x}]&=&\displaystyle E\left[ \frac{x_1+x_2+x_3+\cdots+x_n}{n} \right] \\ \\ &=&\displaystyle \frac{1}{n}E\left[ \textcolor{pink}{x_1}+x_2+x_3+\cdots+x_n \right] \\ \\ \\ &=&\displaystyle \frac{1}{n}\left(\textcolor{pink}{μ±ε} +μ+μ+\cdots+μ \right) \\ \\ &≠&μ\end{array}
母集団とは『大きく異なる集まり x_1 』が含まれる。
つまり「偏ったサンプルである」ということになります。
まあ感覚的にはそのままですね。
これは「平均 μ と大きく離れた値」が
『 x_1 に多く集まる』ことによって
\begin{array}{llllll} \displaystyle E[x_1]&≠&μ \end{array}
「母数」とは異なる予想に繋がる。
『偏り』の定義として
これはそう感覚とズレてはいないと思います。
一致性 Consistency
|| 正しさに近いだろうっていう感じ
「データが増えれば予想の精度が上がる」感じ。
\begin{array}{llllll} \displaystyle ∀ε>0&\Bigl( \displaystyle\lim_{n \to \infty}P\Bigl( |θ_{\mathrm{est}}(n)-θ_{\mathrm{true}}|>ε \Bigr)&=&0 \Bigr) \end{array}
これはわりと直感的な話ですね。
「サンプル数を増やす」と『母数に近い値が出る』
\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \end{array}
いわゆる「大数の法則」です。
『一致性』というのは
この当たり前の感覚を表現する概念になります。
有効性 Efficiency
|| 推測の精度が高い感じ
「推測の誤差がほとんどない」感じ。
\begin{array}{llllll} \displaystyle E\Bigl[ (θ_{\mathrm{est}}-θ_{\mathrm{true}})^2 \Bigr] \end{array}
これは「推定量」と「母数」の
『分散が小さい』という形で定義されています
これは「サンプリングの結果」を評価する基準
とまあそういう風に言えるもので
\begin{array}{llllll} \displaystyle (θ_{\mathrm{est}}-θ_{\mathrm{true}})^2 \end{array}
優れたやり方であれば『推測の誤差は小さくなる』
ダメであれば『推測の誤差は大きくなる』
これもまた当たり前に思える話になります。
『分散』『バイアス』の「最小」を割り出すので
計算はけっこう複雑です。
頑健性 Robustness
|| 周りに左右されない感じ
『影響を受けにくい性質』のこと。
\begin{array}{llllll} \displaystyle \mathrm{Max}(X) &\mathrm{Min}(X) \\ \\ \mathrm{Median}(X) &\mathrm{Quantile}_4(X)\\ \\ \mathrm{Mode}(X) \end{array}
「最大値 \mathrm{Max} 」「最小値 \mathrm{Min} 」
「中央値 \mathrm{Median} 」「分位数 \mathrm{Quantile} 」
「最頻値 \mathrm{Mode} 」辺りが持つ性質です。
これは『分布』の影響を強く受けることになる
「平均」なんかと区別する考え方で
例えば「年収」の統計を取った時
\begin{array}{llllll} \displaystyle \mathrm{Mean}(X)&=&\displaystyle\frac{200+300+250+\cdots+10^5+10^7+\cdots}{n}10^4 \end{array}
「平均」は『大きな値の影響を強く受ける』ことから
本当に得たい結果とはズレたものを導くことがあります。
ここでの「平均」に
『中間層の収入』を「意味する」
そういう「役割」を求めているのなら
\begin{array}{llllll} \displaystyle \mathrm{Mean}(X)&=&552\times 10^4 \\ \\ \mathrm{Median}(X)&=&437\times 10^4 \end{array}
「平均」ではこの役割を
十全には担えていないですよね。
ここで出てくるのが「中央値」なんかで
これは『分布の形』に影響を受けませんから
必ず役割通りの結果を返してきます。
これが「頑健性がある」という感覚で
『例外』の影響が強い場合なんかでは
特に意識しなければならないものになります。
同様に「最頻値」や「最大・最小」もまた
どのような分布であろうと
「役割」「意味」が薄まることはありません。
以上、ざっとまとめると
「不偏性」は『期待値と母数の誤差がほぼ無い』感じ
「一致性」は『推定量が母数に近づいていく』感じ
「有効性」は『推定量の誤差が小さければ良い』感じ
「頑健性」は『値の持つ意味が一定である』感じです。
『サンプル集め』において
「不偏性」「一致性」「有効性」が保証される場合
その推定量は母数に限りなく近い値を導きます。
不偏推定量 Unbiased Estimate
|| 偏りから考えられる推測
『偏り』から定義される推定量の一種。
\begin{array}{llllll} \displaystyle E[θ_{\mathrm{est}}]&=&θ_{\mathrm{true}} \end{array}
ただの『期待値の計算』です。
↑ は「偏りが無い」ことを表します。
標本平均と平均の不偏推定量
「無作為抽出」された「標本」から
「平均 E[X]=μ の不偏推定量」を考えてみます。
\begin{array}{llllll} \displaystyle E[\overline{X}]&=&\displaystyle E\left[\frac{X_1+X_2+...+X_n}{n}\right] \\ \\ \\ &=&\displaystyle E\left[\frac{μ+μ+...+μ}{n}\right] \\ \\ &=& μ \end{array}
『偏りがほとんど無い』場合
「標本平均 \overline{X} 」はこうで
この期待値 E[\overline{X}] はこのように表現でき
\begin{array}{llllll} E[\overline{X}]&=&μ \end{array}
この値は『限りなく母平均 μ に近づく』ことから
このようになる、と言えます。
E[\overline{X}]
この時の「関数 E[\overline{X}] 」が
「平均 μ 」の「不偏推定量」です。
不偏分散
『標本平均』と「平均の不偏推定量」は一致しますが
「不偏分散」は「標本分散」とは一致しません。
\begin{array}{llllll} \displaystyle s^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}\Bigl( x_i-\overline{x} \Bigr)^2 \\ \\ σ^{2}_{\mathrm{est}}&=&\displaystyle\frac{1}{n-1}\sum_{i=1}^{n}\Bigl( x_i-\overline{x} \Bigr)^2 \end{array}
これは「不偏分散」の定義による仕様で
「標本分散」と「母分散」は一致しないため
\begin{array}{llllll} \displaystyle E[σ^{2}_{\mathrm{est}}]&=&σ^2 \end{array}
調整の過程で必然的にそのようになります。
計算してみましょうか。
\begin{array}{llllll} \displaystyle \displaystyle E[s^2]&=&\displaystyle E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\right] \\ \\ &=&\displaystyle \frac{1}{n} E \left[\sum_{i=1}^{n}(x_i-\overline{x})^2\right] \end{array}
ごちゃついてるんで
期待値 E の変数にだけ着目してみます。
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}(x_i-\overline{x})^2 \end{array}
ただこれを見てわかると思いますが
このままだと「母分散 σ^2 」が式に登場しません。
\begin{array}{llllll}\displaystyle \sum_{i=1}^{n}(x_i-\overline{x})^2&=& \displaystyle\sum_{i=1}^{n}\Bigl( x_i-\overline{x}+(μ-μ) \Bigr)^2 \\ \\ &=&\displaystyle\sum_{i=1}^{n}\Bigl( (x_i-μ)-(\overline{x}-μ) \Bigr)^2 \end{array}
なので計算の中に「母平均 μ 」を
良い感じに入れる必要があります。
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}\Bigl( x_i-\overline{x} \Bigr)^2&=&\displaystyle\sum_{i=1}^{n}\Bigl( (x_i-μ)-(\overline{x}-μ) \Bigr)^2 \\ \\ &=&\displaystyle \sum_{i=1}^{n}\Bigl( (x_i-μ)^2-2(x_i-μ)(\overline{x}-μ)+(\overline{x}-μ)^2 \Bigr) \\ \\ &=&\displaystyle \sum_{i=1}^{n}(x_i-μ)^2-2\sum_{i=1}^{n}(x_i-μ)(\overline{x}-μ)+\sum_{i=1}^{n}(\overline{x}-μ)^2 \end{array}
次、総和・期待値の定義から
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n} 1&=&\displaystyle \overbrace{1+1+1+1\cdots+1+1}^n\\ \\ &=& n \end{array}
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}\Bigl(x_i\Bigr)-nμ&=&\displaystyle n\left( \frac{1}{n}\sum_{i=1}^{n}\Bigl(x_i\Bigr) \right)-nμ \\ \\ &=&n(\overline{x}-μ) \end{array}
こうなるので
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}\Bigl( x_i-\overline{x} \Bigr)^2&=&\displaystyle\sum_{i=1}^{n}(x_i-μ)^2-2n(\overline{x}-μ)(\overline{x}-μ)+\sum_{i=1}^{n}(\overline{x}-μ)^2 \\ \\ &=&\displaystyle\sum_{i=1}^{n}(x_i-μ)^2-2n(\overline{x}-μ)^2+n(\overline{x}-μ)^2 \\ \\ &=&\displaystyle\sum_{i=1}^{n}(x_i-μ)^2-n(\overline{x}-μ)^2 \end{array}
こうなりますから
これでやっと期待値を計算できるように。
というわけで本題に戻ると
\begin{array}{llllll} \displaystyle E[X+Y]&=&E[X]+E[Y] \end{array}
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}i&=&1+2+3+4+\cdots+n \end{array}
\begin{array}{llllll} \displaystyle \displaystyle E[s^2]&=&\displaystyle\frac{1}{n}E\left[\sum_{i=1}^{n}(x_i-μ)^2-n(\overline{x}-μ)^2\right] \\ \\ &=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}E\left[(x_i-μ)^2\right]-n\cdot\frac{1}{n}E\left[(\overline{x}-μ)^2\right] \\ \\ &=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}E\left[(x_i-μ)^2\right]-E\left[(\overline{x}-μ)^2\right]\end{array}
まあこうなるので
ここまでくれば後は仕上げだけ。
『分散の定義』と「標本平均の分散」から
\begin{array}{llllll} \displaystyle E[s^2] &=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}E\left[(x_i-μ)^2\right]-E\left[(\overline{x}-μ)^2\right] \\ \\ &=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}V\left[x_i\right]-V\left[\overline{x}\right] \\ \\ &=&\displaystyle\frac{1}{n}\cdot nσ^2-\frac{σ^2}{n} \\ \\ &=&\displaystyle \frac{n-1}{n}σ^2 \end{array}
「標本分散の期待値」が得られます。
見たまんま
この「標本分散の期待値」は
「母分散」の値とはズレていますね。
\begin{array}{rlllll} \displaystyle E[s^2]&=&\displaystyle\frac{n-1}{n}σ^2 \\ \\ \displaystyle\frac{n}{n-1}E[s^2]&=&σ^2 \\ \\ \displaystyle E\left[\frac{n}{n-1}s^2\right]&=&σ^2 \end{array}
最後、これでやっと「不偏分散」が求められます。
\begin{array}{llllll} \displaystyle \displaystyle σ^2_{\mathrm{est}}&=&\displaystyle\frac{n}{n-1}s^2 \\ \\ &=&\displaystyle \frac{n}{n-1}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\end{array}
\begin{array}{llllll} \displaystyle σ^2_{\mathrm{est}}&=&\displaystyle\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2 \end{array}
計算はややこしいですが
結論はわりとシンプルです。
一致推定量 Consistent Estimate
|| 一致していく感じからの推測
「サンプル数を増やすと母数に近づく」感じ。
\begin{array}{llllll} \displaystyle \overline{X_n}&=&\displaystyle\frac{x_1+x_2+...+x_n}{n} \end{array}
\begin{array}{llllll} \displaystyle \lim_{n\to\infty}\displaystyle\frac{x_1+x_2+...+x_n}{n}&=&μ \end{array}
そのまんま『大数の法則』から得られた結論で
\begin{array}{llllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \end{array}
「確率収束」するとすれば
『標本平均』が「母平均」に近づくことは
わりと直感的にすぐ分かると思います。
標本分散の一致推定量
『標本分散』については
式変形すれば一致していくことがすぐに分かります。
\begin{array}{llllll} \displaystyle \displaystyle s^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2 \\ \\ &=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}\Bigl( (x_i-μ)-(\overline{x}-μ) \Bigr)^2\end{array}
これが分かっていれば
\begin{array}{llllll} \displaystyle s^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}\Bigl( (x_i-μ)-(\overline{x}-μ) \Bigr)^2 \end{array}
\begin{array}{llllll} \displaystyle \lim_{n\to\infty} \overline{x}&=&μ \end{array}
\begin{array}{llllll} \displaystyle \lim_{n\to\infty} \left( \frac{1}{n}\sum_{i=1}^{n} \Bigl( (x_i-μ)-(\overline{x}-μ) \Bigr)^2 \right) &=& σ^2 \end{array}
この感覚は割とすぐに分かるでしょう。
よく見る分散の式の確認
期待値計算のよく見る形を確認しておきます。
\begin{array}{llllll} \displaystyle V[X]&=&E\left[ (X-μ)^2 \right] \\ \\ &=&E[X^2]-E[X]^2 \\ \\ \\ E[x_i-μ]&=&E[x_i]-μ \\ \\ &=&\overline{x}-μ \end{array}
分散 V[X] の式変形については
E[X]=μ であることから
\begin{array}{llllll} \displaystyle V[X]&=&E[(X-μ)^2] \\ \\ &=&E[X^2-2Xμ+μ^2] \\ \\ &=&E[X^2]-2μE[X]+μ^2 \\ \\ \\ &=&E[X^2]-2E[X]E[X]+E[X]^2 \\ \\ &=&E[X^2]-2E[X]^2+E[X]^2 \\ \\ &=& E[X^2]-E[X]^2 \end{array}
まあこんな感じに。
この形はそこそこ見るので覚えておきましょう。
有効推定量 Efficiency Estimate
|| 誤差が小さいこと
「誤差が最小になる推定量」のこと。
\begin{array}{llllll} \displaystyle E\Bigl[(θ_{\mathrm{est}}-θ_{\mathrm{true}})^2\Bigr] \end{array}
計算では『バイアス-バリアンス分解』
なんて名前がついてる手順を使って算出します。
二乗誤差のバイアス-バリアンス分解
入力するデータ X=\{x_1,x_2,x_3,...,x_n\}
このデータから得られる出力 y=f(x)+ε
\begin{array}{llllll} \displaystyle y&=&f(x)+ε \\ \\ y_i&=&f(x_i)+ε \end{array}
ε を「平均 0 」「分散 σ^2 」
こういうデータ分布の『ノイズ』であるとすると
(分散が 0 であればズレが無いのでノイズは無い)
\begin{array}{llllll} \displaystyle \mathrm{Bias}\left( \hat{f}(x) \right)&=&E\Bigl[ \hat{f}(x)\Bigr]-f(x) \\ \\ \mathrm{Var}\left( \hat{f}(x) \right)&=&\displaystyle E\left[ \Bigl(\hat{f}(x)-E\left( \hat{f}(x) \right) \Bigr)^2 \right] \\ \\ \mathrm{Noise}&=&σ^2 \end{array}
この「出力 f(x) 」を推測したい場合
この f(x) に「限りなく近い関数 \hat{f}(x) 」を考えると
\begin{array}{llllll} E\left[ \Bigl( \hat{f}(x)-y \Bigr)^2 \right]&=&\displaystyle \mathrm{Noise}+\Bigl(\mathrm{Bias}\left(\hat{f}(x)\right)\Bigr)^2+\mathrm{Var}\left(\hat{f}(x)\right) \end{array}
「有効推定量」を計算するための関数は
このような形で表現されます。
ノイズはまず消せませんが
「不偏推定量」である場合
\begin{array}{llllll} E\left[ \Bigl( \hat{f}(x)-y \Bigr)^2 \right]&=&\displaystyle \mathrm{Noise}+\mathrm{Var}\left(\hat{f}(x)\right) \end{array}
「偏り \mathrm{Bias} 」の部分を消すことができます。
式の導出
ごちゃごちゃしていて割と面倒なので
いくつかのパーツに分けて計算していきます。
\begin{array}{llllll} &&\displaystyle E\left[ \Bigl( \hat{f}(x)-y \Bigr)^2 \right] \\ \\ &=&\displaystyle E\left[ \Bigl( \hat{f}(x)-\left( f(x)+ε \right) \Bigr)^2 \right] \\ \\ &=&\displaystyle E\left[ \Bigl( \hat{f}(x)-\left( f(x)+ε \right)+\left( E\left[ \hat{f}(x) \right]-E\left[ \hat{f}(x) \right] \right) \Bigr)^2 \right] \end{array}
まずは最終着地から
「分散」「偏り」で分けてみたい
そんな発想からこのようにしてみて。
\begin{array}{llllll} \displaystyle y-f(x)&=&ε \end{array}
「誤差 ε 」の定義
『平均 0 を基準に求められている』ことから
『全データ分を合計すると打ち消されてしまう』ので
\begin{array}{llllll} \displaystyle E[ε]&=&0 \end{array}
そして『求めたい関数 f(x) 』
これの期待値 E[f(x)]=f(x) は当然こうですから
\begin{array}{llllll} \displaystyle E[y]&=&\displaystyle E\left[ f(x)+ε \right] \\ \\ &=&\displaystyle E\left[f(x) \right] +E[ε] \\ \\ &=&\displaystyle E\left[f(x) \right] \\ \\ &=&f(x) \\ \\ \\ \mathrm{Var}[y]&=&\displaystyle E\left[ (y-E[y])^2 \right] \\ \\ &=&\displaystyle E\left[ \left(y-f(x) \right)^2 \right] \\ \\ &=&\displaystyle E\left[ \left(f(x)+ε-f(x)\right)^2 \right] \\ \\ &=&\displaystyle E\left[ ε^2 \right] \end{array}
\begin{array}{llllll} \displaystyle \mathrm{Var}[ x ]&=&E\Bigl[ (x-μ)^2 \Bigr] \\ \\ &=&E\Bigl[ x^2-2μx+μ^2 \Bigr] \\ \\ &=&\displaystyle E[x^2]-2μE[x]+μ^2 \\ \\ \\ &=&\displaystyle E[x^2]-2μμ+μ^2 \\ \\ &=&\displaystyle E[x^2]-μ^2 \\ \\ &=&\displaystyle E[x^2]-\Bigl( E[x] \Bigr)^2 \end{array}
\begin{array}{llllll} \displaystyle E[ε^2]&=&\displaystyle \mathrm{Var}[ ε ]+\Bigl( E[ε] \Bigr)^2 \\ \\ &=&\displaystyle \mathrm{Var}[ ε ] \\ \\ &=&\displaystyle σ^2 \end{array}
「誤差」「分散」の定義から
消したり省略したり置き換えたり
計算で楽ができそうな部分が分かります。
\displaystyle E\left[ \Bigl( \hat{f}(x)-\left( f(x)+ε \right)+\left( E\left[ \hat{f}(x) \right]-E\left[ \hat{f}(x) \right] \right) \Bigr)^2 \right]
ただこれ、すごい面倒です。
このままやるとすごく大変なので
どうにか式全体を簡単にしたいところですが。
\begin{array}{llllll} \displaystyle \mathrm{Bias}\left( \hat{f}(x) \right)&=&E\Bigl[ \hat{f}(x)\Bigr]-f(x) \\ \\ \mathrm{Var}\left( \hat{f}(x) \right)&=&\displaystyle E\left[ \Bigl(\hat{f}(x)-E\left( \hat{f}(x) \right) \Bigr)^2 \right] \\ \\ \mathrm{Noise}&=&σ^2 \end{array}
一応、指標はあって
\begin{array}{llllll} &&\displaystyle \Bigl( \hat{f}(x)-\left( f(x)+ε \right)+\left( E\left[ \hat{f}(x) \right]-E\left[ \hat{f}(x) \right] \right) \Bigr)^2 \\ \\ &=&\displaystyle \Bigl( \hat{f}(x)-E\left[ \hat{f}(x) \right]+E\left[ \hat{f}(x) \right]- f(x)-ε \Bigr)^2 \end{array}
それで整理したいんですけど、
それでも項が多くてだいぶ複雑ですね。
\begin{array}{llllll} \displaystyle A&=&\displaystyle\hat{f}(x)-E\left[ \hat{f}(x)\right] \\ \\ B&=&\displaystyle E\left[ \hat{f}(x) \right]- f(x) \end{array}
\begin{array}{llllll} \displaystyle \displaystyle \Bigl( A+B-ε \Bigr)^2 &=&A\Bigl( A+B-ε \Bigr) \\ \\ &&+B\Bigl( A+B-ε \Bigr) \\ \\ &&-ε\Bigl( A+B-ε \Bigr) \\ \\ \\ &=& A^2+AB-Aε \\ \\ &&+BA+B^2-Bε \\ \\ &&-εA-εB+ε^2 \\ \\ \\ &=&A^2+B^2+ε^2 \\ \\ &&+2AB-2ε(A+B) \end{array}
まあそんなわけなので
とりあえず記述を簡略化してみます。
\begin{array}{llllll} \displaystyle \displaystyle \Bigl( A+B-ε \Bigr)^2 &=&A^2+B^2+ε^2 \\ \\ &&+2AB-2ε(A+B) \end{array}
するとちょっとだけ見やすくなりましたが
これだけだとまだ大変です。
なのでとりあえず分かるところから
\begin{array}{llllll} \displaystyle E[ε]&=&0 \end{array}
\begin{array}{llllll} \displaystyle A&=&\displaystyle\hat{f}(x)-E\left[ \hat{f}(x)\right] \\ \\ B&=&\displaystyle E\left[ \hat{f}(x) \right]- f(x) \end{array}
\begin{array}{llllll} \displaystyle A+B&=&\hat{f}(x) - f(x)\end{array}
「予測 \hat{f}(x) と実際 f(x) の差」と
「 f(x) のデータのズレ ε 」は無相関なので
\begin{array}{llllll} \displaystyle E[-2ε(A+B)] &=&-2E[ε(A+B)] \\ \\ &=&-2E[ε]E[A+B] \\ \\ &=&0 \end{array}
まずこの部分を削り
\begin{array}{llllll} \displaystyle A&=&\displaystyle\hat{f}(x)-E\left[ \hat{f}(x)\right] \end{array}
次いで AB に関して
バイアス B の式変形から
\begin{array}{llllll} \displaystyle E[θ]&=&θ \\ \\ E\left[E[θ] \right]&=&E[θ] \end{array}
\begin{array}{llllll} \displaystyle B&=&\displaystyle E\left[ \hat{f}(x) \right]- f(x) \\ \\ &=&\displaystyle E\left[ \hat{f}(x) \right]- E\left[f(x)\right] \\ \\ \\ &=& \displaystyle E\left[ \hat{f}(x) - f(x)\right] \end{array}
\begin{array}{llllll} \displaystyle E[B]&=&\displaystyle E\left[ \displaystyle E\left[ \hat{f}(x) - f(x)\right]\right] \\ \\ &=&\displaystyle E\left[ \hat{f}(x) - f(x)\right] \\ \\ &=&B \end{array}
こうなることと
\begin{array}{llllll} \displaystyle A&=&\displaystyle\hat{f}(x)-E\left[ \hat{f}(x)\right] \\ \\ B&=&\displaystyle E\left[ \hat{f}(x) \right]- f(x) \end{array}
「 f(x) と比較してのバイアス」と
「 \hat{f}(x) のデータごとのズレ」の間
つまり A と B の間には相関が無いこと
\begin{array}{llllll} \displaystyle E[AB]&=&E[A]E[B] \end{array}
\begin{array}{llllll} \displaystyle &&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( (x_1-μ)+(x_2-μ)+\cdots+(x_n-μ) \Bigr) \\ \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n -nμ\Bigr) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n \Bigr)-\displaystyle\frac{1}{n}\Bigl(nμ\Bigr) \\ \\ &=&μ-μ \end{array}
そして「平均からのズレの期待値」
2乗にしない分散のような値は 0 になることから
\begin{array}{llllll} \displaystyle E[A]&=&\displaystyle E\left[ \hat{f}(x)-E\left[ \hat{f}(x)\right] \right] \\ \\ &=&0 \end{array}
この部分も消すことができてしまいます。
\begin{array}{llllll} \displaystyle A^2+B^2+ε^2 \end{array}
するとこの部分が残って
後は A^2+B^2 を整理すればいいので
\begin{array}{llllll} \displaystyle A&=&\displaystyle\hat{f}(x)-E\left[ \hat{f}(x)\right] \\ \\ B&=&\displaystyle E\left[ \hat{f}(x) \right]- f(x) \end{array}
この「バイアスの期待値」は
\begin{array}{llllll} \displaystyle E[B^2]&=&E[B]E[B] \\ \\ &=&BB \\ \\ &=&\displaystyle\left(\mathrm{Bias}(\hat{f}(x))\right)^2 \end{array}
このようになるため
\begin{array}{llllll} \displaystyle \mathrm{Bias}\left( \hat{f}(x) \right)&=&E\Bigl[ \hat{f}(x)\Bigr]-f(x) \\ \\ \mathrm{Var}\left( \hat{f}(x) \right)&=&\displaystyle E\left[ \Bigl(\hat{f}(x)-E\left( \hat{f}(x) \right) \Bigr)^2 \right] \\ \\ \mathrm{Noise}&=&σ^2 \end{array}
この形を参考に整理すると
\begin{array}{llllll} \displaystyle E[A^2]&=&\displaystyle \mathrm{Var}\left(\hat{f}(x)\right) \\ \\ E[B^2]&=&\Bigl(\mathrm{Bias}\left(\hat{f}(x)\right)\Bigr)^2 \\ \\ E[ε^2]&=&\mathrm{Noise} \end{array}
このように書けることから
\begin{array}{llllll} E\left[ \Bigl( \hat{f}(x)-y \Bigr)^2 \right]&=&\displaystyle \mathrm{Noise}+\Bigl(\mathrm{Bias}\left(\hat{f}(x)\right)\Bigr)^2+\mathrm{Var}\left(\hat{f}(x)\right) \end{array}
気付けば、良い感じの結論に
こうして辿り着くことができます。