|| その集まりの特徴
『分布の特徴』を表す数値のこと。
スポンサーリンク
まあ要は「平均」とか「分散」のことですね。
『データの数が有限』でない限り
「直接求める」ことができない値になります。
目次
期待値「データの真ん中あたりのやつ(重心)」
分散「データのばらつき具合」
この「母数」という単語は
『母集団(データの抽出元)』の特徴を表す値で
『標本(サンプルデータ)』の特徴を表す
「統計量」とは別のものになります。
まあ要は『真の値』が「母数」で
『推測される値』が「統計量」って感じです。
だいたい「期待値」「分散」がメインで
母数である場合は「母平均」「母分散」
なんて呼ばれ方をされることがあります。
期待値 Expected Value
|| 平均の一般化・データの重心
『データの平均的な値 μ,E[X] 』のこと。
\begin{array}{llllll} \displaystyle \displaystyle E[X]&:=&\displaystyle\sum_{i=1}^{n}p_ix_i \\ \\ &=&p_1x_1+p_2x_2+…+p_nx_n \end{array}
記号はそれぞれ
『確率変数(データの値) X=\{x_1,x_2,...,x_n\} 』
『確率(データが占める比率) p_i 』を表しています。
\begin{array}{llllll} \displaystyle \displaystyle \frac{1}{2}*4+\frac{1}{2}*5&=&\displaystyle\frac{9}{2} \\ \\ &=&4.5 \end{array}
意味は見たまま
『データの真ん中の値』ですね。
\begin{array}{llllll} \displaystyle \displaystyle E[X]&:=&\displaystyle\sum_{i=1}^{n}\frac{1}{n}x_i \\ \\ &=&\displaystyle\frac{1}{n}x_1+\frac{1}{n}x_2+\cdots+\frac{1}{n}x_n \\ \\ &=&\displaystyle\frac{1}{n}(x_1+x_2+\cdots+x_n) \end{array}
見慣れた形だと
「データの出現確率」が「均一」である場合
これは「平均」を表すことになります。
ちなみに「データが連続値」である場合は
\begin{array}{clllll} \displaystyle E[X]&:=&\displaystyle\int_{0}^{\infty}xf(x)\,dx \\ \\ 1&=&\displaystyle \int_{0}^{\infty}f(x)\,dx \end{array}
f を「確率密度関数」とすると
期待値はこのように定義されています。
分散 Variance
|| 真ん中からどれくらい離れてるか
データの『ばらけ具合 V[X],\mathrm{Var}[X],σ^2 』のこと。
\begin{array}{llllll} \displaystyle V[X]&:=&E[(X-μ_X)^2] \\ \\ &=&\displaystyle\sum_{i=1}^{n}p_i(x_i-μ_X)^2 \end{array}
これが「大きい」場合、データは平均から大きくずれています。
これが「小さい」場合、データは平均の周辺に集まっています。
\begin{array}{llllll} \displaystyle σ&=&\sqrt{V[X]} \end{array}
ちなみに「標準偏差 σ 」はこう定義されていて
\begin{array}{llllll} \displaystyle σ&=&\sqrt{σ^2} \end{array}
これに合わせるために
分散は「 σ^2 」と表現されることがあります。
当たり前の疑問
「データのばらつき」を表したいのなら
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}(x_i-μ_X)p_i &=&(x_1-μ_X)p_1+(x_2-μ_X)p_2+\cdots+(x_n-μ_X)p_n \\ \\ \\ \displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-μ_X) &=&\displaystyle\frac{1}{n}\Bigl((x_1-μ_X)+(x_2-μ_X)+\cdots+(x_n-μ_X)\Bigr) \end{array}
これでもいいんじゃ?とは思いませんでしたか。
いやだって
わざわざ2乗するなんて計算するのが手間ですし
できればしない方がいいじゃないですか。
\begin{array}{llllll} \displaystyle V[X]&:=&E[(X-μ_X)^2] \end{array}
でもなぜか「分散」は『2乗平均』で定義されていて
それが主流になっています。不思議。
2乗にすべき理由
実は2乗しない場合、ある問題が発生します。
\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{4}(0+0+10000-10000) \\ \\ &=&0 \\ \\ \\ σ^2&=&\displaystyle\frac{1}{4}\Bigl( (0-μ)+(0-μ)+(10000-μ)+(-10000+μ) \Bigr) \\ \\ &=&0 \end{array}
極端な例ですが、例えばこういうデータがあった時
\begin{array}{llllll} \displaystyle μ+10000 \\ \\ μ-10000 \end{array}
2乗しないと
「明らかなばらつき」があるにもかかわらず
『ばらつきは無い』となってしまいます。
\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( (x_1-μ)+(x_2-μ)+\cdots+(x_n-μ) \Bigr) \\ \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n -nμ\Bigr) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n \Bigr)-\displaystyle\frac{1}{n}\Bigl(nμ\Bigr) \\ \\ &=&μ-μ \end{array}
なにより、これの計算結果は必ず 0 です。
どれだけばらつきがあったとしても
これはそのばらつきを表す指標にはなりません。
そう、仮に2乗しない場合
「平均との差」をとってしまう関係上、値は必ず 0
(x_i-μ)^2
「ばらつき具合」の指標とするためには
『値が相殺されない』ような工夫
つまり「2乗」しなければなりません。
\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}
これが2乗している理由で
このおかげで的確にばらけ具合を表現できます。