母数 Parameter


|| その集まりの特徴

『分布の特徴』を表す数値のこと。

スポンサーリンク

 

まあ要は「平均」とか「分散」のことですね。

 

 

『データの数が有限』でない限り

「直接求める」ことができない値になります。

 

 

 


目次

 

期待値「データの真ん中あたりのやつ(重心)」

分散「データのばらつき具合」

 

 

 

 

 


 

この「母数」という単語は

『母集団(データの抽出元)』の特徴を表す値で

 

 

『標本(サンプルデータ)』の特徴を表す

「統計量」とは別のものになります。

 

 

 

まあ要は『真の値』が「母数」で

『推測される値』が「統計量」って感じです。

 

 

だいたい「期待値」「分散」がメインで

母数である場合は「母平均」「母分散」

なんて呼ばれ方をされることがあります。

 

 

 


 


期待値 Expected Value

 

|| 平均の一般化・データの重心

『データの平均的な値 μ,E[X] 』のこと。

 

\begin{array}{llllll} \displaystyle \displaystyle E[X]&:=&\displaystyle\sum_{i=1}^{n}p_ix_i \\ \\ &=&p_1x_1+p_2x_2+…+p_nx_n \end{array}

 

記号はそれぞれ

『確率変数(データの値) X=\{x_1,x_2,...,x_n\}

『確率(データが占める比率) p_i 』を表しています。

 

\begin{array}{llllll} \displaystyle \displaystyle \frac{1}{2}*4+\frac{1}{2}*5&=&\displaystyle\frac{9}{2} \\ \\ &=&4.5 \end{array}

 

意味は見たまま

『データの真ん中の値』ですね。

 

\begin{array}{llllll} \displaystyle \displaystyle E[X]&:=&\displaystyle\sum_{i=1}^{n}\frac{1}{n}x_i \\ \\ &=&\displaystyle\frac{1}{n}x_1+\frac{1}{n}x_2+\cdots+\frac{1}{n}x_n \\ \\ &=&\displaystyle\frac{1}{n}(x_1+x_2+\cdots+x_n) \end{array}

 

見慣れた形だと

「データの出現確率」が「均一」である場合

これは「平均」を表すことになります。

 

 

 

ちなみに「データが連続値」である場合は

 

\begin{array}{clllll} \displaystyle E[X]&:=&\displaystyle\int_{0}^{\infty}xf(x)\,dx \\ \\ 1&=&\displaystyle \int_{0}^{\infty}f(x)\,dx \end{array}

 

f を「確率密度関数」とすると

期待値はこのように定義されています。

 

 

 


 


分散 Variance

 

|| 真ん中からどれくらい離れてるか

データの『ばらけ具合 V[X],\mathrm{Var}[X],σ^2 』のこと。

 

\begin{array}{llllll} \displaystyle V[X]&:=&E[(X-μ_X)^2] \\ \\ &=&\displaystyle\sum_{i=1}^{n}p_i(x_i-μ_X)^2 \end{array}

 

これが「大きい」場合、データは平均から大きくずれています。

これが「小さい」場合、データは平均の周辺に集まっています。

 

\begin{array}{llllll} \displaystyle σ&=&\sqrt{V[X]} \end{array}

 

ちなみに「標準偏差 σ 」はこう定義されていて

 

\begin{array}{llllll} \displaystyle σ&=&\sqrt{σ^2} \end{array}

 

これに合わせるために

分散は「 σ^2 」と表現されることがあります。

 

 

 

 

 

当たり前の疑問

 

「データのばらつき」を表したいのなら

 

\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}(x_i-μ_X)p_i &=&(x_1-μ_X)p_1+(x_2-μ_X)p_2+\cdots+(x_n-μ_X)p_n \\ \\ \\ \displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-μ_X) &=&\displaystyle\frac{1}{n}\Bigl((x_1-μ_X)+(x_2-μ_X)+\cdots+(x_n-μ_X)\Bigr) \end{array}

 

これでもいいんじゃ?とは思いませんでしたか。

 

 

いやだって

わざわざ2乗するなんて計算するのが手間ですし

できればしない方がいいじゃないですか。

 

\begin{array}{llllll} \displaystyle V[X]&:=&E[(X-μ_X)^2] \end{array}

 

でもなぜか「分散」は『2乗平均』で定義されていて

それが主流になっています。不思議。

 

 

 

 

 

2乗にすべき理由

 

実は2乗しない場合、ある問題が発生します。

 

\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{4}(0+0+10000-10000) \\ \\ &=&0 \\ \\ \\ σ^2&=&\displaystyle\frac{1}{4}\Bigl( (0-μ)+(0-μ)+(10000-μ)+(-10000+μ) \Bigr) \\ \\ &=&0 \end{array}

 

極端な例ですが、例えばこういうデータがあった時

 

\begin{array}{llllll} \displaystyle μ+10000 \\ \\ μ-10000 \end{array}

 

2乗しないと

「明らかなばらつき」があるにもかかわらず

『ばらつきは無い』となってしまいます。

 

\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( (x_1-μ)+(x_2-μ)+\cdots+(x_n-μ) \Bigr) \\ \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n -nμ\Bigr) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n \Bigr)-\displaystyle\frac{1}{n}\Bigl(nμ\Bigr) \\ \\ &=&μ-μ \end{array}

 

なにより、これの計算結果は必ず 0 です。

どれだけばらつきがあったとしても

これはそのばらつきを表す指標にはなりません。

 

 

 

そう、仮に2乗しない場合

「平均との差」をとってしまう関係上、値は必ず 0

 

(x_i-μ)^2

 

「ばらつき具合」の指標とするためには

『値が相殺されない』ような工夫

つまり「2乗」しなければなりません。

 

\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}

 

これが2乗している理由で

このおかげで的確にばらけ具合を表現できます。