|| データの特徴を表す値
『データの特徴を表す値を返す関数』のこと。
標本の平均・分散(関数)とか
スポンサーリンク
目次
要約統計量「特徴を表すやつ」
代表値「サンプルの真ん中にある感じの値」
平均「総和をサンプルの総数で割った値」
中央値「並べた時に真ん中にある値」
最頻値「サンプルの中で一番多い値」
散布度「データのばらつきを表す」
分散「データと平均の差の二乗和」
標準偏差「分散の平方根」
順序統計量「順序に関するやつ(中央値・最大値とか)」
十分統計量「母数にかなり近いやつ」
検定統計量「検定で使われる予想のこと」
『全体(母集団)』の「特徴(母数)」と
『一部(サンプル)』の「特徴(推定量)」
大まかに分けるとこの2つがあります。
用途によって名前が細分化されていて
正直、だいぶややこしいです。
\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}x_i \\ \\ σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}
「統計量」っていうと基本こういうのなので
そういうのをイメージしていればだいたい合ってますが。
要約統計量 Descriptive Statistics Value
|| データの特徴を表すもの
『基本的な統計量』のことで
そのまま「基本統計量」と呼ばれることもあります。
\begin{array}{llllll} \displaystyle 代表値&平均 \\ \\ &中央値 \\ \\ \\ 散布度 &分散 \\ \\ &標準偏差 \end{array}
『データの中心辺り』を表す「代表値」
『データのばらけ具合』を表す「散布度」
大きく分けるとこの2つが存在しています。
代表値 Representative Value
代表値と言えばだいたい「平均」ですが
他にも「中央値」「最頻値」などがあります。
\begin{array}{llllll} \displaystyle \mathrm{Mean}(X_n)&=&\displaystyle \frac{x_1+x_2+x_3+\cdots+x_{n-1}+x_n}{n} \\ \\ \mathrm{Median}(X_n) &=&\displaystyle \left\{\begin{array}{llllll} \displaystyle \frac{1}{2}\left( x_{\frac{n}{2}}+x_{\frac{n}{2}+1} \right)&&\mathrm{if}&n=2k \\ \\ x_{\frac{n-1}{2}+1}&&\mathrm{if}&n=2k-1 \end{array} \right. \\ \\ \mathrm{Mode}(X_n)&=&\mathrm{Count}(x_i=x_j)>\mathrm{Other} \end{array}
『中心』を表す値はだいたいこの辺りを使うので
他のものを使うことはほとんどありません。
\begin{array}{llllll} \mathrm{Mid}(X_n)&=& \displaystyle \frac{\mathrm{Min}(X_n)+\mathrm{Max}(X_n)}{2} \end{array}
『端』を表す「最大」「最小」
その2つから得られる「中点」
この辺りは使うこともありますが、そのくらいですね。
平均・期待値 Mean
これは「全体の真ん中あたり」を表す値で
『重心』の役割を持つ値になります。
\begin{array}{llllll} \displaystyle \displaystyle \mathrm{Mean}(X_n)&=&\displaystyle \frac{x_1+x_2+x_3+\cdots+x_{n-1}+x_n}{n} \end{array}
だいたいの場合
こういう感じの定義で紹介されてると思いますが
\begin{array}{rlllll} \displaystyle \mathrm{Mean}(X_n)&=&\mathrm{Exp}[X_n]\\ \\ &=&E[X_n] \\ \\ \\ μ&=&E[X_n] \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_i \\ \\ \\ 1&=&\displaystyle\sum_{i=1}^{n}p_i \end{array}
一般的にはこんな感じで
「重み p 」あるいは「確率 p 」で定義されています。
\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}x_ip_i&=&\displaystyle \sum_{i=1}^{n}x_i\frac{1}{n} \\ \\ &=&\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i \end{array}
これは「無作為抽出」である場合の話とか
『サンプルの出現確率が同じ』パターンの話で
\begin{array}{llllll} \displaystyle E[X]&=&\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i \end{array}
統計で使わないことは無いので
基本、これだと思っていてもそんな問題はないです。
\begin{array}{llllll} \displaystyle E[X]&=&\displaystyle\int xp(x) \,dx \end{array}
ただ「確率変数」が『連続値』の場合とか
\begin{array}{llllll} \displaystyle E[a]&=&a \\ \\ E[aX]&=&aE[X] \\ \\ \\ E[X+a]&=&E[X]+a \\ \\ E[X+Y]&=&E[X]+E[Y] \\ \\ \\ E[XY]&=&E[X]E[Y] \\ \\ &&\Bigl( p(x∩y)=p_x(x)p_y(y) \Bigr) \end{array}
式変形について厳密に扱う時とか
そういうところでは必要になるので覚えておきましょう。
\begin{array}{llllll} \displaystyle E[aX]&=&\displaystyle \sum_{i=1}^{n}ax_ip_i \\ \\ &=&\displaystyle a\sum_{i=1}^{n}x_ip_i \end{array}
\begin{array}{llllll} \displaystyle E[X+Y]&=&\displaystyle \sum_{i=1}^{n}\Bigl( x_ip_{x_i}+y_ip_{y_i} \Bigr) \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_{x_i}+\sum_{i=1}^{n}y_ip_{y_i} \end{array}
\begin{array}{llllll} \displaystyle p(x∩y)&=&p_x(x)p_y(y) \end{array}
\begin{array}{llllll} \displaystyle \displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_j&=&\displaystyle x_1\sum_{j=1}^{m}y_j+x_2\sum_{j=1}^{m}y_j+\cdots \end{array}
\begin{array}{llllll} \displaystyle E[XY]&=&\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_jp(x_i∩y_j) \\ \\ &=&\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_jp_{x_i}(x)p_{y_j}(y) \\ \\ \\ &=&\displaystyle \sum_{i=1}^{n}\left( x_ip_{x_i}(x)\sum_{j=1}^{m}y_jp_{y_j}(y) \right) \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_{x_i}(x) E[Y] \end{array}
それにこの辺り
統計では嫌というほど見るので
是非とも押さえておきたいところです。
散布度 Scatter
これは『データのばらけ具合』を表す値で
「分散 σ^2 」「標準偏差 σ 」
\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \\ \\ \displaystyle σ&=&\displaystyle\sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 } \end{array}
「正規分布(山みたいな形の分布)」の
曲がり具合を示す『歪度 \mathrm{skew} 』
尖り具合を示す『尖度 \mathrm{Kurtosis} 』なんてものもあります。
分散 Variance
『ばらつき具合』を表す値は
\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}
基本的にこの値が使われます。
\begin{array}{llllll} \displaystyle && \displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( (x_1-μ)+(x_2-μ)+\cdots+(x_n-μ) \Bigr) \\ \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n -nμ\Bigr) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n \Bigr)-\displaystyle\frac{1}{n}\Bigl(nμ\Bigr) \\ \\ &=&μ-μ \end{array}
2乗しなければこうなるので
『平均からの差』を集める場合
最低限、この形にしなければならないので。
モーメント母関数
この辺りの統計量の厳密な話を理解するには
「モーメント母関数 μ_m 」の知識が必要になります。
\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}x_i \\ \\ μ_m&=&\displaystyle\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^m \end{array}
特に「歪度」「尖度」なんかは
なんでこういう形なの?と思うでしょう。
\begin{array}{llllll} \displaystyle \mathrm{Mean}(X)&=&μ \\ \\ \mathrm{Variance}(X)&=&μ_2 \\ \\ \mathrm{Deviation}_{\mathrm{standard}}(X)&=&\displaystyle\sqrt{μ_2} \\ \\ \\ \mathrm{Skew}(X)&=&\displaystyle \frac{μ_3}{σ^3} \\ \\ \mathrm{Kurtosis}(X)&=&\displaystyle\frac{μ_4}{σ^4} \end{array}
解説したいところですが
ちょっと長くなるので詳細は別の記事で。
順序統計量 Order Statistic
|| 順序を基準に特徴を見る統計量
『順番という基準から見える特徴』を表す値のこと
\begin{array}{llllll} \displaystyle x_1&≤&x_2&≤&x_3&≤&\cdots&≤&x_n \end{array}
『順序関係 ≤ 』で並べられたもの
\begin{array}{llllll} \displaystyle \min(X)&=&x_1 \\ \\ \max(X)&=&x_n \end{array}
この「両端」になる『最大値』『最小値』とか
「真ん中」にある『中央値』とか
こういうのを順序統計量と言います。
\begin{array}{llllll} \displaystyle \mathrm{Range}(X)&=&x_n-x_1 \end{array}
「範囲 \mathrm{Range} 」なんかもこれで
当然「分位数」なんかもこれに当たります。
十分統計量 Sufficient Statistics
|| 推定の正しさがある程度保証されてる感じ
『だいたい正しいと言っていい統計量 T(X) 』のこと。
\begin{array}{llllll}&& \displaystyle P(X=x|T=t,θ_{\mathrm{true}}) \\ \\ &=&P(X=x|T=t) \end{array}
条件付確率でそのまま定義されていて
かなり分かりやすい形で定義されています。
\begin{array}{llllll} \displaystyle μ&=&E[X] \\ \\ \overline{x}&=&E[X_n] \end{array}
具体例としては
「平均(母数)」に対する「標本平均」のことで
\begin{array}{llllll} \displaystyle \overline{x}&=&\displaystyle \frac{x_1+x_2+\cdots+x_n}{n} \end{array}
これは母数の値とは関係なく得られる上に
『サンプル数が十分』であるなら
「推定値としてほぼ正しい」
このように言えますから
この時の「標本平均」は『十分統計量』と言えます。
検定統計量 Test Statistic
|| 仮説検定で得られるもの
『仮説の正しさを検証するための統計量』のこと。
\begin{array}{llllll} \displaystyle z&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{σ^2/n}} \\ \\ t&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{s^2/n}} \\ \\ \\ χ^2&=&\displaystyle\frac{(n-1)s^2}{σ^2} \end{array}
『仮説検定』を理解していないと
これはちょっとよく分かんないと思います。
仮説検定 Hypothesis Testing
|| こうじゃね?の正しさを数値で検証
「母数はこのくらいじゃね?」という『仮説』が
『どの程度正しいのか標本で検証する』こと。
\begin{array}{llclll} &&\mathrm{Test} \\ \\ \displaystyle \mathrm{Hypothesis}&&→&& \mathrm{True} \end{array}
「正規分布 N(μ,σ^2) 」について調べるもの
「 t 分布」について調べるもの
「 χ^2 分布」について調べるもの
\begin{array}{llllll} \displaystyle z&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{σ^2/n}} \\ \\ t&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{s^2/n}} \\ \\ \\ χ^2&=&\displaystyle\frac{(n-1)s^2}{σ^2} \end{array}
この辺りが有名で
\begin{array}{llllll} \displaystyle p(\overline{x})&≒&1 \end{array}
だいたい『サンプルが出る確率』を使って検証し
\begin{array}{llllll} \displaystyle 1-β \end{array}
「検出力 β 」という
『正しさの強度みたいな値』を定めることによって
「どの程度正しいと言えるのか」を測ります。
他にも「検出力」と似た「有意水準」や
『範囲を限定するために否定される』「帰無仮説」
『帰無仮説の否定によって肯定される』「対立仮説」
こういった用語があって
詳しくやるとかなり長くなるので別記事で扱います。