独立同分布であるとかいうただ普通を意味する専門用語について詳しくまとめてみた

|| 同じ分布のデータは互いに不干渉だよ

「確率変数を別々に扱えるよ」という『仮定』のこと。

言い換えるなら

『確率を感覚的に使うための仮定』のことで

これが仮定されていると非常に計算がしやすくなります。

具体的な感じ

よく例に出される「サイコロ」で考えるなら

$\begin{array}{cccccccccccc} \displaystyle X&&1&2&3&4&5&6 \\ \\ P(X)&&\displaystyle \frac{1}{6} &\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6} \end{array}$

それぞれの「確率変数 $X$ 」の『確率』は

他の確率変数に影響を与えない

$\begin{array}{llllll} \displaystyle P(1)&=&\displaystyle \frac{1}{6}&&→&&P(3)&=&\displaystyle \frac{1}{6} \\ \\ \displaystyle P(3)&=&\displaystyle \frac{1}{6}&&→&&P(1)&=&\displaystyle \frac{1}{6} \end{array}$

つまり『他がどうでも変わらない』

だから「試行回数」が増えたとしても

$\begin{array}{llllll} \displaystyle P_2\left(\begin{array}{llllll} \displaystyle X_1&=&1 \\ \\ X_2&=&2 \end{array}\right)&=&P(X_1)P(X_2) \\ \\ &=&\displaystyle \frac{1}{6^2} \end{array}$

例えば「 $1$ の後に $2$ が出る確率」なんかは

このように簡単に計算ができて

これが正しい値になる。

当たり前のように思うかもしれませんが

これが「独立同分布」の感覚で

$\begin{array}{llllll} \displaystyle P(A|B)&≠&P(A) \\ \\ P(B|A)&≠&P(B) \end{array}$

実際には多くあるそうではないパターン

つまり『確率変数同士が独立ではない』パターンでは

$\begin{array}{llllll} \displaystyle A∩B&=&∅ \end{array}$

$\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) &=& 0 \\ \\ &=&P(B|A)P(A) &=&0 \\ \\ \\ &&P(A|B) &=& 0 \\ \\ &&P(B|A) &=&0 \end{array}$

「片方しか起こらない」場合とかだと

このように $0$ になったりもして

簡単に計算することができなくなります。

独立 Independent

「確率変数（データ・事象）」について

『データとデータの間で影響が無い』感じのことを

「独立」であると言ったりします。

$\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A)P(B) \end{array}$

まあ要はこれがしたい感じですね。

事象 $A$ と事象 $B$ が起こる時

$\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) \\ \\ &=&P(B|A)P(A) \\ \\ &=&P(A)P(B) \end{array}$

互いが互いの確率に影響を与えない

これを「独立」というわけです。

$\begin{array}{llllll} \displaystyle P(X_{\mathrm{after}}|X_{\mathrm{before}})&=&P(X_{\mathrm{after}}) \end{array}$

厳密な定義は「条件付確率」で与えられていて

このようになる場合、独立であると言います。

独立ではない感じ

これは「トランプ」とか

そういうカード系の話が分かりやすいかもしれません。

$\begin{array}{llllll} \displaystyle P(X_1)&=&\displaystyle\frac{1}{13\times 4} \end{array}$

というのも

デッキに戻さずカードを2枚引く場合

狙った１枚を引く場合に１枚目はこうなりますが

$\begin{array}{llllll} \displaystyle P(X_2|X_1)&=&\displaystyle\frac{1}{13\times 4-1} \end{array}$

2枚目からの確率はこのようになります。

また「同じカードは引けない」ので

２枚目を引く時、例えば $D_1$ （ダイヤの１）を引いたなら

$\begin{array}{llllll} \displaystyle P(D_1∩D_1)&=&P(D_1|D_1)P(D_1) &=&0 \\ \\ &&P(D_1|D_1) &=&0 \end{array}$

存在しない２枚目のダイヤ１を引くことはできません。

これでなんとなく分かったと思いますが

この感覚が「独立ではない」という感覚になります。

比較すればわかると思いますが

「サイコロ」や「コイン」ではこのようにはなりません。

どの目も「前の目とは関係なく」一定の確率で出ますし

表が出た後も変わらず２分の１で表は出ますから。

ちなみにトランプも「１枚引くだけ」だったり

「1枚引く度にデッキに戻す」なら

サイコロやコインと同様になります。

同分布である Identically Distributed

「同じ分布（関数）に従う」感じのこと。

$\begin{array}{llllll} \displaystyle P(X) \end{array}$

要は『同じ関数の変数だ』って話で

「サイコロ」とか「コイン」の話ですね。

$\begin{array}{llllll} \displaystyle ∀x∈I&\Bigl(\,P(x≥X_a)=P(x≥X_b)\,\Bigr) \end{array}$

「２つの確率変数 $X_a,X_b$ 」があったとして

これが「同分布である」というのは

形式的にはこんな感じ。

意味するところはそのままです。

「全ての $x$ で $P(x≥X)$ が一致する」なら

「 $X_a$ と $X_b$ は同じ関数の変数」

すごく当たり前ですが

「他の話」を持ち出すときとか

そういう場合に意識する必要があります。

ちなみにだいたい同分布です。

データは似たような環境でとられるので

これを意識することはあまりありません。

同分布じゃない感じ

「トランプ」の話でも良いですが

「コイン」と「サイコロ」でも良いですね。

$\begin{array}{llllll} \displaystyle P_{\mathrm{coin}}(X_A)&=&\displaystyle \frac{1}{2} \\ \\ \displaystyle P_{\mathrm{dice}}(X_B)&=&\displaystyle \frac{1}{6} \end{array}$

「コインで表が出る」

「サイコロで１が出る」

$\begin{array}{llllll} \displaystyle A&=&\{表,裏\} \\ \\ B&=&\{1,2,3,4,5,6\} \end{array}$

この「確率変数 $X_A,X_B$ 」は

『別の確率分布（関数）の変数』です。

とまあ要はこういう話で、

これが「同分布ではない」という感覚になります。