独立同分布である i.i.d. IID


|| 同じ分布のデータは互いに不干渉だよ

「確率変数を別々に扱えるよ」という『仮定』のこと。

スポンサーリンク

 

 

言い換えるなら

『確率を感覚的に使うための仮定』のことで

これが仮定されていると非常に計算がしやすくなります。

 

 

 

 

 

具体的な感じ

 

よく例に出される「サイコロ」で考えるなら

 

\begin{array}{cccccccccccc} \displaystyle X&&1&2&3&4&5&6 \\ \\ P(X)&&\displaystyle \frac{1}{6} &\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6} \end{array}

 

それぞれの「確率変数 X 」の『確率』は

他の確率変数に影響を与えない

 

\begin{array}{llllll} \displaystyle P(1)&=&\displaystyle \frac{1}{6}&&→&&P(3)&=&\displaystyle \frac{1}{6} \\ \\ \displaystyle P(3)&=&\displaystyle \frac{1}{6}&&→&&P(1)&=&\displaystyle \frac{1}{6} \end{array}

 

つまり『他がどうでも変わらない』

だから「試行回数」が増えたとしても

 

\begin{array}{llllll} \displaystyle P_2\left(\begin{array}{llllll} \displaystyle X_1&=&1 \\ \\ X_2&=&2 \end{array}\right)&=&P(X_1)P(X_2) \\ \\ &=&\displaystyle \frac{1}{6^2} \end{array}

 

例えば「 1 の後に 2 が出る確率」なんかは

このように簡単に計算ができて

これが正しい値になる。

 

 

当たり前のように思うかもしれませんが

これが「独立同分布」の感覚で

 

\begin{array}{llllll} \displaystyle P(A|B)&≠&P(A) \\ \\ P(B|A)&≠&P(B) \end{array}

 

実際には多くあるそうではないパターン

つまり『確率変数同士が独立ではない』パターンでは

 

\begin{array}{llllll} \displaystyle A∩B&=&∅ \end{array}

 

\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) &=& 0 \\ \\ &=&P(B|A)P(A) &=&0 \\ \\ \\ &&P(A|B) &=& 0 \\ \\ &&P(B|A) &=&0 \end{array}

 

「片方しか起こらない」場合とかだと

このように 0 になったりもして

簡単に計算することができなくなります。

 

 

 

 

 

独立 Independent

 

「確率変数(データ・事象)」について

『データとデータの間で影響が無い』感じのことを

「独立」であると言ったりします。

 

\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A)P(B) \end{array}

 

まあ要はこれがしたい感じですね。

事象 A と事象 B が起こる時

 

\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) \\ \\ &=&P(B|A)P(A) \\ \\ &=&P(A)P(B) \end{array}

 

互いが互いの確率に影響を与えない

これを「独立」というわけです。

 

\begin{array}{llllll} \displaystyle P(X_{\mathrm{after}}|X_{\mathrm{before}})&=&P(X_{\mathrm{after}}) \end{array}

 

厳密な定義は「条件付確率」で与えられていて

このようになる場合、独立であると言います。

 

 

 

 

 

独立ではない感じ

 

これは「トランプ」とか

そういうカード系の話が分かりやすいかもしれません。

 

\begin{array}{llllll} \displaystyle P(X_1)&=&\displaystyle\frac{1}{13\times 4} \end{array}

 

というのも

デッキに戻さずカードを2枚引く場合

狙った1枚を引く場合に1枚目はこうなりますが

 

\begin{array}{llllll} \displaystyle P(X_2|X_1)&=&\displaystyle\frac{1}{13\times 4-1} \end{array}

 

2枚目からの確率はこのようになります。

 

 

また「同じカードは引けない」ので

2枚目を引く時、例えば D_1 (ダイヤの1)を引いたなら

 

\begin{array}{llllll} \displaystyle P(D_1∩D_1)&=&P(D_1|D_1)P(D_1) &=&0 \\ \\ &&P(D_1|D_1) &=&0 \end{array}

 

存在しない2枚目のダイヤ1を引くことはできません。

 

 

これでなんとなく分かったと思いますが

この感覚が「独立ではない」という感覚になります。

 

 

 

比較すればわかると思いますが

「サイコロ」や「コイン」ではこのようにはなりません。

 

 

どの目も「前の目とは関係なく」一定の確率で出ますし

表が出た後も変わらず2分の1で表は出ますから。

 

 

ちなみにトランプも「1枚引くだけ」だったり

「1枚引く度にデッキに戻す」なら

サイコロやコインと同様になります。

 

 


 

 

同分布である Identically Distributed

 

「同じ分布(関数)に従う」感じのこと。

 

\begin{array}{llllll} \displaystyle P(X) \end{array}

 

要は『同じ関数の変数だ』って話で

「サイコロ」とか「コイン」の話ですね。

 

\begin{array}{llllll} \displaystyle ∀x∈I&\Bigl(\,P(x≥X_a)=P(x≥X_b)\,\Bigr) \end{array}

 

「2つの確率変数 X_a,X_b 」があったとして

これが「同分布である」というのは

形式的にはこんな感じ。

 

 

意味するところはそのままです。

「全ての xP(x≥X) が一致する」なら

X_aX_b は同じ関数の変数」

 

 

すごく当たり前ですが

「他の話」を持ち出すときとか

そういう場合に意識する必要があります。

 

 

ちなみにだいたい同分布です。

データは似たような環境でとられるので

これを意識することはあまりありません。

 

 

 

 

 

同分布じゃない感じ

 

「トランプ」の話でも良いですが

「コイン」と「サイコロ」でも良いですね。

 

\begin{array}{llllll} \displaystyle P_{\mathrm{coin}}(X_A)&=&\displaystyle \frac{1}{2} \\ \\ \displaystyle P_{\mathrm{dice}}(X_B)&=&\displaystyle \frac{1}{6} \end{array}

 

「コインで表が出る」

「サイコロで1が出る」

 

\begin{array}{llllll} \displaystyle A&=&\{表,裏\} \\ \\ B&=&\{1,2,3,4,5,6\} \end{array}

 

この「確率変数 X_A,X_B 」は

『別の確率分布(関数)の変数』です。

 

 

とまあ要はこういう話で、

これが「同分布ではない」という感覚になります。