独立同分布である i.i.d. IID


|| 同じ分布のデータは互いに不干渉だよ

「確率変数を別々に扱えるよ」という『仮定』のこと。

スポンサーリンク

 

 

言い換えるなら

『確率を感覚的に使うための仮定』のことで

これが仮定されていると非常に計算がしやすくなります。

 

 

 

 

 

具体的な感じ

 

よく例に出される「サイコロ」で考えるなら

 

X123456P(X)161616161616\begin{array}{cccccccccccc} \displaystyle X&&1&2&3&4&5&6 \\ \\ P(X)&&\displaystyle \frac{1}{6} &\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6} \end{array}

 

それぞれの「確率変数 XX 」の『確率』は

他の確率変数に影響を与えない

 

P(1)=16P(3)=16P(3)=16P(1)=16\begin{array}{llllll} \displaystyle P(1)&=&\displaystyle \frac{1}{6}&&→&&P(3)&=&\displaystyle \frac{1}{6} \\ \\ \displaystyle P(3)&=&\displaystyle \frac{1}{6}&&→&&P(1)&=&\displaystyle \frac{1}{6} \end{array}

 

つまり『他がどうでも変わらない』

だから「試行回数」が増えたとしても

 

P2(X1=1X2=2)=P(X1)P(X2)=162\begin{array}{llllll} \displaystyle P_2\left(\begin{array}{llllll} \displaystyle X_1&=&1 \\ \\ X_2&=&2 \end{array}\right)&=&P(X_1)P(X_2) \\ \\ &=&\displaystyle \frac{1}{6^2} \end{array}

 

例えば「 11 の後に 22 が出る確率」なんかは

このように簡単に計算ができて

これが正しい値になる。

 

 

当たり前のように思うかもしれませんが

これが「独立同分布」の感覚で

 

P(AB)P(A)P(BA)P(B)\begin{array}{llllll} \displaystyle P(A|B)&≠&P(A) \\ \\ P(B|A)&≠&P(B) \end{array}

 

実際には多くあるそうではないパターン

つまり『確率変数同士が独立ではない』パターンでは

 

AB=\begin{array}{llllll} \displaystyle A∩B&=&∅ \end{array}

 

P(AB)=P(AB)P(B)=0=P(BA)P(A)=0P(AB)=0P(BA)=0\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) &=& 0 \\ \\ &=&P(B|A)P(A) &=&0 \\ \\ \\ &&P(A|B) &=& 0 \\ \\ &&P(B|A) &=&0 \end{array}

 

「片方しか起こらない」場合とかだと

このように 00 になったりもして

簡単に計算することができなくなります。

 

 

 

 

 

独立 Independent

 

「確率変数(データ・事象)」について

『データとデータの間で影響が無い』感じのことを

「独立」であると言ったりします。

 

P(AB)=P(A)P(B)\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A)P(B) \end{array}

 

まあ要はこれがしたい感じですね。

事象 AA と事象 BB が起こる時

 

P(AB)=P(AB)P(B)=P(BA)P(A)=P(A)P(B)\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) \\ \\ &=&P(B|A)P(A) \\ \\ &=&P(A)P(B) \end{array}

 

互いが互いの確率に影響を与えない

これを「独立」というわけです。

 

P(XafterXbefore)=P(Xafter)\begin{array}{llllll} \displaystyle P(X_{\mathrm{after}}|X_{\mathrm{before}})&=&P(X_{\mathrm{after}}) \end{array}

 

厳密な定義は「条件付確率」で与えられていて

このようになる場合、独立であると言います。

 

 

 

 

 

独立ではない感じ

 

これは「トランプ」とか

そういうカード系の話が分かりやすいかもしれません。

 

P(X1)=113×4\begin{array}{llllll} \displaystyle P(X_1)&=&\displaystyle\frac{1}{13\times 4} \end{array}

 

というのも

デッキに戻さずカードを2枚引く場合

狙った1枚を引く場合に1枚目はこうなりますが

 

P(X2X1)=113×41\begin{array}{llllll} \displaystyle P(X_2|X_1)&=&\displaystyle\frac{1}{13\times 4-1} \end{array}

 

2枚目からの確率はこのようになります。

 

 

また「同じカードは引けない」ので

2枚目を引く時、例えば D1D_1 (ダイヤの1)を引いたなら

 

P(D1D1)=P(D1D1)P(D1)=0P(D1D1)=0\begin{array}{llllll} \displaystyle P(D_1∩D_1)&=&P(D_1|D_1)P(D_1) &=&0 \\ \\ &&P(D_1|D_1) &=&0 \end{array}

 

存在しない2枚目のダイヤ1を引くことはできません。

 

 

これでなんとなく分かったと思いますが

この感覚が「独立ではない」という感覚になります。

 

 

 

比較すればわかると思いますが

「サイコロ」や「コイン」ではこのようにはなりません。

 

 

どの目も「前の目とは関係なく」一定の確率で出ますし

表が出た後も変わらず2分の1で表は出ますから。

 

 

ちなみにトランプも「1枚引くだけ」だったり

「1枚引く度にデッキに戻す」なら

サイコロやコインと同様になります。

 

 


 

 

同分布である Identically Distributed

 

「同じ分布(関数)に従う」感じのこと。

 

P(X)\begin{array}{llllll} \displaystyle P(X) \end{array}

 

要は『同じ関数の変数だ』って話で

「サイコロ」とか「コイン」の話ですね。

 

xI(P(xXa)=P(xXb))\begin{array}{llllll} \displaystyle ∀x∈I&\Bigl(\,P(x≥X_a)=P(x≥X_b)\,\Bigr) \end{array}

 

「2つの確率変数 Xa,XbX_a,X_b 」があったとして

これが「同分布である」というのは

形式的にはこんな感じ。

 

 

意味するところはそのままです。

「全ての xxP(xX)P(x≥X) が一致する」なら

XaX_aXbX_b は同じ関数の変数」

 

 

すごく当たり前ですが

「他の話」を持ち出すときとか

そういう場合に意識する必要があります。

 

 

ちなみにだいたい同分布です。

データは似たような環境でとられるので

これを意識することはあまりありません。

 

 

 

 

 

同分布じゃない感じ

 

「トランプ」の話でも良いですが

「コイン」と「サイコロ」でも良いですね。

 

Pcoin(XA)=12Pdice(XB)=16\begin{array}{llllll} \displaystyle P_{\mathrm{coin}}(X_A)&=&\displaystyle \frac{1}{2} \\ \\ \displaystyle P_{\mathrm{dice}}(X_B)&=&\displaystyle \frac{1}{6} \end{array}

 

「コインで表が出る」

「サイコロで1が出る」

 

A={,}B={1,2,3,4,5,6}\begin{array}{llllll} \displaystyle A&=&\{表,裏\} \\ \\ B&=&\{1,2,3,4,5,6\} \end{array}

 

この「確率変数 XA,XBX_A,X_B 」は

『別の確率分布(関数)の変数』です。

 

 

とまあ要はこういう話で、

これが「同分布ではない」という感覚になります。