|| 同じ分布のデータは互いに不干渉だよ
「確率変数を別々に扱えるよ」という『仮定』のこと。
スポンサーリンク
言い換えるなら
『確率を感覚的に使うための仮定』のことで
これが仮定されていると非常に計算がしやすくなります。
具体的な感じ
よく例に出される「サイコロ」で考えるなら
\begin{array}{cccccccccccc} \displaystyle X&&1&2&3&4&5&6 \\ \\ P(X)&&\displaystyle \frac{1}{6} &\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6}&\displaystyle \frac{1}{6} \end{array}
それぞれの「確率変数 X 」の『確率』は
他の確率変数に影響を与えない
\begin{array}{llllll} \displaystyle P(1)&=&\displaystyle \frac{1}{6}&&→&&P(3)&=&\displaystyle \frac{1}{6} \\ \\ \displaystyle P(3)&=&\displaystyle \frac{1}{6}&&→&&P(1)&=&\displaystyle \frac{1}{6} \end{array}
つまり『他がどうでも変わらない』
だから「試行回数」が増えたとしても
\begin{array}{llllll} \displaystyle P_2\left(\begin{array}{llllll} \displaystyle X_1&=&1 \\ \\ X_2&=&2 \end{array}\right)&=&P(X_1)P(X_2) \\ \\ &=&\displaystyle \frac{1}{6^2} \end{array}
例えば「 1 の後に 2 が出る確率」なんかは
このように簡単に計算ができて
これが正しい値になる。
当たり前のように思うかもしれませんが
これが「独立同分布」の感覚で
\begin{array}{llllll} \displaystyle P(A|B)&≠&P(A) \\ \\ P(B|A)&≠&P(B) \end{array}
実際には多くあるそうではないパターン
つまり『確率変数同士が独立ではない』パターンでは
\begin{array}{llllll} \displaystyle A∩B&=&∅ \end{array}
\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) &=& 0 \\ \\ &=&P(B|A)P(A) &=&0 \\ \\ \\ &&P(A|B) &=& 0 \\ \\ &&P(B|A) &=&0 \end{array}
「片方しか起こらない」場合とかだと
このように 0 になったりもして
簡単に計算することができなくなります。
独立 Independent
「確率変数(データ・事象)」について
『データとデータの間で影響が無い』感じのことを
「独立」であると言ったりします。
\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A)P(B) \end{array}
まあ要はこれがしたい感じですね。
事象 A と事象 B が起こる時
\begin{array}{llllll} \displaystyle P(A∩B)&=&P(A|B)P(B) \\ \\ &=&P(B|A)P(A) \\ \\ &=&P(A)P(B) \end{array}
互いが互いの確率に影響を与えない
これを「独立」というわけです。
\begin{array}{llllll} \displaystyle P(X_{\mathrm{after}}|X_{\mathrm{before}})&=&P(X_{\mathrm{after}}) \end{array}
厳密な定義は「条件付確率」で与えられていて
このようになる場合、独立であると言います。
独立ではない感じ
これは「トランプ」とか
そういうカード系の話が分かりやすいかもしれません。
\begin{array}{llllll} \displaystyle P(X_1)&=&\displaystyle\frac{1}{13\times 4} \end{array}
というのも
デッキに戻さずカードを2枚引く場合
狙った1枚を引く場合に1枚目はこうなりますが
\begin{array}{llllll} \displaystyle P(X_2|X_1)&=&\displaystyle\frac{1}{13\times 4-1} \end{array}
2枚目からの確率はこのようになります。
また「同じカードは引けない」ので
2枚目を引く時、例えば D_1 (ダイヤの1)を引いたなら
\begin{array}{llllll} \displaystyle P(D_1∩D_1)&=&P(D_1|D_1)P(D_1) &=&0 \\ \\ &&P(D_1|D_1) &=&0 \end{array}
存在しない2枚目のダイヤ1を引くことはできません。
これでなんとなく分かったと思いますが
この感覚が「独立ではない」という感覚になります。
比較すればわかると思いますが
「サイコロ」や「コイン」ではこのようにはなりません。
どの目も「前の目とは関係なく」一定の確率で出ますし
表が出た後も変わらず2分の1で表は出ますから。
ちなみにトランプも「1枚引くだけ」だったり
「1枚引く度にデッキに戻す」なら
サイコロやコインと同様になります。
同分布である Identically Distributed
「同じ分布(関数)に従う」感じのこと。
\begin{array}{llllll} \displaystyle P(X) \end{array}
要は『同じ関数の変数だ』って話で
「サイコロ」とか「コイン」の話ですね。
\begin{array}{llllll} \displaystyle ∀x∈I&\Bigl(\,P(x≥X_a)=P(x≥X_b)\,\Bigr) \end{array}
「2つの確率変数 X_a,X_b 」があったとして
これが「同分布である」というのは
形式的にはこんな感じ。
意味するところはそのままです。
「全ての x で P(x≥X) が一致する」なら
「 X_a と X_b は同じ関数の変数」
すごく当たり前ですが
「他の話」を持ち出すときとか
そういう場合に意識する必要があります。
ちなみにだいたい同分布です。
データは似たような環境でとられるので
これを意識することはあまりありません。
同分布じゃない感じ
「トランプ」の話でも良いですが
「コイン」と「サイコロ」でも良いですね。
\begin{array}{llllll} \displaystyle P_{\mathrm{coin}}(X_A)&=&\displaystyle \frac{1}{2} \\ \\ \displaystyle P_{\mathrm{dice}}(X_B)&=&\displaystyle \frac{1}{6} \end{array}
「コインで表が出る」
「サイコロで1が出る」
\begin{array}{llllll} \displaystyle A&=&\{表,裏\} \\ \\ B&=&\{1,2,3,4,5,6\} \end{array}
この「確率変数 X_A,X_B 」は
『別の確率分布(関数)の変数』です。
とまあ要はこういう話で、
これが「同分布ではない」という感覚になります。