うさぎでもわかる確率・統計　ポアソン分布

2024年8月24日 2024年8月25日 32分40秒

ももうさ

スポンサードリンク

こんにちは、ももやまです。

今日は、確率・統計分野の中で出てくるポアソン分布と、ポアソン分布を使った確率を求める計算方法を紹介していきます。

※ 本記事には、二項分布の内容が出てきます。「二項分布ってなんだっけ？」とか「二項分布忘れちゃったな」という人は、下の記事にて復習することをおすすめします。

1. ポアソン分布とは？
2. ポアソン分布を用いた確率導出公式
- 公式導出
3. ポアソン分布の期待値・分散
- (1) ポアソン分布の期待値 \( E(X) \)
- (2) ポアソン分布の分散 \( V(X) \)
4. 例題でポアソン分布の理解を深めよう
- (1) 例題1．
- (2) 例題2．
5. 練習問題で確認！
6. 練習問題の答え

スポンサードリンク

1. ポアソン分布とは？

ポアソン分布とは、「ごく稀にしか起こらないけど、いつ起こるか分からない出来事」の回数」をモデル化したものです。

このモデル化をしたデータを元に、事象が起こる確率を近似的に求めることができるのがポアソン分布の強みです。

例えば、こんな問題を求めることができるようになります。

※ 実際にどう解くかは、4章の「例題でポアソン分布の理解を深めよう」で説明します。

例題1

1%の確率で1等が出るくじがある。このくじに100回チャレンジしたとき、1等が2回出る確率を求めなさい。

例題2

桃山先生が書くプログラムは、平均して100行ごとに1個のバグが潜んでいる。桃山先生が300行のコードを書くときに、バグが3個以上潜んでいる確率を求めなさい。

スポンサードリンク

2. ポアソン分布を用いた確率導出公式

ある事象がポアソン分布に従う（or 近似できる）場合、事象が起こる確率を以下の公式で簡単に求めることができます。

ポアソン分布の公式

ある事象が単位時間あたりに、平均して \( \lambda \) 回発生するとする。

このとき、同じ単位時間内に事象が \( \textcolor{blue}{ k } \) 回発生する確率 \( P(X = \textcolor{blue}{ k } ) \) は、確率変数 \( X \) がポアソン分布 \( \mathrm{Po} ( \lambda ) \) に従うことを利用して、つぎのように計算できる。\[
P(X = \textcolor{blue}{ k } ) = \frac{\textcolor{red}{ \lambda }^{\textcolor{blue}{ k } } }{\textcolor{blue}{ k } !} e^{ - \textcolor{red}{ \lambda } }
\]

※1 \( \lambda \) のことを、ポアソン分布のパラメータと呼びます。

※2 \( \mathrm{Po} ( \textcolor{red}{ \lambda } ) \) は、「事象が平均 \( \textcolor{red}{ \lambda } \) 回発生する状況でのポアソン分布」を表します。この表記は、本記事ではあまり使いませんが、試験などで出てきた際に理解できるように、こういう表記があるんだなと頭に入れておきましょう。

※3 ポアソン分布を使用して確率を求める際には、次の条件を満たす必要があります。ただし、テストで出てくる問題では、以下の条件はすべて満たしているのであまり気にする必要はありません。

【ポアソン分布を使うため条件】

同じ瞬間に、複数の事象が起こらないこと。
事象が起こる確率は常に一定であること。
（例えば、1時間に平均3回の事象が起こる場合、どの時間を切り出しても必ず事象が起こる確率は1時間に平均3回であること。）
事象が独立していること。
（例えば、1時間に平均3回の事象が起こる場合、最初の30分で10回の事象が起こったとしても、後ろの30分で事象が起こる確率は変わらず1時間に平均3回であること。）

公式導出

[i] 二項分布からポアソン分布へ

二項分布とは、結果が2通りしかない^[1]例: コイントスをして表が出るか裏が出るか事象を複数回（\( n \) 回）行ったときに事象が発生する回数 \( X = k \) をモデル化したものでしたね。

ここで、\( X \) が二項分布 \( B(n,p) \) （試行回数: \( n \)、事象発生確率 \( p \)）と従うとき、事象が発生する回数の期待値 \( E(X) \) は、\( E(x) = np \) となるのでしたね。

ポアソン分布では、試行回数 \( n \) を十分に大きくし、\( p \) を十分に小さくし、なおかつ二項分布の期待値 \( E(X) \) が一定値 \( \lambda \)、つまり \( E(X) = np = \lambda \) となる状態を考えます。

[ii] 公式が導出されるまでの流れ

まず、ある試行を \( n \) 回行ったとき、事象が \( k \) 回発生する確率 \( P( X = k ) \) は、つぎのように書くことができます。\[
P(X = k) = {}_n \mathrm{C}_k \ p^k (1-p)^{n-k}
\]

この式を、少し変形してから、次の2つに分けてみましょう。\[\begin{align*}
P(X = k) & = {}_n \mathrm{C}_k \ p^k (1-p)^{n-k}
\\ & = \frac{n!}{k! (n-k)!} p^k (1-p)^{n-k}
\\ & = \frac{1}{k!} \cdot \frac{n!}{(n-k)!} p^k (1-p)^{n-k}
\\ & = \textcolor{deepskyblue}{\frac{1}{k!}} \cdot \textcolor{magenta}{ \frac{n!}{(n-k)!} p^k } \cdot \textcolor{purple}{ (1-p)^{n-k} }
\end{align*}\]

ここで2つ目のピンク色部分の式は、\( n \) が十分に大きい、つまり \( n \to \infty \) を満たすとき、次の式が成立します。。\[\begin{align*}
\lim_{n \to \infty} \textcolor{magenta}{ \frac{n!}{(n-k)!} p^k } & = \lim_{n \to \infty} n (n-1)(n-2) \cdots \left\{ n - (k-1) \right\} p^k
\\ & = \lim_{n \to \infty} \left\{ \frac{n}{n} \cdot \frac{n-1}{n} \cdot \frac{n-2}{n} \cdots \frac{n-(k-1)}{n} \right\} n^k p^k
\\ & = \lim_{n \to \infty} \left\{ 1 \left( 1 - \frac{1}{n} \right) \left( 1 - \frac{2}{n} \right) \cdots \left( 1 - \frac{k-1}{n} \right) \right\} ( \textcolor{red}{np} )^k
\\ & = \lim_{n \to \infty} \left\{ 1 \underbrace{ \left( 1 - \frac{1}{n} \right) }_{1} \underbrace{ \left( 1 - \frac{2}{n} \right) }_{1} \cdots \underbrace{ \left( 1 - \frac{k-1}{n} \right) }_{1} \right\} \textcolor{red}{\lambda}^k \ \ \ ( \textcolor{red}{\because \lambda = np })
\\ & = 1 \cdot \lambda^k
\\ & = \lambda^k
\end{align*}\]

そのため、\( n \) が十分に大きいとき\[
\textcolor{magenta}{ \frac{n!}{(n-k)!} p^k = \lambda^k }
\]と変形可能です

また、3つ目の紫色部分の式も、\( n \) が十分に大きい、つまり \( n \to \infty \) を満たすとき、次の式が成立します。

\[\begin{align*}
\lim_{n \to \infty} (1-p)^{n-k} & = \lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^{n-k}
\\ & = \lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^n \cdot \left( 1 - \frac{ \lambda }{ n } \right)^{-k}
\\ & = \textcolor{red}{\lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^n } \cdot \left( 1 - \frac{ \lambda }{ n } \right)^{-k}
\\ & = \textcolor{red}{ e^{- \lambda} } \cdot 1
\\ & = e^{- \lambda}
\end{align*}\]

そのため、\( n \) が十分に大きいとき\[
\textcolor{purple}{ (1-p)^{n-k} = e^{- \lambda} }
\]と変形可能です^[2]。ただし、赤色部分の式変形で \( e \) の定義式\[\lim_{n \to \infty} \left( 1 + \frac{ 1 }{ n } \right)^n = … Continue reading

これら3つの式を組み合わせることで、ポアソン分布の公式をつぎのように導出できます。\[\begin{align*}
P(X = k) & = {}_n \mathrm{C}_k \ p^k (1-p)^{n-k}
\\ & = \textcolor{deepskyblue}{\frac{1}{k!}} \cdot \textcolor{magenta}{ \frac{n!}{(n-k)!} p^k } \cdot \textcolor{purple}{ (1-p)^{n-k} }
\\ & = \textcolor{deepskyblue}{\frac{1}{k!}} \cdot \textcolor{magenta}{ \lambda^k } \cdot \textcolor{purple}{ e^{ - \lambda } }
\\ & = \frac{\lambda^k}{k!} e^{ - \lambda }
\end{align*}\]

スポンサードリンク

3. ポアソン分布の期待値・分散

つぎに、ポアソン分布に従う確率変数 \( X \) の期待値 \( E(X) \)、分散 \( V(X) \) がどのようになるか、確認しましょう。

(1) ポアソン分布の期待値 \( E(X) \)

ポアソン分布は、「二項分布における、試行回数 \( n \) が非常に大きく、\( p \) が非常に小さい状況」を考えます。このとき、二項分布の期待値が一定値 \( \lambda \) となるように、\( n \), \( p \) の値を調整します。

そのため、ポアソン分布の期待値 \( E(X) \) はつぎの通りとなります。\[
E(X) = \lambda
\]

(2) ポアソン分布の分散 \( V(X) \)

二項分布の分散は、\[\begin{align*}
V(X) & = np(1-p)
\\ & = E(X) \cdot (1-p)
\end{align*}\]と定義されます。

ここで、ポアソン分布は \( p \) が非常に小さい状態を考えます。そのため、\( 1 - p \fallingdotseq 1 \) と近似することができます。

したがって、ポアソン分布の分散 \( V(X) \) はつぎのように計算できます。\[\begin{align*}
V(X) & = E(X) \cdot (1-p)
\\ & = E(X) \cdot 1
\\ & = E(X)
\\ & = \lambda
\end{align*}\]

分散 \( V(X) \) が、期待値 \( E(X) = \lambda \) と等しくなるのがポアソン分布の特徴です！

そのため、ポアソン分布の期待値は定義そのもの \( E(X) = \lambda \) となります。

ポアソン分布の期待値と分散

確率変数 \( X \) がポアソン分布\[
P(X = k) = \frac{\lambda^k}{k!} e^{ - \lambda }
\]に従うとき、期待値 \( E(X) \) と分散 \( V(X) \) はつぎのように計算できる。\[
E(X) = \lambda
\]\[
V(X) = \lambda
\]

期待値と分散が等しくなるのが、ポアソン分布の特徴！

4. 例題でポアソン分布の理解を深めよう

では実際に、ポアソン分布を使った確率計算を2つの例題で体験してみましょう。

(1) 例題1．

例題1

1%の確率で1等が出るくじがある。このくじに100回チャレンジしたとき、1等が2回出る確率を求めなさい。（小数第2位まで求めること。）

※ 必要であれば、\( e = 2.718 \)、\( e^2 = 7.389 \) としなさい。

[解説]

まず、1%で当たるくじを100回引いたときに、1等が出る回数の期待値は次のように求められます。\[
100 \times \frac{1}{100} = 1
\]

つまり、くじを100回引くという事象を行ったときに1等が平均して1回出ることが期待されます。なので、ポアソン分布のパラメータ \( \textcolor{red}{\lambda} \) は、\( \textcolor{red}{\lambda = 1} \) となります。

今回は、1等が2回出る確率 \( P (X = \textcolor{blue}{2} ) \) 、つまり \( \textcolor{blue}{k = 2} \) となる確率を求めます。あとは、ポアソン分布の公式\[
P(X = k) = \frac{\textcolor{red}{\lambda}^\textcolor{blue}{k}}{\textcolor{blue}{k} !} e^{ - \textcolor{red}{\lambda} }
\]に平均 \( \textcolor{red}{\lambda = 1} \)、事象が発生した回数 \( \textcolor{blue}{k = 2} \) を代入して、\[\begin{align*}
P(X = \textcolor{blue}{2}) & = \frac{\textcolor{red}{1}^\textcolor{blue}{2}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{1} }
\\ & = \frac{1}{2} e^{-1}
\\ & = \frac{1}{2} \cdot \frac{1}{2.718}
\\ & = \frac{1}{5.436}
\\ & = 0.184
\end{align*}\]と計算できるため、、1等が2回出る確率は 0.18 と求められます。

※ 二項分布でつぎのように計算しても、確率 0.18 を導出することができます^[3]こんな計算、手では絶対したくありませんよね！。ポアソン分布での近似がうまく行っているということですね！\[
100 \mathrm{C}_2 \left( \frac{1}{100} \right)^2 \left( \frac{99}{100} \right)^{98} \fallingdotseq 0.18
\]

(2) 例題2．

例題2

桃山先生が書くプログラムは、平均して100行ごとに1個のバグが潜んでいる。ある日、桃山先生が300行のコードを書くこととなった。つぎの(1), (2)の問いに答えなさい。（答えは、小数第2位まで求めること。）

(1) 桃山先生が書いた300行のコードの中に、バグが1つも潜んでいない確率を求めなさい。
(2) 桃山先生が書いた300行のコードの中に、バグが3個以上潜んでいる確率を求めなさい。

※ 必要であれば、\( e = 2.718 \)、\( e^2 = 7.389 \)、\( e^3 = 20.085 \) としなさい。

[解説]

(1)

平均して100行ごとに1個のバグが潜んでいるということは、300行のコードを書いた際は、平均して3個のバグが潜んでいるといえます。\[
\frac{300}{100} \times 1 = 3
\]そのため、ポアソン分布のパラメータ \( \textcolor{red}{\lambda} \) は、\( \textcolor{red}{\lambda = 3} \) となります。

今回は、バグが1つも潜んでいない確率 \( P (X = \textcolor{blue}{0} ) \) 、つまり \(\textcolor{blue}{k = 0}\) となる確率を求めます。

あとは、ポアソン分布の公式に平均 \( \textcolor{red}{\lambda = 3} \)、事象が発生した回数 \( \textcolor{blue}{ k = 0 } \) を代入すればOKです。\[
P(X = k) = \frac{\textcolor{red}{\lambda}^\textcolor{blue}{k}}{\textcolor{blue}{k} !} e^{ - \textcolor{red}{\lambda} }
\]

実際に代入すると、確率を次のように求められます。\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{0}}{\textcolor{blue}{0} !} e^{ - \textcolor{red}{3} }
\\ & = \frac{1}{1} e^{-3}
\\ & = \frac{1}{20.085}
\\ & = \frac{1}{5.436}
\\ & = 0.050
\end{align*}\]

よって、バグが1つも潜んでいない確率は 0.05 と求められます。

(2)

バグが3個以上 \( P( X \geqq 3) \) 潜んでいる確率を求めるためには、バグが2個以下である確率 \( P( X \leqq 2) \) を計算し、その値を1から引く方法をとります。\[
P( X \geqq 3) = 1 - P( X \leqq 2)
\]

ここで、バグが2個以下である確率は、

[i] バグが1つも潜んでいない確率 \( P( X = 0) \)
[ii} バグが1つ潜んでいる確率 \( P( X = 1) \)
[iii] バグが2つ潜んでいる確率 \( P( X = 2) \)

の和で計算ができます。

[i] バグが1つも潜んでいない確率 \( P(X = \textcolor{blue}{0}) \)

(1)の計算結果を利用できます。\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{0}}{\textcolor{blue}{0} !} e^{ - \textcolor{red}{3} }
\\ & = e^{-3}
\end{align*}\]※ \( e^3 = 20.085 \) の代入は、[i]〜[iii]をすべて足す時に行います。

[ii] バグが1つも潜んでいる確率 \( P(X = \textcolor{blue}{1}) \)

\[\begin{align*}
P(X = \textcolor{blue}{1}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{1}}{\textcolor{blue}{1} !} e^{ - \textcolor{red}{3} }
\\ & = \frac{3}{1} e^{-3}
\\ & = 3 e^{-3}
\end{align*}\]

[iii] バグが2つも潜んでいる確率 \( P(X = \textcolor{blue}{2}) \)

\[\begin{align*}
P(X = \textcolor{blue}{2}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{2}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{3} }
\\ & = \frac{9}{2} e^{-3}
\end{align*}\]

よって、バグが2個以下である確率 \( P( X \leqq 2) \) は、つぎのように計算できます。\[\begin{align*}
P( X \leqq 2) & = P( X = 0 ) + P( X = 1 ) + P( X = 2 )
\\ & = e^{-3} + 3 e^{-3} + \frac{9}{2} e^{-3}
\\ & = \frac{17}{2} e^{-3}
\\ & = \frac{17}{2} \cdot \frac{1}{20.085}
\\ & = \frac{17}{40.17}
\\ & = 0.423
\end{align*}\]

バグが3個以上潜んでいる確率 \( P( X \geqq 3) \) は、全体(1)から、バグが2個以下である確率 \( P( X \leqq 2) \) を引けばよいので、計算結果はつぎの通りとなります。\[\begin{align*}
P( X \geqq 3) & = 1 - P( X \leqq 2)
\\ & = 1 - 0.423
\\ & = 0.577
\end{align*}\]よって、バグが3つ以上潜んでいる確率は 0.58 と求められます。

5. 練習問題で確認！

最後に、練習問題でポアソン分布が理解できるかを確認しましょう！

練習問題

桃山先生が営んでいるラーメン店「ラーメン桃山」では、15分あたり平均2人の来店がある。来店人数がポアソン分布に従うと仮定できるとき、つぎの(1)〜(3)の問いに答えなさい。

(1) 30分あたりの来店人数の期待値、分散を求めなさい。

(2) 30分間に1人も来店しない確率を求めなさい。（小数第2位まで記すこと。）

(3) 30分間の来店人数が2人以下となる確率を求めなさい。（小数第2位まで記すこと。）

※ 必要であれば、\( e = 2.718 \)、\( e^2 = 7.389 \)、\( e^3 = 20.085 \) 、\( e^4 = 54.598 \) としなさい。

6. 練習問題の答え

(1)

15分あたり平均2人の来店があるということは、30分あたりの来店人数の期待値は次のように求められます。\[
\frac{30}{15} \times 2 = 4
\]

よって、30分あたりの来店人数の期待値は4人となります。

また、ポアソン分布の特徴として、期待値と分散は同じ値になります。

したがって、30分あたりの来店人数の分散も4となります。

(2)

30分あたりの来店人数の期待値は4人なので、ポアソン分布のパラメータ \( \textcolor{red}{\lambda} \) は、 \( \textcolor{red}{\lambda = 4} \) となります。

今回求めたい確率は、30分間に1人も来店しない確率 \( P (X = \textcolor{blue}{0} ) \) なので、\( \textcolor{blue}{k = 0} \) ですね。

あとは、ポアソン分布の公式\[
P(X = k) = \frac{\textcolor{red}{\lambda}^\textcolor{blue}{k}}{\textcolor{blue}{k} !} e^{ - \textcolor{red}{\lambda} }
\]に平均 \( \textcolor{red}{\lambda = 4} \)、事象が発生した回数 \( \textcolor{blue}{k = 0} \) を代入して、\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{0}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{4} }
\\ & = \frac{1}{1} e^{-4}
\\ & = e^{-4}
\\ & = \frac{1}{54.598}
\\ & = 0.018
\end{align*}\]と計算できるため、30分間に1人も来店しない確率は 0.02 と求められます。

(3)

30分間の来店人数が2人以下となる確率確率は、

[i] 30分間に1人も来店しない場合の確率 \( P( X = 0) \)
[ii} 30分間に1人来店する場合の確率 \( P( X = 1) \)
[iii] 30分間に2人来店する場合の確率 \( P( X = 2) \)

の和で計算ができます。

[i] 30分間に1人も来店しない場合の確率 \( P(X = \textcolor{blue}{0}) \)

(2)の計算結果を利用できます。\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{0}}{\textcolor{blue}{0} !} e^{ - \textcolor{red}{4} }
\\ & = e^{-4}
\end{align*}\]※ \( e^4 = 54.598 \) の代入は、[i]〜[iii]をすべて足す時に行います。

[ii] 30分間に1人来店する場合の確率 \( P(X = \textcolor{blue}{1}) \)

\[\begin{align*}
P(X = \textcolor{blue}{1}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{1}}{\textcolor{blue}{1} !} e^{ - \textcolor{red}{4} }
\\ & = \frac{4}{1} e^{-4}
\\ & = 4 e^{-4}
\end{align*}\]

[iii] 30分間に2人来店する場合の確率 \( P(X = \textcolor{blue}{2}) \)

\[\begin{align*}
P(X = \textcolor{blue}{2}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{2}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{4} }
\\ & = \frac{16}{2} e^{-4}
\\ & = 8 e^{-4}
\end{align*}\]

よって、30分間の来店人数が2人以下となる確率 \( P( X \leqq 2) \) は、つぎのように計算できます。\[\begin{align*}
P( X \leqq 2) & = P( X = 0 ) + P( X = 1 ) + P( X = 2 )
\\ & = e^{-4} + 4 e^{-4} + 8 e^{-4}
\\ & = 13 e^{-4}
\\ & = 13 \cdot \frac{1}{54.598}
\\ & = 0.238
\end{align*}\]

よって、30分間の来店人数が2人以下となる確率は 0.24 と求められます。

注釈[+]

注釈
↑1	例: コイントスをして表が出るか裏が出るか
↑2	。ただし、赤色部分の式変形で \( e \) の定義式\[ \lim_{n \to \infty} \left( 1 + \frac{ 1 }{ n } \right)^n = e \]を使った変形をしているため注意です。具体的には、つぎのように変形をして赤色の式部分が \( e^{- \lambda} \) となることを導出しています。\[\begin{align} \lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^n & = \lim_{n' \to \infty} \left( 1 - \frac{ \lambda }{ - n' \lambda} \right)^{ - n' \lambda } \ \ \ \left( n = - n' \lambda , \ \ \ n' \to \infty\right) \\ & = \lim_{n' \to \infty} \left( 1 + \frac{ 1 }{ n' } \right)^{ - n' \lambda } \\ & = \lim_{n' \to \infty} \left\{ \underbrace{ \left( 1 + \frac{ 1 }{ n' } \right)^{n'} }_{e} \right\}^{ - \lambda } \\ & = e^{ - \lambda } \end{align}\]※ \
↑3	こんな計算、手では絶対したくありませんよね！