
スポンサードリンク
こんにちは、ももやまです。
母集団の平均(母平均)を推定する際には正規分布を使う方法が有効です。
しかし、正規分布を使うためには母集団の情報として母分散が必要になってきます。
仮に母分散が分からなくても、標本内のデータ数(標本のサイズ)が大きければ標本の分散を代わりに使うことが出来ます。しかし、データ数が少ないときは母分散=標本分散の近似も使えません。
そこで、今回は標本サイズが小さく、なおかつ母分散も分からないときの母平均の推定に使えるt分布の紹介と、実際にt分布を使って母平均を推定する方法について学習していきましょう。
目次 [hide]
スポンサードリンク
1. t分布で出来ること
t分布は、標本から計算できる平均、分散から母平均(母集団の平均)を推定、仮説検定するために使います。
母集団の情報なしに母平均を推定できるところが、正規分布との違いです[1]正規分布で母平均を推定する際には、母分散が必要になってきます。。
特に、標本のサイズが小さい(標本のデータ数が少ない)場合[2]標本のデータ数が多ければ、"母分散=標本分散" … Continue readingに母平均を推定、仮説検定したい場合にt分布は強みを発揮します。
不偏分散とは
標本の分散
しかし、推定や仮説検定の際には、最後に割る数を
この分散
標本から標本平均、不偏分散から母平均の推定、仮説検定をする際に、t分布を使うことが出来る。
特に、標本のサイズが小さく、母分散=不偏分散の近似が難しいために正規分布が使えないときにt分布は強みを発揮する。
表. t分布と正規分布の比較
t分布 | 正規分布 | |
---|---|---|
必要な情報 | 標本平均・不偏分散 | 標本平均・母分散 |
推定できるもの | 母平均 | 母平均 |
使い分け | 標本のデータ数が少ないときに使用 | 標本のデータ数が多いときに使用 |
スポンサードリンク
2. t分布を使って母平均が推定できる仕組み
ここでは、t分布を使って母平均が推定出来る仕組みを、見てきましょう。
(1) 正規分布での母平均推定
まずは、正規分布表を使って母平均を推定する流れを途中まで振り返りましょう。
まず、母平均
すると、中心極限定理により、標本平均
しかし、試験で与えられる正規分布表は、標準正規分布、つまり平均
そのため、標準正規分布表を使うためには、以下の図のような標準化を行い、標本平均

(2) 正規分布からt分布へ
ここからは、母分散
母分散
しかし、不偏分散
そこで、不偏分散
(3) t分布と自由度
t分布には、正規分布には出てこなかった要素である、"自由度" があります。
[i] 自由度の概念
最初に、自由度の概念を理解しましょう。
まず、不偏分散
そこで、標本の情報量を「何個分のデータの情報量を持っているか」で表したものを、統計の世界で自由度と呼びます。t分布を含む一部の分布では、標本の情報量の大小によって分布の形が変わるように作られています。
[ii] 何故自由度は標本サイズ-1なのか
つぎに、自由度がどのようになるか確認をしましょう。
単一の標本に対して、母平均を推定する場合は、自由度については以下のことを頭に入れておけばOKです。
単一の標本(母分散不明)について、母平均を推定する場合の自由度は次の通りである。
(自由度) = (標本のサイズ) - 1
ここで、「なぜ自由度は、標本のサイズから1減るの?」と気になる人も多いと思います。
そこで、ここから自由度が1減る仕組みについて説明いたします。
まず、不偏分散
ここで、不偏分散を求める際に出てくる「各データと標本平均の差」を求めるという部分に着目しましょう。
「各データと標本平均の差」を全てのデータごとに足していくと、その総和は必ず0になります。数式で書くと、
例えば、データの値が 20, 40, 50, 70, 70(標本平均: 50)の場合の標本平均との差は次のように求められますね。
値 | 20 | 40 | 50 | 70 | 70 |
標本平均との差 | -30 | -10 | 0 | +20 | +20 |
実際にデータ毎の「各データと標本平均の差」の総和を計算すると、
ここで、ある1つのデータが分からなくなったとします。
値 | 20 | ? | 50 | 70 | 70 |
標本平均との差 | -30 | ? | 0 | +20 | +20 |
この状況でも、標本平均が分かっていれば、標本平均から残り1つのデータを
つまり、標本平均が分かっている状況では「元の標本の情報」と「元の標本1つデータを失った状態の情報」は全く同じ情報量と考えることができます。
言い換えると、標本サイズ
そのため、 t分布を使う場合の自由度は、元の標本サイズ
[iii] t分布のグラフ
ここでは、t分布のグラフの特徴を確認しておきましょう。
まず、t分布のグラフは正規分布と同じく

正規分布のグラフと比べてみましょう。
比べてみると、t分布の方が背が低いグラフになっていることが分かりますね。

また、自由度
自由度を30にすると、かなり正規分布に近づきますね[3]標本のサイズが30以上であれば、母分散を不偏分散と近似して正規分布をしても、精度よく母平均の推定が出来ると言われます。。

(4) t分布表の見方
t分布を使って母平均を推定する際には、t分布表と呼ばれる専用の表を使います。
試験の際にも必ずt分布表は与えられるため、t分布表の中身を暗記する必要がありません。t分布表が使えればOKです。
ただし、t分布表には両側t分布表と片側t分布表の2つがあり、それぞれで値の読み取り方が少しだけ違います。なので、両方のt分布表の使い方を確認しましょう。この記事では、両側t分布表と片側t分布表両方の使い方を紹介していきます。
例題、練習問題を解く際にお使いください。
※ 使っている参考書や授業に合わせて、両側t分布表、片側t分布表を選択することをおすすめします。なお、統計検定の場合、与えられる表は片側t分布表です。
[i] 両側t分布表の場合
両側t分布表は、グラフの右端部分と左端部分の面積の和

例えば、母分散が分からない標本サイズが10のデータを、信頼度95%で母平均を推定する場合を考えましょう。
信頼度95%で推定するためは、矢印部分の確率(白色部分の面積)が95% = 0.95 となるときの
ここで、確率の和は1なので、灰色部分の面積

また、自由度は "標本サイズ - 1" より、10 - 1 = 9 となります。
あとは、

すると、対応する
[ii] 片側t分布表の場合
片側t分布表は、グラフの右端部分の面積の和

先ほどと同じく、母分散が分からない標本サイズが10のデータを、信頼度95%で母平均を推定する場合を考えましょう。
信頼度95%なので、矢印部分の確率(白色部分の面積)が95% = 0.95 となるときの
まず、片側t分布表を使うために、青色部分の確率

ここで、t分布のグラフは

そのため、

あとは、

よって、対応する
スポンサードリンク
3. 例題で理解! t分布を用いた母平均の推定
ここからは、実際にt分布を用いて母平均を推定する方法を、例題を通じて学習していきましょう。
ある農家で取れたのニンジンの重さを調査をするために、ランダムに選んだ9個のニンジンの重さを測定ところ、重さの平均は200g、重さの不偏分散は64g2だった。この結果をもとに、ニンジンの重量の母平均を推定したい。つぎの(1), (2)の問いに答えなさい。
(1) 重さの区間推定を行うために必要な分布、および自由度として最も適切なものを、①〜④の中から1つ選びなさい。
① 正規分布
② 自由度8のt分布
③ 自由度9のt分布
④ 自由度10のt分布
(2) 信頼度90%で母平均の区間推定を行い、結果を小数第2位まで求めなさい。
解説
(1)
まず、問題文からわかっていること、および求めたいものがなにかを確認します。
- 推定したいもの:母平均
- 母分散:不明
- 標本サイズ: 8
今回は、母分散が未知(かつ標本サイズが小さい)状態で、母平均を推定したいため、t分布を使用します。
つぎに、自由度を確認しましょう。
今回与えられた標本サイズ(データ数)は9のため、自由度は 9 - 1 = 8 となり、答えは②となります。
(2)
Step1. 推定に使う
まず、信頼度90%に相当する
両側t分布表から読み取る場合
信頼度が90%なので、グラフの白色部分の面積が0.9となる。言い換えると、灰色部分

よって、

結果、
片側t分布表から読み取る場合
信頼度が90%なので、t分布の白色部分の面積が0.9となる。ここで、片側t分布で使う

灰色部分の面積と青色部分の面積は等しいので、青色部分の面積

よって、

結果、
Step2. 推定に使う
信頼度に対応する
母平均の推定公式の公式はあるのですが、せっかくなのでt分布の変換式
t分布で登場するtの値と、母平均
ここで、ある信頼度、自由度に対応するt分布表から読み取った値が

式(2)に、式(1)の
次に、式(3)の両辺に
さらに、式(4)の両辺から
最後に、式(5)の両辺を-1倍して

公式を図で表すと、以下のような感じに書けますね。

ではここからは、実際に公式を適用してみましょう。
まず、信頼度90%に対応する

この数値と、標本のデータ数
実際に代入すると、

※ 推定結果を
標本のサイズを
母集団の母分散が未知で、かつ標本サイズが小さい(目安: 30未満)のときの母平均
※ 標本のデータ
- 標本のサイズ:
- 標本平均:
- 不偏分散:
(不偏標準偏差: )
Step1. 信頼度に対応する
自由度
ただし、
- 両側t分布表の場合
→ の値: 1 - 信頼度
→ 例: 信頼度95%であれば、 - 片側t分布表の場合
→ の値: (1 - 信頼度) ÷ 2
→ 例: 信頼度95%であれば、
ここで読み取った
Step2. 読み取った値
おまけ. 標本分散
不偏分散
4. 練習問題
では、t分布を使って区間推定や仮説検定をする問題について、練習問題で理解できているか確認しましょう。
ある中学生の1年生全体が対象の、数学の期末テストが行われた。その中で、特定の塾に通っている4人(佐藤くん、西尾くん、池田さん、竹本さん)の期末テストの点数は、次の通りだった。
佐藤くん | 西尾くん | 池田さん | 竹本さん | |
---|---|---|---|---|
期末テストの点数 | 72 | 60 | 84 | 76 |
この4人のテスト結果から、信頼度95%にて1年生全体の数学の平均点を推定したい。次の(1)~(3)の問いに答えなさい。必要であればt分布表を用いてもよい。
(1) 4人のテスト結果の平均点、および不偏分散を求めなさい。
(2) 母平均の区間推定を行うために、必要な分布を答えなさい。自由度がある分布については、自由度も答えなさい。
(3) 母平均の区間推定を行い、結果を小数第2位まで求めなさい。
5. 練習問題の答え
(1)
解答: 標本平均: 73 [点] 不偏分散: 100 [点2]
標本の平均
計算ミスを減らすテクニックとして、いったん
不偏分散
(2)
今回は、
- 母分散: 未知(かつ標本サイズ小さい)
- 推定したいもの: 母平均
なので推定に使う分布はt分布です。
また、今回与えられた標本サイズ(データ数)は4のため、自由度は 4 - 1 = 3 となります。
(3)
Step1. 推定に使う
まず、信頼度95%に相当する
両側t分布表から読み取る場合
信頼度が95%なので、グラフの白色部分の面積が0.95。なので、

あとは、

結果、
片側t分布表から読み取る場合
信頼度が95%なので、t分布の白色部分の面積が0.95となる。ここで、片側t分布で使う

灰色部分の面積と青色部分の面積は等しいので、青色部分の面積
あとは、

結果、
Step2. 読み取った値
Step1で読み取った
あとは、公式に
計算すると、
※

関連広告・スポンサードリンク