うさぎでもわかる確率・統計 F分布のいろは① 母分散の比の区間推定

スポンサードリンク

こんにちは、ももやまです。

今回から3回に分けてF分布についてお勉強していきましょう。

第1回目は、まず「母分散の比の区間推定」方法について見ていきましょう。

※ カイ2乗分布の内容が出てくるので、カイ2乗分布がまだよくわかってない or 初見だよ、という人は、下の記事でカイ2乗分布の内容を確認することをお勧めします。

スポンサードリンク

1. F分布とは(定義)

F分布は、2つの標本のばらつき度合いを相対的に評価するために作られました。ここでは、相対的に2つの標本のばらつき度合いの評価式をどのように定義したかを見ていきましょう。

F分布での登場人物は、2つのカイ2乗分布に従う2つの χ12, χ22 です。この、χ12, χ22 は、各標本のデータのばらつき度合いを表す指標です。

しかし、カイ2乗値 χ12, χ22 の大きさは、ばらつき度合いだけでなく、自由度にも依存します。そのため、自由度が異なるカイ2乗値同士を直接的に比較することができません。

そこでF分布では、2つの標本のばらつき度合いを相対的に比較するときに「各標本ごとのカイ2乗値 χ12, χ22 を各標本ごとの自由度k1, k2 を割った値 χ12k1, χ22k2」で比べることで、自由度が異なるカイ2乗値同士のばらつき度合いを、公平に比べることができるようにしています。

F分布の定義

標本2を基準として、標本1のばらつき度合いを相対的に表したものF=χ12k1χ22k2は、F分布に従う。(自由度: (k1,k2)

【変数の意味】

  • 標本1について
    • χ12 … カイ2乗値
    • k1 … 自由度
  • 標本2について
    • χ22 … カイ2乗値
    • k2 … 自由度

※ 自由度が (k1,k2) については、2章の「F分布表の使い方」にて詳しく説明します。

スポンサードリンク

2. F分布表の使い方

F分布を用いた推定や仮説検定を実施する場合は、t分布、正規分布、カイ2乗分布のときと同じように専用の表(F分布表)から値を読み取り、読み取った値と計算されたF統計量から推定、仮説結果を出します。

F分布表

例題、練習問題を解く際にお使いください。

ポイント1. グラフが左右対称ではない

F分布のグラフは、カイ2乗分布のグラフと同じように、左右対称ではありません。

そのため、F分布を用いた区間推定や両側検定を実施するときには、2つの値(上側の点、下側の点)を確認する必要があります。

※ 上側、下側は上位、下位みたいなものです。例えば、上側5%の点というのは、ある値が上位5%に属するときの値を指しています。

ポイント2. 2標本の自由度によって、形が変わる

F分布のグラフは、2つの自由度 (k1,k2) によってグラフの概形が変化します。

そのため、F分布表から値を読み取る際には

  • 上側確率(与えられた信頼度 or 有意水準から計算する)
  • 標本1の自由度 k1
  • 標本2の自由度 k2

の3つの要素を把握する必要があります。

F分布表の構造としては、各上側確率 α ごとに、「標本1の自由度 k1、標本2の自由度 k2 」表があります。

表.F分布表(α=0.050 のとき、α=0.025 の2つの表がある

今まで出てきたt分布、カイ2乗分布では、2つの要素(信頼度 or 有意水準、自由度1つ)を用いて表から値を読み取っていたのに対し、F分布表では、自由度が2つになっているため、分布表を読み取るが少し大変かもしれません[1]例題や練習問題で、表の読み方も書いているので、ご安心を!

※ 表の読み方は、例題や練習問題にて改めて解説します。

ポイント3. 下側確率の読み取り方にはひと工夫必要

F分布表では、上側確率 5%, 2.5%(表によっては1%, 0.5%もあり)での値のみが与えられ、下側確率 5%, 2.5%, (1%, 0.5%)の値は与えられません。

そのため、下側確率 α の値をF分布表から読み取る際には、ひと工夫が必要です。

下側確率 α のF値をF分布表から読み取る方法

下側確率 α、自由度 (k1,k2) の値は、以下のStep1〜2の手順で読み取る。

Step1. 上側確率 α、自由度 (k2,k1) のときのF値を表から読み取る。(自由度が入れ替わるので注意!)

Step2. 読み取った値の逆数(1/F値)を取る。

【仕組み】

まず、下側確率が α ということは、上側確率は 1α となります。

よって、P(F>f)=1αを満たすような f を求めることがゴールとなります。

ここで、確率の合計は1なので、P(Ff)=αが成り立ちますね。

ここで、不等号にイコールがあったりなかったりするとややこしいので、イコールを消して(1)P(F<f)=αとしておきましょう。

つぎに、P(F<f) の左辺を右辺に、右辺を左辺に入れ替えてP(1f<1F)とすることで、(1)式をP(1F>1f)=αと変形できます。

ここで、F分布に従う変数 F は、定義よりF=χ12k1χ22k2と、分子分母に「各標本ごとのカイ2乗値 ÷ 各標本ごとの自由度」の形を取るのでしたね。(自由度 (k1,k2)

すると、1F1F=1χ12k1χ22k2=χ22k2χ12k1と、F と同じように分子分母に「各標本ごとのカイ2乗値 ÷ 各標本ごとの自由度」の形を取っていますね。

そのため、変数 F が自由度 (k1,k2) のF分布に従うのであれば、1F は自由度 (k2,k1) のF分布に従うといえますね。

※ 分子分母が入れ替わっているので、自由度も (k1,k2) から (k2,k1) と入れ替わる点に注意!

ここで、一旦 F=1F, f=1f とおき、P(F>f)=αとします。

ここで、F分布表にはP(F>f)=αとなるような f が確率 α、自由度 (k1,k2) に記されています。

そのため、F分布表から、確率 α 、自由度 (k2,k1) となる f も、F分布表から読み取ることができます。

最後に読み取った値を、f=1fとすることで、下側確率 α のときの値 f を求める事ができます。

スポンサードリンク

3. 母分散の比が推定できる仕組み

では、2標本の母分散の比 σ12σ22 を区間推定する方法について見ていきましょう。

まずは結論を紹介し、なぜその結論が導出できるか、の順で説明していきます。

母分散の比の信頼区間の推定方法

以下の表の通りに、2標本の標本サイズ、不偏分散、母分散の文字をおく。

標本1標本2
標本サイズ
(既知)
n1n2
不偏分散
(既知)
s12s22
母分散
(未知)
σ12σ22

このとき、以下の手順にて、標本分散 n1, n2 および、不偏分散 s12, s22 を用いて、母分散の比率 σ12σ22 の信頼区間を推定できる。

Step1. 信頼度 a %、および2標本に対する自由度 (k1,k2)=(n11,n21) に対して、F値の下側の点 F1、上側の点 F2 を、F分布表から読み取る。

(1) 上側の点 F2
α=a/2%=a/200、自由度 (k1,k2) に対応する値をF分布表から読み取る。

(2) 下側の点 F1
α=a/2%=a/200、自由度 (k2,k1) に対応する値をF分布表から読み取り、その逆数を取る。

信頼区間(F分布の世界で表した場合)

Step2. 信頼度 a % の信頼区間をF分布の世界で表すとF1FF2となる。

ここで、F=s12σ12s22σ2が成立するので、F1s12σ12s22σ2F2となる。

よって、信頼度 a %における2標本の母分散の比 σ12σ22 の信頼区間は、1F2s12s22σ12σ221F1s12s22と求められる。

信頼区間を、母分散の比 σ12σ22 の形に変形

※ 2標本の母分散の比を σ22σ12 とした場合の信頼区間は、F1s22s12σ22σ12F2s22s12となる。


信頼区間を、母分散の比 σ22σ12 の形に変形

【母分散の信頼区間の導出】

まず、ある標本サイズ n のカイ2乗値 χ2 (自由度: k=n1)に対してχ2=(n1)s2σ2(2)=ks2σ2の関係が成り立ちます。

※ 標本サイズ n、不偏分散 s2、母分散 σ2

ここで、標本1、標本2の標本サイズ、不偏分散、母分散、自由度を下の表に通りにおきます。

標本1標本2
標本サイズ
(既知)
n1n2
自由度k1=n11k2=n21
不偏分散
(既知)
s12s22
母分散
(未知)
σ12σ22

すると、(2)式と同じように(3)χ12=k1s12σ12(4)χ22=k2s22σ22の2式が成立します。

つぎに、式(3), 式(4)をF分布の定義式に代入します。F=χ12k1χ22k2=k1s12σ12k1k2s22σ22k2=s12σ12s22σ2

あとは、信頼区間に対応する下側の点 F1 と上側の点 F2 を読み取り、(5)F1s12σ12s22σ2F2となる σ12σ22 の範囲を見つければOKです。

あとは、式(5)のF1s12σ12s22σ2,   s12σ12s22σ2F2をそれぞれ変形して、aσ12σ22b の形にしていきます。

まず、F1s12σ12s22σ2は、両辺を σ12F1σ22 倍して、(6)σ12σ22s12F1s22とします。

同様に、s12σ12s22σ2F2に対して、両辺を σ12F2σ22 倍して、(7)s12F2s22σ12σ22とします。

あとは、式(6), 式(7)を合わせてs12F2s22σ12σ22s12F1s221F2s12s22σ12σ221F1s12s22とすれば、母分散の比 σ12σ22 に関する信頼区間の導出完了です。

【母分散の比率を σ22σ12 とした場合の信頼区間】

母分散の比率を σ22σ12 の信頼区間は、式(5)を分割したF1s12σ12s22σ2,   s12σ12s22σ2F2の2つの不等式の各両辺に s22s12 を掛けると導出できます。

実際に2つの不等式の各両辺に s22s12 を掛けると、F1s22s12s12σ12s22σ22s22s12F1s22s12s12σ12s22σ221s121s22(8)F1s22s121σ121σ22F1s22s12σ22σ12およびs12σ12s22σ22s22s12F2s22s12s12σ12s22σ221s121s22F2s22s121σ121σ22F2s22s12(9)σ22σ12F2s22s12となるので、式(8), 式(9)を合わせてF1s22s12σ22σ12F2s22s12と導出できます。

4. 例題を解いてみよう!(母分散の比の推定)

例題

ある大学では、1年生は1類、2類、3類の3つのクラスに分かれており、桃山先生は1類の1年生の講義「解析学1」の担当をしている。

桃山先生が受け持った1類の「解析学1」の成績分布について、以下のことがわかっている。

2024年度2023年度
履修人数6141
平均点7275
不偏分散10050

ある日、桃山先生は「解析学1」の点数のばらつき具合が2023年度と2024年度でどれくらい変化したかを調べようとしたが、桃山先生が担当していない2類、3類の「解析学1」の成績データは残っていない。

そこで、桃山先生は、自身が受け持った1類の成績データから、1年生の「解析学」の点数のばらつき具合が、2023年度に比べてどのように変わったか調べることにした。

2023年度に比べて、2024年度の「解析学」の母分散は何倍になったか。信頼度95%にて区間推定を行い、結果を小数第2位まで記しなさい。

※ 必要であれば、こちらからF分布表をダウンロードできます。

まず、各データから、変数をつぎのようにおきます。

2024年度2023年度
履修人数n1=61n2=41
不偏分散s12=100s22=50
母分散σ12σ22

求めたいものは、2023年度の母分散 σ22 に比べて、2024年度の母分散 σ12 は何倍になったかなので、σ22 に対する σ12 の倍率、つまりσ12σ22が取りうる区間を信頼度95%で求めていきます。

Step1. 使用する分布、自由度の確認

今回は、母分散の比率 σ12σ22 を区間したいので、F分布を使います。

また、自由度 (k1,k2)n1=61n2=41 なので、(k1,k2)=(n11,n21)=(60,40)となります。

Step2. 分布表からの値読み取り

今回は、信頼度95%の推定を実施するため、下の図のように分布の中心から両端に合計95%の確率が含まれるようにします。

分布の中心から両端に取った薄い灰色部分の面積は95%なので、残りの5%は半分(2.5%)ずつ上側2.5%と下側2.5%に分けられます。

ここで、上側97.5%(=下側2.5%)部分のF値の境界値を F1、上側2.5%のF値の境界値を F2 とおきます。つまり、F1 上側97.5%点(=下側2.5%点)、F2 は上側2.5%点となります。

[1] F2 の読み取り

F2 は上側2.5%点なので、上側確率2.5%に相当する、α=0.025 の表を使います。

あとは、自由度は (k1,k2)=(60,40) に対応するところを表から読めばOKです。

結果、1.803と読み取れます。F2=1.803 としましょう。

[2] F1 の読み取り

F1 は下側2.5%点(上側97.5%点)ですが、α=0.975 の表はありません。

なので、次の手順で下側2.5%点 F1 の値を読み取ります。

  1. 上側確率 α=0.025、自由度 (k2,k1) のときのF値を表から読み取る。
  2. 読み取った値の逆数(1/F値)を取る。

まず、自由度 (k2,k1)=(40,60)、つまり (k1,k2)=(40,60) に対応するところを表から読みます。

結果、1.744と読み取れます。この値の逆数が F1 となるので、F1=11.744となります。(Step2で、再び 1/F1 を計算するので、F1 は分数表記のままにしておきます。

信頼区間(F分布の世界で表した場合)

Step3. 区間推定の実施

あとは、推定公式1F2s12s22σ12σ221F1s12s22に入れればOKです。

実際に代入していくと、11.80310050σ12σ22111.7441005011.8032σ12σ221.744221.803σ12σ221.74421.109σ12σ223.488となります。

よって、信頼度95%での信頼区間 σ12σ221.11σ12σ223.49となったことにより、 2023年度に比べて、2024年度の「解析学」の母分散は 1.11~3.49 倍 になったと推定できます。

信頼区間を、母分散の比の形に変形

別解.変数のおきかたを変えた場合

2023年度と2024年度のデータを、以下のようにおいた人もいると思います。

2023年度2024年度
履修人数n1=41n2=61
不偏分散s12=50s22=100
母分散σ12σ22

このようにおいた場合、2023年度の母分散 σ12 に比べて、2024年度の母分散 σ22 は何倍になったか、つまりσ22σ12が取りうる区間を信頼度95%で求めればOKです。

ただし、自由度 (k1,k2)n1=41n2=61 なので、(k1,k2)=(n11,n21)=(40,60)となる点に注意が必要です。

また、上側2.5%点 F2α=0.025 の表の自由度は (k1,k2)=(40,60) に対応するところを表から読めばOKです。

すると、1.744と読み取れます。F2=1.744 としましょう。

[2] F1 の読み取り

また、下側2.5%点(上側97.5%点) F1 は、次の手順で読み取ります。

  1. 上側確率 α=0.025、自由度 (k2,k1) のときのF値を表から読み取る。
  2. 読み取った値の逆数(1/F値)を取る。

自由度 (k2,k1)=(40,60)、つまり (k1,k2)=(60,40) に対応するところを表から読むと、1.803と読めます。

1.803の逆数が F1 となるので、F1=11.803となります。

信頼区間(F分布の世界で表した場合)

あとは、公式F1s22s12σ22σ12F2s22s12に代入すると、11.80310050σ22σ121.7441005021.803σ22σ121.74421.109σ22σ123.488となるので、 2023年度に比べて、2024年度の「解析学」の母分散は 1.11~3.49 倍 になったと推定できます。

信頼区間を、母分散の比の形に変形

5. 練習問題チャレンジ!(母分散の比の推定)

練習問題

桃山食堂では、ご飯を自動で一定量盛り付ける機械を導入している。この食堂では、最近、新型の機械を導入し、旧型の機械と比較して盛り付けられるご飯の重さのばらつき具合がどのように変わったかを調査した。

実際に、新しい機械、古い機械からランダムにご飯を盛り付けて、その重さを測定したところ、以下のデータを得ることができた。(ただしお椀の重さは入っていない)

新型旧型
サンプル数2116
平均 [g]120118
不偏分散 [g2]2050

旧型の機械に比べて、新型の機械で盛り付けられるご飯の重さの母分散は何倍になったか。区間推定をし、結果を小数第2位まで示しなさい。

※ 必要であれば、こちらからF分布表をダウンロードできます。

6. 練習問題の解説

まず、各データから、変数をつぎのようにおきます。

新型旧型
サンプル数n1=21n2=16
不偏分散s22=20s22=50
母分散σ12σ22

旧型の母分散 σ22 に比べて、新型の母分散 σ12 は何倍になったかなので、σ22 に対する σ12 の倍率、つまりσ12σ22が取りうる区間を信頼度95%で求めていきます。

Step1. 使用する分布、自由度の確認

母分散の比率 σ12σ22 を区間したいので、F分布を使います。

また、自由度 (k1,k2)n1=21n2=16 なので、(k1,k2)=(n11,n21)=(20,15)です。

Step2. 分布表からの値読み取り

例題と同じく、信頼度95%の推定を実施するため、下の図のように分布の中心から両端に合計95%の確率が含まれるようにします。

上側97.5%(=下側2.5%)部分のF値の境界値を F1、上側2.5%のF値の境界値を F2 して、F1, F2 の値をF分布表から読み取ります。

[1] 上側2.5%点 F2

α=0.025 の表の自由度から、(k1,k2)=(20,15) に対応するところを表から読めばOKです。

すると、2.756と読み取れます。F2=2.756 としましょう。

[2] 下側2.5%(上側97.5%)点 F2

次の手順で下側2.5%点 F1 の値を読み取ります。

  1. 上側確率 α=0.025、自由度 (k2,k1) のときのF値を表から読み取る。
  2. 読み取った値の逆数(1/F値)を取る。

自由度 (k2,k1)=(20,15)、つまり (k1,k2)=(15,20) に対応するところを表から読むと、2.573と読めます。

2.573の逆数が F1 となるので、F1=12.573となります。

信頼区間(F分布の世界で表した場合)

Step3. 区間推定の実施

新型旧型
サンプル数n1=21n2=16
不偏分散s22=20s22=50
母分散σ12σ22

推定公式1F2s12s22σ12σ221F1s12s22に各データの値を代入していくと、12.7562050σ12σ22112.573205012.75625σ12σ222.5732522.7565σ12σ222.5730.40.145σ12σ221.029となります。

よって、信頼度95%での信頼区間 σ12σ220.15σ12σ221.03となったことにより、 「旧型のご飯盛り付け器で盛り付けたご飯の重量」に比べて、「新型のご飯盛り付け器で盛り付けたご飯の重量」の母分散は 0.15~1.03 倍 になったと区間推定できます。

信頼区間を、母分散の比の形に変形

別解.変数のおきかたを変えた場合

旧型と新型のデータを、つぎのように置いた場合の計算過程も見ていきましょう。

旧型新型
サンプル数n1=16n2=21
不偏分散s22=50s22=20
母分散σ12σ22

このようにおいた場合、旧型の母分散 σ12 に比べて、新型の母分散 σ22 は何倍になったか、つまりσ22σ12が取りうる区間を信頼度95%で求めればOKです。自由度 (k1,k2) は、n1=16n2=21 なので、(k1,k2)=(n11,n21)=(15,20)となる点に注意が必要です。

まず、上側2.5%点 F2α=0.025 の表の自由度は (k1,k2)=(15,20) に対応するところを表から読めばOKです。

すると、 2.573 と読み取れます。F2=2.573 としましょう。

つぎに下側2.5%点(上側97.5%点) F1 は、次の手順で読み取ります。

  1. 上側確率 α=0.025、自由度 (k2,k1) のときのF値を表から読み取る。
  2. 読み取った値の逆数(1/F値)を取る。

自由度 (k2,k1)=(15,20)、つまり (k1,k2)=(20,15) に対応するところを表から読むと、2.756と読めます。

2.756の逆数が F1 となるので、F1=12.756となります。

信頼区間(F分布の世界で表した場合)

あとは、公式F1s22s12σ22σ12F2s22s12に代入すると、12.7562050σ22σ122.573205022.7565σ22σ122.5730.40.145σ22σ121.029となるので、「旧型のご飯盛り付け器で盛り付けたご飯の重量」に比べて、「新型のご飯盛り付け器で盛り付けたご飯の重量」の母分散は 0.15~1.03 倍 になったと区間推定できます。

信頼区間を、母分散の比の形に変形

注釈

注釈
1 例題や練習問題で、表の読み方も書いているので、ご安心を!

関連広告・スポンサードリンク

おすすめの記事