うさぎでもわかる確率・統計 F分布のいろは② 等分散性の検定

スポンサードリンク

こんにちは、ももやまです。

前回のF分布のいろは①では、「F分布とはどんなものなのか」というところから、「F分布を用いて母分散の比率の区間推定」について勉強しました。

今回のF分布のいろは②では、「F分布を使って、2つの標本の母分散が等しいかどうか」を仮説検定する等分散性の検定の方法について学習していきましょう。

スポンサードリンク

1. F分布のおさらい

まずは、F分布について簡単におさらいしておきましょう。

F分布のおさらい

2つの各標本データの変数は、以下の表のように定義されているとする。

標本1標本2
カイ2乗値χ12χ22
標本サイズ
(既知)
n1n2
自由度k1=n11k2=n21
不偏分散s12s22
母分散σ12σ22

(1) F分布の定義

F=χ12k1χ22k2は、F分布に従う。※ 自由度: (k1,k2)

※ 上の式で計算される F をF統計量と呼ぶことにしましょう。

(2) F統計量と不偏分散、母分散の関係

F=χ12k1χ22k2=k1s12σ12k1k2s22σ22k2=s12σ12s22σ22

※1 F の自由度: (k1,k2)=(n11,n21)

※2 カイ2乗値 χ2 に対してχ2=(n1)s2σ2が成り立つことを変形で使用しています。

n: 標本サイズ、s2: 不偏分散、σ2: 母分散

(3) 下側確率をF分布表から読み取る方法

下側確率 α、自由度 (k1,k2) におけるF値は、以下のStep1〜2の手順で読み取る。

Step1. 上側確率 α、自由度 (k2,k1) のときのF値を表から読み取る。(自由度が入れ替わるので注意!)

Step2. 読み取った値の逆数(1/F値)を取る。

スポンサードリンク

2. まずは例題で確認!(等分散性検定の流れ)

実際に、等分散性の検定の流れを例題で確認しましょう。

例題

ある大学では、1年生は1類、2類、3類の3つのクラスに分かれており、桃山先生は1類の1年生の講義「解析学1」の担当をしている。

桃山先生が受け持った1類の「解析学1」の成績分布について、以下のことがわかっている。

2024年度2023年度
履修人数6141
平均点7275
不偏分散10050

ある日、桃山先生は「解析学1」の点数のばらつき具合について、2023年度と2024年度の変化度合いを調べようとしたが、桃山先生が担当していない2類、3類の「解析学1」の成績データは残っていない。そこで、桃山先生は、つぎの仮説検定を行うことにした。

2024年度の解析学の点数の母分散 σ12 は、2023年度の解析学の点数の母分散 σ22 と等しいといえるか。

この仮説検定を行うために、(1)〜(5)の問いに答えなさい。

(1) 帰無仮説と対立仮説を述べなさい。
(2) この検定に必要な分布を答えなさい。自由度がある分布であれば、自由度も述べること。
(3) 与えられた「解析学1」の成績分布から、この検定で使う統計量を計算しなさい。
(4) 有意水準(危険率)5%で仮説検定を行う。この検定で使う臨界値をすべて求めなさい。(小数の形で表していなくてもよい。)
(5) 有意水準5%で結論を述べなさい。

※ 臨界値:仮説の採択/棄却が変わる境界値のこと。片側検定であれば1つ、両側検定であれば2つある。

※ 必要であれば、こちらからF分布表をダウンロードできます。

解説.

問題を解く前に、与えられたデータから変数をつぎのようにおきます。

※ 母分散 σ12σ22 に対応するように変数の添字1, 2をつけています。

2024年度
(標本1)
2023年度
(標本2)
履修人数n1=61n2=41
不偏分散s12=100s22=50
母分散σ12σ22

(1) 帰無仮説と対立仮説

等分散性の検定では、帰無仮説で2標本の母分散が等しいことを仮定し、対立仮説で帰無仮説の否定、つまり2標本の母分散が等しくないことを検定します。

帰無仮説 H0: 仮説検定をするための「仮定」
2024年度の解析学の点数の母分散 σ12 と、2023年度の解析学の点数の母分散 σ22 が等しい。つまり、σ12=σ22

対立仮説 H1: 仮説検定を否定することで示したいもの
2024年度の解析学の点数の母分散 σ12 と、2023年度の解析学の点数の母分散 σ22 が等しくない。つまり、σ12σ22

(2) 必要な分布と自由度の確認

等分散性の検定では、F分布を使用します。また、その自由度は2つの標本の組み合わせによって決まります。

今回は、2024年度のデータ(標本1)に対する自由度を k1、2023年度のデータ(標本2)を k2 としましょう。

2024年度
(標本1)
2023年度
(標本2)
履修人数n1=61n2=41
自由度k1=n11k2=n21
不偏分散s12=100s22=50
母分散σ12σ22

すると、自由度の組み合わせは (k1,k2)n1=61n2=41 なので、(k1,k2)=(n11,n21)=(60,40)となります。

(3) F統計量の計算

今回の検定で使うF統計量を計算していきます。

まず、F値はF=s12σ12s22σ22で計算できるのでしたね。

ここで、帰無仮説で σ12=σ22 を仮定していましたね。

そのため、F統計量はF=s12σ12s22σ22=s12σ12s22σ12=s12s22で計算ができます。

あとは、s12=100s22=50 を代入すればF統計量の導出完了です。F=s12s22=10050=2

(4) F分布表の読み取り:臨界値(採択/棄却の境界値)の確認

つぎに、有意水準5%に対応する F の値(=臨界値)を求めていきます。

等分散性の仮説検定では、対立仮説が σ12σ22 なので、母分散の比率が小さすぎる場合、母分散の比率が大きすぎる場合の両方を考慮する必要があります。

両側検定なので、左端(下側の点)と右端(上側の点)の両方が棄却域となる。

そのため、等分散性の仮説検定は必ず両側検定で実施します。

ここで、F1F2 を次のようにおきましょう。

  • F1 … 母分散の比率が小さすぎる場合の臨界値(下側2.5%点、上側97.5%点)
    → F統計量が、この値よりも小さい場合は仮説が棄却される
  • F2 … 母分散の比率が大きすぎる場合の臨界値(上側2.5%点)
    → F統計量が、この値よりも大きい場合は仮説が棄却される

[i] 母分散の比率が大きすぎる場合の臨界値 F2

F2 は上側2.5%点なので、上側確率2.5%に相当する、α=0.025 の表を使います。

自由度は (k1,k2)=(60,40) に対応するところを表から読むと、1.803と読み取れます。

なので、F2=1.803 ですね。

[ii] 母分散の比率が小さすぎる場合の臨界値 F1

F1 は下側2.5%点(上側97.5%点)ですが、α=0.975 の表はありません。

なので、次の手順で上側2.5%点 F1 の値を読み取ります。

  1. 上側確率 α=0.025、自由度 (k2,k1) のときのF値を表から読み取る。
  2. 読み取った値の逆数(1/F値)を取る。

まず、自由度 (k2,k1)=(60,40)、つまり (k1,k2)=(40,60) に対応するところを表から読むと、1.744と読めます。

この値 (1.744) の逆数が F1 となるので、F1=11.744となります。( F1F の大小がわかればいいので、1/小数の形のままにします。)

※ 3章で詳しく説明しますが、"[ii] 母分散の比率が小さすぎる場合の臨界値" のステップは省略可能です。

(5) 採択/棄却の判定

あとは、(3)計算したF統計量F=s12s22=2および、(4)でF分布表から得た臨界値 F1=11.744F2=1.803 から結論を出します。

【結論の出し方】

  • F統計量 F が2つの臨界値 F1, F2 におさまっている場合、つまり F1FF2
    → 仮説は採択:母分散が等しくないとは言えない
  • F統計量 F が2つの臨界値 F1, F2 におさまっていない場合、つまり F<F1 もしくは F>F2
    → 仮説は棄却:母分散が等しくないと言える
分からなくなったら、図をかきましょう

今回は、F=2F2=1.803 なので、F=2>1.803=F2ですね。よって、仮説は棄却され、2024年度の解析学の点数の母分散 σ12 は、2023年度の解析学の点数の母分散 σ22 は等しくないと結論付けられます。

補足.等分散性の仮説検定の結果と母比率の信頼区間の関係

等分散性の検定では、2標本の母分散 σ12, σ22 が等しい(σ12=σ22)という仮定をしてから、σ12=σ22 となる確率が有意水準よりも小さい(棄却)か小さくない(採択)かを判定しています。

ここで、σ12=σ22 というのは、母分散の比 σ12σ22σ12σ22=1と言い換えられますね。

そのため、等分散性の仮説検定の結果と母比率の信頼区間には、以下のような関係があると言えます。

  • 有意水準 a %にて仮説が採択された
    → 信頼度 100a %での母分散の比の信頼区間に 1 が含まれる
  • 有意水準 a にて仮説が棄却された
    → 信頼度 100a %での母分散の比の信頼区間に 1 が含まれない

※ 実際に、今回の例題で使用した等分散性の検定の問題でも、上の関係は成り立っています。

  • 結論 → 棄却
  • 母分散の比率の信頼区間:1.11~3.49(信頼区間に1が含まれない)

スポンサードリンク

3. 等分散検定の省略テクニック紹介

ここで、等分散性の計算を少し早くするテクニックを紹介しましょう。

標本1標本2
標本サイズn1n2
自由度k1=n11 k2=n21
不偏分散s12=100s22=50
母分散σ12σ22

ポイントは、2つの標本のデータのうち、より不偏分散が大きい方を s12 となるように標本を決めることです。

s12s22 になるように標本1, 標本2を設定することで、F=s12s221となります。

ここで下側確率(例: 2.5%、5%、10%、20%など)に対する臨界値 F1 は、必ず F<1 となる法則があります[1]F分布表に上側確率が書いていると思いますが、全部 F>1 … Continue reading

そのため、F1 の値を求めなくても、F1<F の関係が成り立ちます。

よって、仮説検定の結果(採択/棄却)を判定する際には、F と上側の臨界点 F2 だけを確認すればOKとなります。

  • FF2 のとき
    → 仮説は採択:母分散が等しくないとは言えない
  • F>F2 のとき
    → 仮説は棄却:母分散が等しくないといえる
等分散性検定の時間短縮技

s12s22 になるように標本1, 標本2を設定することで、採択/棄却の判定を、以下のように省略できる。

具体的には、F統計量F=s12s221を、上側確率の臨界点 F2 と比べるだけで採択/棄却の結論を出せる。

  • FF2 のとき
    → 仮説は採択:母分散が等しくないとは言えない
  • F>F2 のとき
    → 仮説は棄却:母分散が等しくないといえる

※ 下側確率に対する臨界点 F1 の計算は不要。F>1 かつ F11 なので、F1F に対して F1<F が成り立つため。

ただし、どうしても計算したい場合は1F <Fと表記することで、F1<F を明示できる。

4. 等分散性の検定手順まとめ

等分散性の検定手順まとめ

2標本の母分散が等しいかどうかを、標本サイズ n1, n2、不偏分散 s12, s22 を用いて、有意水準 a % で検定する流れは以下の通り。

事前準備.(実施するとStep4, Step5の一部計算、処理を省略できる)

標本1の不偏分散 s12 が標本2の不偏分散 s22 以上( s12s22 になるように、標本1、標本2とし、以下のように変数をおく。

標本1標本2
標本サイズ
(既知)
n1n2
自由度k1=n11 k2=n21
不偏分散
(既知)
s12=100s22=50
母分散
(未知)
σ12σ22

Step1. 帰無仮説と対立仮説を立てる

帰無仮説 H0: 仮説検定をするための「仮定」
σ12=σ22

対立仮説 H1: 仮説検定を否定することで示したいもの
σ12σ22

Step2. 必要な分布、自由度を確認する

使う分布: F分布
自由度: (k1,k2)=(n11,n21)

Step3. F統計量の計算

帰無仮説にて、σ12=σ22 としているので、F統計量は以下のように計算できる。F=s12σ12s22σ22=s12σ12s22σ12=s12s22

※ 事前準備で s12s22 としている場合は、必ず F1 となる。

Step4. F分布表の読み取り:臨界値(採択/棄却の境界値)の確認

対立仮説が、σ12σ22 なので、両側検定を実施する。

  • F1 … 下側 a/2 %点 [上側 100a %点]
  • F2 … 上側 a/2 %点

※ 事前準備済の場合は F1 の計算不要

[i] F2(上側 a % 点)

F2 は、上側確率 ( \alpha = a / 200 )、自由度 (k1,k2) のときのF値を表から読み取ったものである。

[ii] F1(下側 a/2 %点 [上側 100a %点])

※ 事前準備済の場合は計算不要[2]事前準備で s12s22 としているため、F>1 が成り立つ。また、F1<1 なので、常にF1<F が成り立つ。

F1 は次の流れで求められる。

  • 上側確率 α=a/200、自由度 (k2,k1) のときのF値を表から読み取る。
  • 読み取った値の逆数(1/F値)を取る。

※ 事前準備をしたが、どうしても F1 を計算したい場合は、1F の形まで出してもOK。(この形まで出せば、F1<1 が自明になるため。)

Step5. F分布表の読み取り:臨界値(採択/棄却の境界値)の確認

★事前準備済の場合σ12σ22 としている場合)

  • FF2 のとき
    → 仮説は採択:母分散が等しくないとは言えない
  • F>F2 のとき
    → 仮説は棄却:母分散が等しくないといえる

F1<F なので、FF2 に対する不等号を確認すればOK。

★事前準備をしていない場合

  • F1FF2 のとき
    → 仮説は採択:母分散が等しくないとはいえない
  • F<F1 もしくは F>F2 のとき
    → 仮説は棄却:母分散が等しくないといえる

5. 練習問題で確認

最後に、今回習った内容が理解できているかを練習問題で確認しましょう。

小問はつけていません。

練習問題

桃山食堂では、ご飯を自動で一定量盛り付ける機械を導入している。この食堂では、最近、新型の機械を導入し、旧型の機械と比較して盛り付けられるご飯の重さのばらつき具合がどのように変わったかを調査した。

実際に、新しい機械、古い機械からランダムにご飯を盛り付けて、その重さを測定したところ、以下のデータを得ることができた。(ただしお椀の重さは入っていない)

新型旧型
サンプル数2116
平均 [g]120118
不偏分散 [g2]2050

問題.旧型の機械で盛り付けられるご飯の重さと、新型の機械で盛り付けられるご飯の重さの母分散は、同じとみなしてよいか? 有意水準(危険率)5%で推定しなさい。

※ 必要であれば、こちらからF分布表をダウンロードできます。

6. 練習問題の答え

問題を解く前に、与えられたデータから変数をつぎのようにおきます。

s12s22 となるように標本1、標本2を設定しています。

旧型
(標本1)
新型
(標本2)
サンプル数n1=16n2=21
自由度k1=n11k2=n21
不偏分散 [g2]s12=50s22=20
母分散 [g2]σ12σ22

Step1. 帰無仮説、対立仮説を立てる

帰無仮説 H0: 仮説検定をするための「仮定」
旧型の機械で盛り付けられるご飯の重さの母分散 σ12 と、新型の機械で盛り付けられるご飯の重さの母分散 σ22 が等しい。つまり、σ12=σ22

対立仮説 H1: 仮説検定を否定することで示したいもの
旧型の機械で盛り付けられるご飯の重さの母分散 σ12 と、新型の機械で盛り付けられるご飯の重さの母分散 σ22 が等しくない。つまり、σ12σ22

Step2. 使用する分布、自由度の確認

使用する分布: F分布

自由度: (k1,k2)=(n11,n21)=(15,20)

Step3. F統計量の計算

帰無仮説にて、σ12=σ22 としているため、F統計量は以下のように計算できる。F=s12σ12s22σ22=s12σ12s22σ12=s12s22=5020=2.5

Step4. F分布表の読み取り:臨界値(採択/棄却の境界値)の確認

有意水準5%に対応する F の値(=臨界値)を求めていきます。

等分散性の仮説検定では、母分散の比率が小さすぎる場合、母分散の比率が大きすぎる場合の両方を考慮する必要があります。よって、両側検定を行います。

まず、F1F2 を次のようにおきましょう。

  • F1 … 母分散の比率が小さすぎる場合の臨界値(上側97.5%点、下側2.5%点)
    → F統計量が、この値よりも小さい場合は仮説が棄却される
  • F2 … 母分散の比率が大きすぎる場合の臨界値(上側2.5%点)
    → F統計量が、この値よりも大きい場合は仮説が棄却される

ここで、事前に s12s22 を仮定しているので、下側確率の臨界点 F1 の導出は省略できます[3]どうしても求めたい場合は、α=0.025、自由度は (k1,k2)=(20,15) のF値 2.756 を求めて、F1=12.756<1としましょう。。(必ず F1<F となる。)

なので、F2 をF分布から求めていきましょう。

[i] 母分散の比率が大きすぎる場合の臨界値 F2

F2 は上側2.5%点なので、上側確率2.5%に相当する、α=0.025 の表を使います。

自由度は (k1,k2)=(15,20) に対応するところを表から読むと、2.573と読み取れます。

なので、F2=2.573 ですね。

Step5. F分布表の読み取り:臨界値(採択/棄却の境界値)の確認

あとは、FF2 の大小関係を確認するだけでOK。(F1 なので、F1<F は明らか)

  • FF2 のとき
    → 仮説は採択:母分散が等しくないとはいえない
  • F>F2 のとき
    → 仮説は棄却:母分散が等しくないといえる

今回は、F=2.500F2=2.573 なので、FF2 ですね。

よって仮説は採択され、「旧型の機械で盛り付けられるご飯の重さの母分散 σ12 と、新型の機械で盛り付けられるご飯の重さの母分散 σ22 が等しくないとは言えない」と結論付けられます。

注釈

注釈
1 F分布表に上側確率が書いていると思いますが、全部 F>1 ですね。下側確率は、上側確率でのF値の逆数となるため、(少なくとも仮説検定で使う範囲の)下側確率におけるF値は F<1 です。
2 事前準備で s12s22 としているため、F>1 が成り立つ。また、F1<1 なので、常にF1<F が成り立つ。
3 どうしても求めたい場合は、α=0.025、自由度は (k1,k2)=(20,15) のF値 2.756 を求めて、F1=12.756<1としましょう。

関連広告・スポンサードリンク

おすすめの記事