母 平均 の 差 の 検定
母平均の差の検定 対応なし
More than 1 year has passed since last update. かの有名なアヤメのデータセット 1 を使用して、2標本の母平均の差の検定を行います。データセットはscikit-learnのライブラリから読み込むことができます。
検定の手順は次の3つです。
データが正規分布に従うか検定
統計的仮説検定を行う場合、データが正規分布に従うことを前提としているため、データが正規分布に従うか確かめる必要があります。
2標本の母分散が等しいか検定
2標本の母平均の差の検定は、2標本の分散が等しいかで手法が変わるため、母分散の検定を行います。
2標本の母平均が等しいか検定
最後に母平均が等しいか検定します。
下記はより一般の2標本の平均に関する検定の手順です。 2
python 3. 6
scikit-learn 0. 19. 1
pandas 0. 23. 4
scikit-learnのアヤメのデータセットについて
『5. Dataset loading utilities scikit-learn 0. 母平均の差の検定 対応あり. 20. 1 documentation』(
データ準備
アヤメのデータを読み込みます。scikit-learnのデータセットライブラリにはいくつか練習用のデータセットが格納されています。
from sets import load_iris
# アヤメの花
iris = load_iris ()
このデータには3種類のアヤメのデータが入っています。アヤメのデータはクラス分類に使用されるデータで、targetというのがラベルを表しています。
iris. target_names
# array(['setosa', 'versicolor', 'virginica'], dtype=' 75
1. 32571
0. 2175978
-0. 5297804
2. 02978
One Sample t-test
有意水準( \(\alpha\) )を5%とした両側検定の結果、p値は0. 2175978で帰無仮説( \(H_0\) )は棄却されず平均値が0でないとは言えません。当該グループの睡眠時間の増減の平均値は0. 75[H]となり、その95%信頼区間は[-0. 5297804, 2. 0297804]です。
参考までにグループ2では異なった検定結果となります。
dplyr::filter(group == 2)%>%
2. 33
3. 679916
0. 0050761
0. 8976775
3. 対応のない2組の平均値の差の検定(母分散が既知) - 健康統計の基礎・健康統計学. 762322
スチューデントのt検定は標本間で等分散性があることを前提条件としています。等分散性の検定については別資料で扱いますので、ここでは等分散性があると仮定してスチューデントのt検定を行います。
(extra ~ group, data =., = TRUE, paired = FALSE))%>%
estimate1
estimate2
-1. 860813
0. 0791867
18
-3. 363874
0. 203874
Two Sample t-test
有意水準( \(\alpha\) )を5%とした両側検定の結果、p値は0. 0791867で帰無仮説( \(H_0\) )は棄却されず、平均値に差があるとは言えません。平均値の差の95%信頼区間は[-3. 363874, 0. 203874]です。
ウェルチのt検定は標本間で等分散性がないことを前提条件としています。ここでは等分散性がないと仮定してウェルチのt検定を行います。
(extra ~ group, data =., = FALSE, paired = FALSE))%>%
-1. 58
0. 0793941
17. 77647
-3. 365483
0. 2054832
Welch Two Sample t-test
有意水準( \(\alpha\) )を5%とした両側検定の結果、p値は0. 0793941で帰無仮説( \(H_0\) )は棄却されず、平均値に差があるとは言えません。平均値の差の95%信頼区間は[-3. 3654832, 0. 2054832]です。
対応のあるt検定は「関連のあるt検定」や「従属なt検定」と呼ばれる事もある対応関係のある2群間の平均値の差の検定を行うものです。 sleep データセットは「対応のある」データですので、本来であればこの検定方法を用いる必要があります。
(extra ~ group, data =., paired = TRUE))%>%
-4. 75
272. 9
この例題で使用する記号を次のように定めます。
それぞれのデータの平均値と不偏分散を求めます。
それぞれのデータから算出される分散をまとめた分散 (プールされた分散ともいいます)を、次の式から算出します。
テスト結果のデータに当てはめると、プールした分散は次のようになります。
次の式から母平均の差 の95%信頼区間を求めます。ただし、「 ()」は「自由度が()、信頼係数が%のときのt分布表の値を示します。
このデータの場合、自由度は5+4-2=7となります。t分布において自由度が7のときの上側2. 365」です。数学のテスト結果のデータを上の式に当てはめると、
【コラム】母平均の差の検定と正規分布の再生性
正規分布の再生性については14-2章で既に学びました。母集団1と母集団2が母分散の等しい正規分布 、 に従うとき、これらの母集団から抽出した標本の平均(標本平均) 、 はそれぞれ正規分布 、 に従うことから、これらの和(差)もまた、正規分布に従います。
ただし、母分散が既知という状況は一般的にはないので、 の代わりに標本から計算した不偏分散 を使います。2つの標本から2つの不偏分散 、 が算出されるので、これらを自由度で重み付けして1つにまとめた分散 を使います。
この式から算出されるtの値は自由度 のt分布に従います。
■おすすめ書籍
この本は、「こういうことやりたいが、どうしたらよいか?」という方向から書かれています。統計手法をベースに勉強を進めていきたい方はぜひ手にとってみてください。
20. 母平均の区間推定(母分散未知)
20-1. 標本とt分布
20-2. t分布表
20-3. 母平均の信頼区間の求め方(母分散未知)
20-4. 母平均の信頼区間の求め方(母分散未知)-エクセル統計
20-5. さまざまな信頼区間(母分散未知)
20-6. 母平均の差の信頼区間
事前に読むと理解が深まる - 学習内容が難しかった方に -
19. 母平均の区間推定(母分散既知) 19-2. 母平均の信頼区間の求め方(母分散既知)
20. 母平均の区間推定(母分散未知) 20-3. 母平均の差の検定 t検定. 母平均の信頼区間の求め方(母分散未知)
ブログ ゴセット、フィッシャー、ネイマン shapiro ( val_versicolor)
# p値 = 0. 46473264694213867
両方ともp値が大きいので帰無仮説を棄却できません。
では、データは正規分布に従っているといってもいいのでしょうか。統計的仮説検定では、帰無仮説が棄却されない場合、「帰無仮説は棄却されず、誤っているとは言えない」までしか言うことができません。したがって、帰無仮説が棄却されたからと言って、データが正規分布に従っていると言い切ることができないことに注意してください。ちなみにすべての正規性検定の帰無仮説が「母集団が正規分布である」なので、検定では正規性を結論できません。
今回はヒストグラム、正規Q-Qプロット、シャピロ–ウィルク検定の結果を踏まえて、正規分布であると判断することにします、。
ちなみにデータ数が多い場合はコルモゴロフ-スミルノフ検定を使用します。データ数が数千以上が目安です。 3
setosaの場合。
KS, p = stats. kstest ( val_setosa, "norm")
# p値 = 0. 0
versicolorの場合。
KS, p = stats. kstest ( val_versicolor, "norm")
データ数が50しかないため正常に判定できていないようです。
分散の検定
2標本の母平均の差の検定をするには、2標本の母分散が等しいか、等しくないかで検定手法が異なります。2標本の母分散が等分散かどうかを検定するのがF検定です。帰無仮説は「2標本は等分散である」です。
F検定はScipyに実装されていないので、F統計量を求め、F分布のパーセント点と比較します。今回は両側5%検定とします。
import numpy as np
m = len ( val_versicolor)
n = len ( val_setosa)
var_versicolor = np. var ( val_versicolor) # 0. 261104
var_setosa = np. 【統計学】母平均値の差の検定をわかりやすく解説!その1 (母分散が既知の場合) | 脱仙人からの昇天。からのぶろぐ. var ( val_setosa) # 0. 12176400000000002
F = var_versicolor / var_setosa # 2. 1443447981340951
# 両側5%検定
F_ = stats. f. ppf ( 0. 975, m - 1, n - 1) # alpha/2 #1.母平均の差の検定 対応あり
母平均の差の検定 T検定