こんにちは。ほしのはやしです。
統計って聞くだけでアレルギーが出て、本や画面をそっ閉じ…ありますよね。
細かいことを言ったらキリがないから、まずはパターン事に理解するのが大事です。
このページでは、2つの数値を比較する場合の統計手法を一気に解説します!
R studioでの使用を想定して、簡単なスクリプトも紹介します。
R studioのインストール方法は下記を参考にしてください!
2つの数値を比較
基本パターン1(対応のないt検定:正規分布)
3年B組(それぞれ15人ずつ)の男子と女子の身長が統計的に差があるか調べたい!
こんなときに使うパターンです。
他には、血圧の薬を飲んでる人と飲んでない人で血圧に差があるか、などに使えます。
【コードの例:男子と女子の身長の統計差を調べたい】
テーブル名:datasheet1
Hight | Sex |
---|---|
155 | Male |
160 | Male |
140 | Female |
145 | Female |
158 | Male |
… | … |
library(tidyverse)
t.test(Hight~Sex, data = datasheet1, var.equal = FALSE)
1行目は、tidyverseというパッケージを呼び出して、「t.test」を使えるようにしています。
R studioのプロジェクトを開いたときに1回やるだけで大丈夫です。
(閉じるとまた必要になります。。。)
「t.test」は、
t.test((比べたい数値)~(比べたいグループ), data = (読み込んだファイルの名前), var.equal = FALSE)
という構文が基本になります。
ここでは「Hight」=「身長」, 「Sex」=「性別」としています。
var.equal = FALSEというのは、2つのグループの分散が等しいかわからないことを前提にしているということを示しています。(Welchのt検定)
一方、分散が等しい場合はStudentのt検定(var.equal = TRUE)を用いますが、統計に慣れてきてから勉強するのでよいでしょう。
基本パターン2(対応のあるt検定:正規分布)
3年B組30人のテストの点の平均点が、キンパツ先生が来る前と後で違うか調べたい!
こんなときに使います。
同じ人や物で、数値が変化した前後を調べたいときに使う統計手法です。
【コードの例:キンパツ先生の来る前後でクラスのテストの点の統計差を調べたい】
テーブル名:datasheet2
Test1 | Test2 |
---|---|
70 | 80 |
65 | 70 |
80 | 75 |
50 | 90 |
75 | 70 |
… | … |
library(tidyverse)
t.test(Test1, Test2, data = datasheet2, paired = TRUE)
もし表のパターンが以下のようなときのコードも掲載します。
テーブル名:datasheet3
No | Score | Kinpatsu |
---|---|---|
1 | 70 | before |
1 | 80 | after |
2 | 65 | before |
2 | 70 | after |
3 | 80 | before |
3 | 75 | after |
… | … | … |
library(tidyverse)
t.test(Score~Kinpatsu, data = datasheet3, paired = TRUE)
通常はdatasheet2のようなパターンでエクセルファイルを作るのをオススメします。
さて、ここまで正規分布するパターンを前提に解説しました。
これらの統計手法をパラメトリック法といいます。
正規分布しない場合についての統計手法(ノンパラメトリック法)、次の項目で引き続き解説します。
基本パターン3(対応のないノンパラメトリック検定:Wilcoxonの順位和検定)
正規分布しない(またはわからない)場合は、Wilcoxonの順位和検定を使用するのが最も簡単です。
先程の「datasheet1」の場合を想定してコードを示します。
library(tidyverse)
wilcox.test(Hight~Sex, data = datasheet1)
段々パターンがわかってきましたね!
基本パターン4(対応のあるノンパラメトリック検定:Wilcoxonの符号付き順位検定)
正規分布しないバージョンの「対応のあるt検定」が、Wilcoxonの符号付き順位検定です。
先程の「datasheet2」の場合を想定してコードを示します。
library(tidyverse)
wilcox.test(Test1, Test2, data = datasheet2, paired = TRUE)
これで数値比較の基本パターンは終了です!
ただし、注意点が最後にあって、Wilcoxon検定は少ない方の集団数が6未満のときは不適切で、その場合はt検定を使うことが示唆されています。
まとめ
2つの数値を統計的に比較する場合の基本4パターンについて解説しました。
少しでも統計について慣れていただけると幸いです!
正規分布 | 対応のない | 対応のある |
---|---|---|
する | t検定 | 対応のあるt検定 |
しない(わからない) | Wilcoxonの順位和検定 | Wilcoxonの符号付き順位検定 |
コメント