【初心者向け】たったこれだけ!統計の数値比較はこうやるべし!

  • URLをコピーしました!

こんにちは。ほしのはやしです。
統計って聞くだけでアレルギーが出て、本や画面をそっ閉じ…ありますよね。

細かいことを言ったらキリがないから、まずはパターン事に理解するのが大事です。

このページでは、2つの数値を比較する場合の統計手法を一気に解説します!
R studioでの使用を想定して、簡単なスクリプトも紹介します。
R studioのインストール方法は下記を参考にしてください!

目次

2つの数値を比較

基本パターン1(対応のないt検定:正規分布)

3年B組(それぞれ15人ずつ)の男子と女子の身長が統計的に差があるか調べたい!
こんなときに使うパターンです。

他には、血圧の薬を飲んでる人と飲んでない人で血圧に差があるか、などに使えます。

【コードの例:男子と女子の身長の統計差を調べたい】

テーブル名:datasheet1

HightSex
155Male
160Male
140Female
145Female
158Male

library(tidyverse)
t.test(Hight~Sex, data = datasheet1, var.equal = FALSE)

1行目は、tidyverseというパッケージを呼び出して、「t.test」を使えるようにしています。
R studioのプロジェクトを開いたときに1回やるだけで大丈夫です。
(閉じるとまた必要になります。。。)

「t.test」は、

t.test((比べたい数値)~(比べたいグループ), data = (読み込んだファイルの名前), var.equal = FALSE)

という構文が基本になります。
ここでは「Hight」=「身長」, 「Sex」=「性別」としています。
var.equal = FALSEというのは、2つのグループの分散が等しいかわからないことを前提にしているということを示しています。(Welchのt検定
一方、分散が等しい場合はStudentのt検定(var.equal = TRUE)を用いますが、統計に慣れてきてから勉強するのでよいでしょう。

基本パターン2(対応のあるt検定:正規分布)

3年B組30人のテストの点の平均点が、キンパツ先生が来る前と後で違うか調べたい!
こんなときに使います。

同じ人や物で、数値が変化した前後を調べたいときに使う統計手法です。

【コードの例:キンパツ先生の来る前後でクラスのテストの点の統計差を調べたい】

テーブル名:datasheet2

Test1Test2
7080
6570
8075
5090
7570

library(tidyverse)
t.test(Test1, Test2, data = datasheet2, paired = TRUE)

もし表のパターンが以下のようなときのコードも掲載します。

テーブル名:datasheet3

NoScoreKinpatsu
170before
180after
265before
270after
380before
375after

library(tidyverse)
t.test(Score~Kinpatsu, data = datasheet3, paired = TRUE)

通常はdatasheet2のようなパターンでエクセルファイルを作るのをオススメします。

さて、ここまで正規分布するパターンを前提に解説しました。
これらの統計手法をパラメトリック法といいます。
正規分布しない場合についての統計手法(ノンパラメトリック法)、次の項目で引き続き解説します。

正規分布かどうかは、過去の論文での扱われ方を調べたり、Shapiro-Wilk testというのを用いたりすることで、確認することができます。正規分布かわからなければノンパラメトリックにしておくと良いでしょう。

基本パターン3(対応のないノンパラメトリック検定:Wilcoxonの順位和検定)

正規分布しない(またはわからない)場合は、Wilcoxonの順位和検定を使用するのが最も簡単です。
先程の「datasheet1」の場合を想定してコードを示します。

library(tidyverse)
wilcox.test(Hight~Sex, data = datasheet1)

段々パターンがわかってきましたね!

マンホイットニーのU検定というのもありますが、実質Wilcoxonの順位和検定と同じ結果になるので、専門家以外は気にしなくていいでしょう

基本パターン4(対応のあるノンパラメトリック検定:Wilcoxonの符号付き順位検定)

正規分布しないバージョンの「対応のあるt検定」が、Wilcoxonの符号付き順位検定です。
先程の「datasheet2」の場合を想定してコードを示します。

library(tidyverse)
wilcox.test(Test1, Test2, data = datasheet2, paired = TRUE)

これで数値比較の基本パターンは終了です!

ただし、注意点が最後にあって、Wilcoxon検定は少ない方の集団数が6未満のときは不適切で、その場合はt検定を使うことが示唆されています。

まとめ

2つの数値を統計的に比較する場合の基本4パターンについて解説しました。
少しでも統計について慣れていただけると幸いです!

正規分布対応のない対応のある
するt検定対応のあるt検定
しない(わからない)Wilcoxonの順位和検定Wilcoxonの符号付き順位検定
  • URLをコピーしました!

この記事を書いた人

柴犬をこよなく愛する読書家。
街歩きとお菓子作りを趣味にしています。
研究や論文に役立つ情報をわかりやすくお伝えします。

コメント

コメントする

目次