こんにちは。ほしのはやしです。
統計って慣れるまで本当につらいですよね。
今回は、2つの群の比較(例:男女比、運動の有無)をしたい場合の方法について説明します。
身長の平均など2つの数値の比較については別のページでまとめていますので、そちらをご覧ください。
このような数値で表せないデータのことをカテゴリー変数といいます!
数値で表すデータのことを連続変数といいます!
今回はカテゴリー変数を調べたいときに使う統計手法です!
2つの群を比較
どんな検定を使えばいいの?
たとえば、A大学の工学部と農学部で、男女比が異なることを統計的に示したいとします。
具体的には以下の表のような形ですね!
A大学 | 工学部 | 農学部 |
---|---|---|
男性 | 80人 | 60人 |
女性 | 20人 | 50人 |
ズバリ!Fisherの正確検定を使えば大きく問題はありません!!
実際には、上のような表でデータを集めることないですよね。
他の多くのサイトではわざわざこの表を作成する方法を説明しています。
ここではより実践に近い形でのR studioのコードについて説明します。
R studioのインストール方法は関連記事を参考にしてください!
具体的なコード(R studio)
テーブル名:datasheet
Sex | Department |
---|---|
Male | Engineering |
Male | Engineering |
Female | Engineering |
Female | Agriculture |
Female | Agriculture |
Male | Engineering |
… | … |
library(tidyverse)
fisher.test(datasheet$Sex, datasheet$Department)
これだけです!
この「$」は、どの表を使うか明示するときによく使う技術です
基本的には、デフォルト設定の両側検定をすればよいのですが、片側検定をしたい場合は下記のように追記してください。
library(tidyverse)
fisher.test(datasheet$Sex, datasheet$Department, alternative = “greater”)
もしくは
library(tidyverse)
fisher.test(datasheet$Sex, datasheet$Department, alternative = “less”)
詳しく勉強されたい方は、下記のブログがオススメです!
https://qiita.com/DeepMata/items/45678d3af97c01a3a277
まとめ
2つの群を統計的に比較する基本のFisher正確検定について解説しました。
少しでも統計について慣れていただけると幸いです!
コメント