【初心者向け：R】データをグループ毎に集計するには？group_by()とsummarise()の使い方を徹底解説【tidyverse推奨】

2025年5月4日

URLをコピーしました！

こんにちは。ほしのはやしです。

統計を考えるときに、複数の観測値をグループごとに集計することがよくあります。
たとえば、「地域ごとの売上合計」や「性別ごとの平均年齢」など。
そんなときに大活躍するのが、tidyverseのパッケージに含まれるdplyrの group_by() と summarise() です。

この記事では、初心者でも理解できるように、基本的な使い方をわかりやすく解説していきます！

グループ毎での合計を求める

まずは以下のコードで練習用のテーブルを作成します！

library(tidyverse)

# 架空の売上データを作成
sales_data <- tibble(
  store = c("Tokyo", "Osaka", "Tokyo", "Osaka", "Nagoya", "Tokyo"),
  staff = c("A", "B", "C", "D", "E", "F"),
  sales = c(100, 150, 120, 130, 90, 110)
)

sales_data

以下のコードでグループ毎に合計の値を算出します。

sales_data %>%
  group_by(store) %>%
  summarise(total_sales = sum(sales))

このように、『%>%』（パイプ演算子）を使うことで、データシートをグループ化（group_by）して要約する(summarise)、という表現になります。

もし表にNAがある場合はエラーが出ますので、下記のページを参考にNAを処理してから集計処理を行ってください！

グループ毎での平均・標準偏差・95%信頼区間など求める

続いて、統計に必要な平均値などの数値をグループ毎に出す方法についてご紹介します。

library(tidyverse)

sales_data %>%
  group_by(store) %>%
  summarise(
    count = n(), # N数の表示と、N数をcountと名付ける
    total_sales = sum(sales), # 合計の表示
    avg_sales = mean(sales), # 平均の表示
    sd_sales = sd(sales), # 標準偏差の表示
    se_sales = sd_sales / sqrt(count), # 標準誤差の表示
    ci_lower = avg_sales - 1.96 * se_sales, # 95%CI下限の表示
    ci_upper = avg_sales + 1.96 * se_sales # 95%CI上限の表示
  )