お役立ちコラム

クラスター分析とは|ビジネスでの活用事例とやり方を解説

クラスター分析とは|ビジネスでの活用事例とやり方を解説

クラスター分析は、データ全体の中から似たデータ同士をグルーピングする分析手法です。顧客の購買履歴やアンケート調査で収集した意識や価値観など、データ量が膨大かつ分類基準が不明瞭なデータをグループ分けすることで、グループごとの特性や、データ全体のおおまかな傾向を把握することができます。

ビジネスにおいては、顧客層を特性ごとに分けたり、ブランドのポジショニング分析に使用されるなど、マーケティング現場で多く活用されています。

本記事では、クラスター分析を活用した事例や分析のやり方、分析時に注意が必要なポイントについて解説します。

クラスター分析とは類似データ同士をグループ分けする分析方法

クラスター(cluster)とは、集団・群れを指す言葉です。クラスター分析は、データ全体のなかから似ているデータ同士をグルーピングする分析手法で、グループ化されたデータの集まりは、クラスターと呼ばれます。

分析の対象は、人間や企業、競合商品など多岐にわたります。分析を通じて膨大なデータをグループ化することで、クラスターごとの特性や、データ全体のおおまかな傾向を把握することができます。

クラスター分析では、設定するクラスターの数に決まりはありません。必要に応じて、任意の数のクラスターに分けることができます。また、性別や年齢、在住地域など、分類基準が明確なデータではなく、意識や価値観など分類基準が不明確な指標を用いて分析することが特徴です。

クラスター分析の手法は2種類あります。

階層クラスター分析

階層クラスター分析とは、データ群のなかで最も近いデータ同士を順にまとめていき、徐々にクラスターの数を少なくしていく手法です。似たデータごとに分類していく過程で、デンドログラム(樹形図)ができあがります。そのため、視覚的にクラスターの構成を把握しやすいのが特徴です。

また、最初からクラスター数を設定する必要がない点も、特徴の1つです。扱うデータによっては、そもそもいくつのクラスターに分類すればよいか、分析の初期段階で決定できないこともあります。階層クラスター分析は、後から任意のラインで区切ることができるため、分析を進める過程で適切なクラスター数を決められます。

一方で、階層クラスター分析は、全てのデータを総当たりで計算します。データが増えれば増えるほど計算量が増えてデンドログラムは大きくなっていくため、分析結果も複雑になってしまいます。そのため、扱うデータ量が多すぎる場合には不向きな手法です。

階層クラスター分析では、データ同士が似ているか似ていないかをもとに分類していきます。このとき、分析者の感覚で似ているかどうかを判別するのではなく、クラスター間の距離を測定し、数量的に表します。代表的な距離の定義は以下です。

ウォード法 クラスターを併合するときに失われる情報量を最小にするように、重心と個体との偏差の二乗和をとる方法
最短距離法(最近隣法) クラスター間の距離を「各クラスターのそれぞれ最も近い距離の個体の組み合わせ」とする方法
最長距離法(最遠隣法) クラスター間の距離を「各クラスターのそれぞれ最も遠い距離の個体の組み合わせ」とする方法
重心法 クラスター間の距離を「各クラスターの重心の組み合わせ」とする方法
群平均法 クラスター間の距離を「各クラスターの個体間のすべての対の距離の平均」とする方法
メディアン法 クラスター間の距離を「ある2つのクラスターの重心間の中央値と別のクラスターの重心」とする方法
その他 可変法など

非階層クラスター分析

非階層クラスター分析とは、デンドログラムなどの階層的な構造がなく、事前にクラスター数をいくつに設定するかを決めておき、決めた数のグループに分割していく手法です。代表的な手法にはk平均法(k-means法)があります。

k平均法(k-means法) 分析者によって暫定的に決められたクラスター数「k」個に分類したあと、k個のクラスターのそれぞれの重心間の距離が最大になるまで再配置する方法
その他 超体積法など

階層クラスター分析とは違い、最終的なクラスター数を分析前に決めておきます。そのため計算効率が良くなり、データ量の大小にかかわらず利用しやすいのが特徴です。

なお、クラスター数を事前に決めておくことがデメリットになる場合もあります。正しい分析結果を得るには、最適なクラスター数を設定することが重要です。場合によっては何度か設定を変え、繰り返し分析する必要が生じます。

クラスター分析を活用した事例

クラスター分析の活用事例を知ると、クラスター分析がどう使われるか、一層わかりやすくなるのではないでしょうか。以下に2つ、クラスター分析を業務に活用している事例を解説します。

属性情報以外のデータを分析し、顧客ニーズごとの施策を実施

性別や年齢のような属性情報の分析だけでは分からない顧客の傾向をつかむのにクラスター分析が役立ちます。

顧客の購買データや嗜好をもとにクラスター分析を行えば、グルーピングしたクラスターごとのニーズの予測や、そのニーズに合わせたマーケティング戦略に活用することができます。

地域別にグルーピングし、消費傾向から需要を予測

次は、実際のクラスター分析結果を例に、どのように活用できるのか解説します。

総務省統計局は、総務省が実施している公的データ「全国消費実態調査」を用いて、各都道府県世帯別の特徴を捉えるためにクラスター分析を行った結果、以下の傾向が見られました。

【分析結果:デンドログラム】

クラスターデンドログラムの図

引用:総務省統計局「高校生のための統計学習教材 第2構(P.24)

【分析結果:グループ図】

グループ図

引用:総務省統計局「高校生のための統計学習教材 第2構(P.25)

分析の結果、隣接する都道府県や、農産物の生産力が高い地域同士で似た消費傾向があることがわかりました。得られた分析結果をもとに消費傾向ごとに需要を予測するなど、新たな切り口でデータを見ることができるようになります。

クラスター分析のやり方

効率的に分析を進め、求める結果を得るためには、適切な方法で分析を行うことが大切です。本章では、クラスター分析のやり方を、4つのステップに沿って解説します。

  1. 分析目的を明確にし、データを収集する
  2. 階層クラスター分析と非階層クラスター分析のどちらを使うか選択する
  3. 分類基準となる距離の定義を決める
  4. 分析手法を決める

1.分析目的を明確にし、データを収集する

クラスター分析は、年齢や性別などの明確なデータではなく、意識や価値観など基準が不明瞭なデータから似たものをまとめる手法です。この特徴を踏まえて、分析結果をどのように活用するのか明確にすることが重要です。現状の課題や問題点など、分析を通じて何を解決したいのかを考えると、自ずと目的が見えてきます。

目的が定まったら、次はどのようなデータを収集するのか決定します。顧客アンケートやサイトのアクセス情報など、目的にあった調査データを用意します。

GMO Askで簡単にアンケート調査!

GMO Ask|”聞きたい”を誰でも、手軽に、簡単に。|気軽に生活者の声を集められる、完全DIY型アンケートプラットフォーム

GMO GMO Askは、Google Forms®でアンケートを作成し、セルフでアンケートモニターに配信できるプラットフォームです。クラスター分析に用いるデータをアンケートで得たい場合には、ぜひGMO Askをご活用ください。

2.階層クラスター分析と非階層クラスター分析のどちらを使うか選択する

階層クラスター分析と非階層クラスター分析のどちらで分析を行うか決定します。どちらの手法が適しているかわからない場合は、サンプルサイズを目安に使い分けることがポイントです。

▼階層クラスター分析と非階層クラスター分析を使い分けるサンプルサイズの目安

サンプルサイズ 使用する分析の種類
100以下 階層クラスター分析
100~300程度 階層クラスター分析・非階層クラスター分析を併用
300以上 非階層クラスター分析か、 サンプル抽出により階層クラスター分析

サンプルサイズについて詳しく知りたい方は、「適切なサンプルサイズが調査成功の鍵|計算方法や決め方を解説」をご覧ください。

3.分類基準となる距離の定義を決める

クラスター分析では、データ間の距離によって、個体同士が似ているかどうかを判別します。データ間の距離の定義は複数あるため、分析時に悩まないためにも、事前にどの方法で分類していくか決めていくことが大切です。

▼代表的な距離の定義

ユークリッド距離(直線距離) 変数同士に相関があるときに用いられる
マンハッタン距離(市街地距離) マンハッタンや京都のような碁盤の目状の道路を通るときの距離
チェビシェフ距離 同じ次元の変数を、別の次元の変数とみなしたい場合に用いる
ミンコフスキー距離 ユークリッド距離とマンハッタン距離を含む指標

4.分析手法を決める

距離の定義を決めたら、次は目的や仮説に適した分析手法を選びます。階層クラスター分析なら「ウォード法」、非階層クラスター分析なら「k平均法(k-means法)」が一般的とされています。

階層クラスター分析の各手法と概要を知りたい方は「階層クラスター分析」の章、非階層クラスター分析を知りたい方は「非階層クラスター分析」の章をご覧ください。

クラスター分析を行う際の注意点

より精度の高い分析結果を得るには、ポイントを押さえて分析を行うことが重要です。最後に、クラスター分析を行う際の注意点を2つ解説します。

分析者の主観が入ってしまう可能性がある

クラスター分析で得られた結果をどのように解釈するかは、分析者に委ねられます。分析者の先入観や願望が、意図せず結果に影響してしまう可能性があるため、客観的な分析結果として用いるには適していません。

判断基準によって結果が変わることがある

データが似ているかを判別する方法は複数あるため、どの基準を用いるかによって分析結果に違いが出ることがあります。また、最適な基準は、扱うデータによって異なります。

クラスター数の変更や分類基準の見直し、必要に応じて回帰分析など別の分析手法も併用するなど、1つの手法に頼りすぎず、違うやり方を試すことも重要です。

まとめ|クラスター分析はデータ全体の傾向を把握できる分析手法の一つ

クラスター分析は、データ全体のなかから似ているデータ同士をグルーピングする分析手法です。意識や価値観など、分類基準が不明確な指標によって分類を行うことで、単にデータをながめるだけではわからなかった傾向を知ることができます。

また、分析で得られた結果を活用することで、販売促進やリード獲得など各種マーケティング施策の立案・改善に役立てることができます。しかし、分析者の主観が結果に影響してしまったり、判断基準によって結果が変わる可能性もあるため注意が必要です。

クラスター分析を実施する際には、分析目的に沿った大量のデータが必要です。アンケートでクラスター分析に用いるデータを収集したい場合は、GMO Askの活用もご検討ください。

GMO Askで簡単にアンケート調査!

GMO Ask|”聞きたい”を誰でも、手軽に、簡単に。|気軽に生活者の声を集められる、完全DIY型アンケートプラットフォーム

GMO GMO Askは、Google Forms®でアンケートを作成し、セルフでアンケートモニターに配信できるプラットフォームです。クラスター分析に用いるデータをアンケートで得たい場合には、ぜひGMO Askをご活用ください。

よくある質問

Q1.クラスター分析のやり方は?

クラスター分析は、以下の手順に沿って行いましょう。

  1. 分析目的を明確にし、データを収集する
  2. 階層クラスター分析と非階層クラスター分析のどちらを使うか選択する
  3. 分類基準となる距離の定義を決める
  4. 分析手法を決める

詳しくは、「クラスター分析のやり方」をご覧ください。

Q2.クラスター分析を行う際、どのような点に注意すればよい?

クラスター分析を行う際には、以下の2点に注意しましょう。

  • 分析者の主観が入ってしまう可能性がある
  • 判断基準によって結果が変わることがある

詳しくは、「クラスター分析を行う際の注意点」をご覧ください。

まずはお気軽に
ご相談ください!

お問い合わせ