こんにちは、おゆかよです。
この記事では、主成分分析(PCA:Principal Component Analysis)について学べます。複数の変数を効率よく扱う分析手法で、データの次元を減らして本質を見抜く技術です。
前回の記事:
試験の問題と解答
問題:複数の変数をもつデータに対する分析手法の記述のうち、主成分分析はどれか。
ア:変数に共通して影響を与える新たな変数を計算して、データの背後にある構造を取得する方法
イ:変数の値からほかの変数の値を予測して、データがもつ変数間の関連性を確認する方法
ウ:変数の値が互いに類似するものを集めることによって、データを分類する方法
エ:変数を統合した新たな変数を使用して、データがもつ変数の数を減らす方法 ← 正解!
主成分分析ってなに?

博士〜!また変な言葉出てきました。「主成分分析」ってなんですか?

「主成分分析」。これは、たくさんある変数を少ない代表的な変数にまとめる方法なんだよ。

え?まとめるって、どうやって?勝手に足したり引いたりしちゃうの?

単純に足し引きじゃなくて、統計的に最も情報を保てるような新しい変数を作るんだよ。それを「主成分」って呼ぶんだ。

ふむふむ。その「主成分」で、何ができるんですか?

例えばアンケートで「デザイン」「使いやすさ」「機能性」「価格」って4つの評価項目があったとする。
それらの背後には「高級感」とか「コスパ」みたいな共通した概念があるかもしれないだろう?

あー!わかるかも。なんか「この製品って全体的に高級っぽいよね」みたいな印象。

そう、それを数学的に抽出するのが主成分分析。要するに、「多すぎる変数をいい感じにまとめて、見やすくしよう!」って方法だね。

じゃあ、今回の選択肢「エ」みたいに「変数を統合した新たな変数を使って、変数の数を減らす」ってまさにそれですね!

大正解!
ちなみに他の選択肢も見てみようか。
- アは「因子分析」ってやつに近いかな。
- イは「重回帰分析」や「回帰分析」。
- ウは「クラスター分析」っていって、似たデータをグループに分ける手法だね。

なるほど〜、分析方法ってたくさんあるんですね…。でも今日は「主成分分析」をしっかり覚えました!
最後にもう一度、問題と解答を見てみよう
問題:複数の変数をもつデータに対する分析手法の記述のうち、主成分分析はどれか。
ア:変数に共通して影響を与える新たな変数を計算して、データの背後にある構造を取得する方法
イ:変数の値からほかの変数の値を予測して、データがもつ変数間の関連性を確認する方法
ウ:変数の値が互いに類似するものを集めることによって、データを分類する方法
エ:変数を統合した新たな変数を使用して、データがもつ変数の数を減らす方法 ← 正解!
まとめ
- 主成分分析は、データに含まれる多くの変数を少数の「主成分」にまとめて、情報を保ちながら次元を減らす手法。
- 多変量解析において、データの構造を理解したいときに使われる。
次の記事:
コメント