主成分分析

スポンサーリンク

概要

 主成分分析とは、いくつかの変数から、総合的な指標を求める統計手法です。
 例えば、身長と体重のデータがあるとき、(データによるが)体が大きい指標などを求めることができます。

考え方

 いくつかのデータがあるとき、それらを総合した指標を求めたいと思うことがあります。
 このとき、一番簡単なのが、それらのデータを足し合わせることでしょう。

 例えば、上記の身長と体重で考えれば、双方を足し合わせれば、総合的な指標を得ることができます。

  指標 = 身長 + 体重

 ただ、これは明らかに間違っています。身長と体重では基準とする単位がkgとcmで異なり、またそれぞれの平均値なども異なるためです。

 この問題を解決する方法として、それぞれのデータにウエイト(重み)をつけてやればいいことになります。

  総合指標 = a×身長 + b×体重 … (1)

 aとbの値を考えることで、体重のkgを身長のcmの値に変換することができます。例えば、体重の平均が50kgで、身長の平均が150cmならば、体重のウエイトを1のままで、身長を3分の1してやれば(身長の値を3で割れば)、総合的な指標としては問題ないはずです。

 そしてこのような、a(身長のウエイト)やb(体重のウエイト)を推計し、総合指標を求めようとするのが、主成分分析です。

 ただ、身長に重点を置くのか、体重に重点を置くのかで、aとbの値は異なってきます。上記は体重を基準としましたが、身長を基準におけば、体重(b)を3倍する必要があります。

 このように、どのような基準を置くかで、aとbの組み合わせが異なってきます。

 そこで、総合指標の特徴がよく現れるように、総合指標の値と推計値の分散(違い)が大きくなるように、aとbの組み合わせを計算します。そして上記の(1)式の当てはまりがよいような組み合わせを計算していきます。

 最も当てはまりがいいものが第1主成分、次に当てはまりがいいものが第2主成分などとなります。

 このように、いくつかの総合指標を求めるのが、主成分分析です。

コメント