主成分分析

スポンサーリンク

概要

 主成分分析とは、いくつかの変数から、総合的な指標を求める統計手法である。
 例えば、身長と体重のデータがあるとき、(データによるが)体が大きい指標などを求めることができる。


考え方

 いくつかのデータがあるとき、それらを総合した指標を求めたいと思うことがある。
 このとき、一番簡単なのが、それらのデータを足し合わせることだろう。

 例えば、上記の身長と体重で考えれば、双方を足し合わせれば、総合的な指標を得ることができる。

  指標 = 身長 + 体重

 ただ、これは明らかに間違っている。身長と体重では基準とする単位がkgとcmで異なり、またそれぞれの平均値なども異なるためである。

 この問題を解決する方法として、それぞれのデータにウエイト(重み)をつけてやればよい。

  総合指標 = a×身長 + b×体重 … (1)

 aとbの値を考えることで、体重のkgを身長のcmの値に変換することができる。例えば、体重の平均が50kgで、身長の平均が150cmならば、体重のウエイトを1のままで、身長を3分の1してやれば(身長の値を3で割れば)、総合的な指標としては問題ないはずである。

 そしてこのような、a(身長のウエイト)やb(体重のウエイト)を推計し、総合指標を求めようとするのが、主成分分析である。

 ただ、身長に重点を置くのか、体重に重点を置くのかで、aとbの値は異なってくる。上記は体重を基準としたが、身長を基準におけば、体重(b)を3倍する必要がある。

 このように、どのような基準を置くかで、aとbの組み合わせが異なってくる。

 そこで、総合指標の特徴がよく現れるように、総合指標の値と推計値の分散(違い)が大きくなるように、aとbの組み合わせを計算する。そして上記の(1)式の当てはまりがよいような組み合わせを計算していく。

 最も当てはまりがいいものが第1主成分、次に当てはまりがいいものが第2主成分などとなる。

 そして、いくつかの総合指標を求めるのが、主成分分析である。

コメント