概要
主成分分析とは、いくつかの変数から、総合的な指標を求める統計手法です。
例えば、身長と体重のデータがあるとき、(データによるが)体が大きい指標などを求めることができます。
考え方
いくつかのデータがあるとき、それらを総合した指標を求めたいと思うことがあります。
このとき、一番簡単なのが、それらのデータを足し合わせることでしょう。
例えば、上記の身長と体重で考えれば、双方を足し合わせれば、総合的な指標を得ることができます。
指標 = 身長 + 体重
ただ、これは明らかに間違っています。身長と体重では基準とする単位がkgとcmで異なり、またそれぞれの平均値なども異なるためです。
この問題を解決する方法として、それぞれのデータにウエイト(重み)をつけてやればいいことになります。
総合指標 = a×身長 + b×体重 … (1)
aとbの値を考えることで、体重のkgを身長のcmの値に変換することができます。例えば、体重の平均が50kgで、身長の平均が150cmならば、体重のウエイトを1のままで、身長を3分の1してやれば(身長の値を3で割れば)、総合的な指標としては問題ないはずです。
そしてこのような、a(身長のウエイト)やb(体重のウエイト)を推計し、総合指標を求めようとするのが、主成分分析です。
ただ、身長に重点を置くのか、体重に重点を置くのかで、aとbの値は異なってきます。上記は体重を基準としましたが、身長を基準におけば、体重(b)を3倍する必要があります。
このように、どのような基準を置くかで、aとbの組み合わせが異なってきます。
そこで、総合指標の特徴がよく現れるように、総合指標の値と推計値の分散(違い)が大きくなるように、aとbの組み合わせを計算します。そして上記の(1)式の当てはまりがよいような組み合わせを計算していきます。
最も当てはまりがいいものが第1主成分、次に当てはまりがいいものが第2主成分などとなります。
このように、いくつかの総合指標を求めるのが、主成分分析です。
コメント