論文：主分量分析和線性判別分析在分類問題中的應用

論文1.52W

【摘要】對於維數較多的研究對象，爲了研究的方便，總希望先將維數降低。主分量分析（PCA）和Fisher線性判別分析（FDA）是廣泛應用於模式識別各個領域的兩種常用方法。本文先利用主分量分析，將原始數據維數降低，然後再利用Fisher線性判別分析將維數再次降低，得到低維的數據，實驗結果表明了兩種方法結合的有效性。

【關鍵詞】主分量分析；Fisher線性判別；距離判別法

【Abstract】As to an object of multi dimension， we always hope to make its dimension reduced in order to facilitate the study on it。 Principal component analysis and Fisher linear discriminant analysis are two common methods widely used in various fields of pattern recognition。 This article reduced the dimension of original data， by the principal component analysis at first， and then use Fisher linear discriminant analysis to reduce the dimension once again， obtaining lower-dimensional data， finally experimental results demonstrated the effectiveness of two methods’ combination。

【Key words】Principle compoment analysis； Fisher linear discriminant analysis； A method of differentiating distances

引言

在生產p科研和日常生活中我們經常會遇到判別分類問題，在這些問題中，已經知道研究對象可以分爲幾個類，而且對這些類別也已經作了一些觀測，取得了一批樣本數據。我們需要對這些數據進行處理，找到不同類別之間的顯著性區別和判別方法。

1 主分量分析和線性判別分析的原理

主分量分析的基本原理：把原來多個變量劃爲少數幾個綜合指標的一種統計分析方法，是一降維處理技術。主分量分析的基本思想：主分量分析是設法將原來衆多具有一定相關性的指標（比如p個指標），重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來p個指標作線性組合，作爲新的綜合指標 [3]。

Fisher線性判別分析的基本原理：將高維空間中的類映射到低維空間，並且要求在低維空間類與類之間較好區分，是一降維處理技術。Fisher線性判別分析的基本思想：對於多個類來講，我們希望類內離散度越小越好，類間離散度越大越好。對於原始的類，我們想透過將其投影到低維空間，並且要求經過投影后達到類內離散度最小，類間離散度最大。在投影的過程中，如果投影到一維空間效果不是很好，我們可以將其維數增多[4]。

2 實例

現對三類品種的鳶尾屬（Iris）植物進行研究，希望透過研究鳶尾屬植物的幾個主要指標，可以將一個未知樣本進行歸類。對鳶尾屬植物的`四個指標進行了統計。對統計數據作如下變換：

①對所有樣本數據X進行中心化標準化。

②對處理後的數據求解相關係數矩陣R得

③求解R的特徵值λi和特徵向量ei。

由上表可以看出，前三個特徵值的累積貢獻率已達到99。485%，所以我們選取前三個特徵值所對應的特徵向量爲主成分，這樣我們就將四維空間降到三維空間。原始數據經過主分量分析，位數降低，得到變換Y=X*E。

經過主分量分析，原始數據已經降到三維，我們將對得到的三維空間裏的數據再次進行降維處理。我們選取各類中的前40個樣本代表該類進行研究。

④分別計算出各類的樣本均值mk和所有樣本的均值m

⑤計算類內離散度矩陣Sw和類間離散度矩陣Sb

⑥計算Sb和Sw的廣義特徵值和特徵向量

⑦對Y進行Fisher線性判別，得到變換Z=Y*W。

⑧計算經過變換後所得到的類的均值

透過主分量分析和Fisher線性判別，我們將樣本由四維空間降到一維空間。由上面的計算，我們可以得到公式Z=X*E*W。

隨機選取45個樣本得到樣本組x，在選取樣本時，前15個樣本是從第一類中抽取的，中間15個樣本是從第二類中抽取的，最後15個樣本是從第三類中抽取的。我們首先對需要判別的樣本進行變換，然後分別計算這45個樣本到三類均值的距離

表2中加粗的數字表示該樣本距離某類均值距離最小，也就是樣本屬於這個類。判別結果爲前15個樣本判爲第一類，中間16個樣本判爲第二類，最後14個樣本判爲第三類。其中第31個樣本透過距離判別判爲第二類，而這個樣本是從第三類中抽取的；其他樣本判別均正確。在這次判別中，錯誤率爲1/45，我們認爲判別是比較合理的。對所有的樣本都進行分類判別，其錯誤率爲4/150，我們認爲對數據的處理以及距離判別的方法是比較合理的。

3 小結

我們在研究鳶尾屬植物的三個品種時，首先運用主分量分析，在這個過程中維數降低了一維，但我們保留了99。485%的原有資訊，可以說這一數據變換很有意義。在主分量分析之後，我們再運用Fisher線性判別分析，將數據進行投影，投影到一維空間。然後我們選取了45個樣本進行分類判別時，判別結果比較理想，從而驗證了兩次降維處理的有效性和距離判別的可行性。