論文:主分量分析和線性判別分析在分類問題中的應用
【摘 要】對於維數較多的研究對象,爲了研究的方便,總希望先將維數降低。主分量分析(PCA)和Fisher線性判別分析(FDA)是廣泛應用於模式識別各個領域的兩種常用方法。本文先利用主分量分析,將原始數據維數降低,然後再利用Fisher線性判別分析將維數再次降低,得到低維的數據,實驗結果表明了兩種方法結合的有效性。
【關鍵詞】主分量分析;Fisher線性判別;距離判別法
【Abstract】As to an object of multi dimension, we always hope to make its dimension reduced in order to facilitate the study on it。 Principal component analysis and Fisher linear discriminant analysis are two common methods widely used in various fields of pattern recognition。 This article reduced the dimension of original data, by the principal component analysis at first, and then use Fisher linear discriminant analysis to reduce the dimension once again, obtaining lower-dimensional data, finally experimental results demonstrated the effectiveness of two methods’ combination。
【Key words】Principle compoment analysis; Fisher linear discriminant analysis; A method of differentiating distances
引言
在生產p科研和日常生活中我們經常會遇到判別分類問題,在這些問題中,已經知道研究對象可以分爲幾個類,而且對這些類別也已經作了一些觀測,取得了一批樣本數據。 我們需要對這些數據進行處理,找到不同類別之間的顯著性區別和判別方法。
1 主分量分析和線性判別分析的原理
主分量分析的基本原理:把原來多個變量劃爲少數幾個綜合指標的一種統計分析方法,是一降維處理技術。主分量分析的基本思想:主分量分析是設法將原來衆多具有一定相關性的指標(比如p個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來p個指標作線性組合,作爲新的綜合指標 [3]。
Fisher線性判別分析的基本原理:將高維空間中的類映射到低維空間,並且要求在低維空間類與類之間較好區分,是一降維處理技術。Fisher線性判別分析的基本思想:對於多個類來講,我們希望類內離散度越小越好,類間離散度越大越好。對於原始的類,我們想透過將其投影到低維空間,並且要求經過投影后達到類內離散度最小,類間離散度最大。在投影的過程中,如果投影到一維空間效果不是很好,我們可以將其維數增多[4]。
2 實例
現對三類品種的鳶尾屬(Iris)植物進行研究,希望透過研究鳶尾屬植物的幾個主要指標,可以將一個未知樣本進行歸類。對鳶尾屬植物的`四個指標進行了統計。對統計數據作如下變換:
①對所有樣本數據X進行中心化標準化。
②對處理後的數據求解相關係數矩陣R得
③求解R的特徵值λi和特徵向量ei。
由上表可以看出,前三個特徵值的累積貢獻率已達到99。485%,所以我們選取前三個特徵值所對應的特徵向量爲主成分,這樣我們就將四維空間降到三維空間。原始數據經過主分量分析,位數降低,得到變換Y=X*E。
經過主分量分析,原始數據已經降到三維,我們將對得到的三維空間裏的數據再次進行降維處理。我們選取各類中的前40個樣本代表該類進行研究。
④分別計算出各類的樣本均值mk和所有樣本的均值m
⑤計算類內離散度矩陣Sw和類間離散度矩陣Sb
⑥計算Sb和Sw的廣義特徵值和特徵向量
⑦對Y進行Fisher線性判別,得到變換Z=Y*W。
⑧計算經過變換後所得到的類的均值
透過主分量分析和Fisher線性判別,我們將樣本由四維空間降到一維空間。由上面的計算,我們可以得到公式Z=X*E*W。
隨機選取45個樣本得到樣本組x,在選取樣本時,前15個樣本是從第一類中抽取的,中間15個樣本是從第二類中抽取的,最後15個樣本是從第三類中抽取的。我們首先對需要判別的樣本進行變換, 然後分別計算這45個樣本到三類均值的距離
表2中加粗的數字表示該樣本距離某類均值距離最小,也就是樣本屬於這個類。判別結果爲前15個樣本判爲第一類,中間16個樣本判爲第二類,最後14個樣本判爲第三類。其中第31個樣本透過距離判別判爲第二類,而這個樣本是從第三類中抽取的;其他樣本判別均正確。在這次判別中,錯誤率爲1/45,我們認爲判別是比較合理的。對所有的樣本都進行分類判別,其錯誤率爲4/150,我們認爲對數據的處理以及距離判別的方法是比較合理的。
3 小結
我們在研究鳶尾屬植物的三個品種時,首先運用主分量分析,在這個過程中維數降低了一維,但我們保留了99。485%的原有資訊,可以說這一數據變換很有意義。在主分量分析之後,我們再運用Fisher線性判別分析,將數據進行投影,投影到一維空間。然後我們選取了45個樣本進行分類判別時,判別結果比較理想,從而驗證了兩次降維處理的有效性和距離判別的可行性。
-
小學低年級語文自主學習能力的培養論文
摘要:語文是學生在學習階段的重要課程之一,而僅僅依靠教師在課堂上的講解,往往不能爲學生語文綜合素養的提升提供充足的動力,因此,如何從小培養學生在語文學科的自主學習能力,已經成爲衆多語文教育工作者共同關注的問題。小學低年級是學生對語文形成認知的初級階段,同...
-
民歌PBL情境聲樂教學法論文範文
一、民歌教學(一)關於民歌教學簡單地說,民歌,人民之歌。從古至今,無論東西南北,每一時代、地域、民族、國家;在不同的地理、氣候、語言、文化、宗教的影響下,都會產生一種人類自娛、文化留傳或生活實質的宣泄。他們會以不同的形色傳遞他們的歷史、文明及熱愛,而歌謠亦是...
-
研究針對雲服務的混合防火牆技術論文
摘要:對於網絡服務以及應用,防火牆是第一道防線.儘管透過現有的方法能夠顯著增強系統的安全性,但很多研究也證明了傳統防火牆的侷限性.隨着虛擬化和雲計算的出現,基於網絡的服務呈現爆炸式的增長.面向雲服務,利用無固有邊界的虛擬化的雲來構建虛擬防火牆,存在安...
-
動漫產品中傳承民族文化的建議論文
摘要:在動漫文化的蓬勃發展和滲透下,動漫產品業在爲動漫強國帶來巨大利潤的同時,也成爲不同國家的價值觀和社會意識的載體。我們青少年是動漫產業消費的主力軍,很多人是在看動漫的過程中長大的,動漫產品甚至直接或間接影響青少年的三觀。那麼,中國的傳統文化如何在動...