博文谷

位置:首頁 > 實用範文 > 論文

基於知識網格的分佈式數據挖掘論文

論文3.07W

摘要:本文在討論知識網格體系結構的基礎上,還討論了知識網格是如何用於支援分佈式數據挖掘。

基於知識網格的分佈式數據挖掘論文

關鍵詞:分佈式數據挖掘;網格計算;網格服務;Web服務資源框架

一、前言

隨着科學、工業、商業等領域的發展,出現了大量的TB級甚至PB級的大規模數據集,在這些數據集中包含了大量的對生活、生產、科學研究等具有決策性作用的有用資訊,那麼如何從這些海量數據中提取資訊是人們面臨的一個重大的問題。顯然,原先的集中式數據挖掘模式已無法滿足人們的需求,這就需要探索出面向分佈式數據挖掘的體系結構和工具。

二、知識網格

知識網格代表了數據網格的發展,爲網格中分佈式數據挖掘和抽取提供了進階工具和技術。知識網格是設計和實現分佈式高性能知識發現應用環境的體系架構,用於執行網格中的數據挖掘,進行科學發現,發現有用的商業資訊。

三、知識網格體系結構

知識網格體系結構是在Globus toolkits網格工具集和服務的基礎上定義的。在Globus中,知識網格集成局部服務以提供全局服務。知識網格體系結構保證了數據挖掘工具和底層的網格機制和數據網格服務相容。

知識網格服務由兩層構成:核心知識網格層和進階知識網格層。

1.核心知識網格層

1.1知識目錄服務(KDS)。該服務擴展了基本的Globus元數據目錄服務(MDS),負責維護知識網格中數據和工具的描述。

要維護從一個特定數據倉庫中挖掘出來的數據是不切實際的,但是維護一個已發現知識的數據庫是非常有用的。這些資訊被存放在知識倉庫(KBR)中,但是描述它們的元數據仍由KDS管理。KDS不僅可用於搜尋和訪問原始數據,也可以發現原先已發現的知識,以便在數據改變時比較給定挖掘計算的輸出,或者以遞增的方式應用數據挖掘工具。

1.2資源分配和執行管理服務(RAEMS)。該服務用於在執行方案和可用資源間查找最佳映射,以滿足應用需求(如計算能力、存儲能力、主存、數據庫、網絡帶寬和延遲)和網格約束。在執行方案激活之前,該層管理和協調應用的執行。該層並不是使用KDS和Globus MDS服務,而是直接基於Globus GRAM服務的。

2.進階知識網格層

2.1數據訪問服務(DAS)。數據訪問服務負責搜尋、選擇、抽取、轉換和交付被挖掘的數據。搜尋和選擇服務是基於核心知識目錄服務的。在用戶需求和約束的基礎上,數據訪問服務自動進行查詢和查找由數據挖掘工具分析的數據源。

2.2工具和算法訪問服務(TAAS)。該服務負責數據挖掘工具和算法的搜尋、選擇和下載。描述其可用性、位置和配置的元數據存放在KMR中,並由KDS管理,而算法和工具則存放在每個知識網格結點的.本地存儲系統中。需要向其他用戶匯出數據挖掘工具的結點,首先必須使用KDS服務來發布該工具。還有其他的相關元數據,如參數、數據輸入輸出格式、實現的數據挖掘算法、資源請求和約束等。

3.3執行方案管理服務(EPMS)。執行方案是描述數據源、抽取工具、數據挖掘工具、可視化工具和KBR中的知識結果之間的數據流和交互的圖形化表示。最簡單的情況是,用戶可使用可視化構造工具直接描述一個執行方案。然而,由於DAS和TAAS產生結果的多樣性、數據和工具的位置、中間結果表示方法等的差異能產生多種不同的執行方案。因此,EPMS是由用戶自行選擇數據和程序的半自動化的工具,產生一系列滿足用戶、數據和算法需求及約束的多種可執行方案。

2.4知識表示服務(RPS)。知識可視化是數據挖掘過程中的重要步驟,它可以幫助用戶解釋發現的模式。該服務指出瞭如何產生、表示和可視化抽取的知識模型(關聯規則、聚類模型、分類等)。結果元數據存放在由KDS管理的KMR中。KDS不僅用於搜尋和訪問原始數據,還可查找已經發現的知識。

四、執行管理

1.概念模型表示在知識網格內,UML活動圖標形式化方法用於表示應用的概念模型,同時BPEL用於表示執行方案。活動圖標表示構成應用邏輯的服務調用的高層次流通,而BPEL表示各種各樣的服務實質上是如何調節和調用的。

2.執行計劃表示

BPEL通常即可以表示抽象執行計劃,也可以表示實例執行計劃。在這個兩個計劃中,服務透過BPEL提供的partnerLinkType元件進行訪問。這種元件能夠將BPEL工作流與它包括的每項服務的ESDL描述聯繫起來。這兩個執行計劃的主要區別是:在抽象執行計劃的BPEL文檔中,服務的WSDL並不包括服務地點,而它們都包含在實例執行計劃。

五、Weka4ws

Weka4ws是一個框架,它擴展了廣泛應用的開發式資源Weka工具包,用於支援在WSRF-enabled網格上的分佈式數據挖掘。爲執行遠程的數據挖掘算法和管理分佈式計算,Weka4WS採納了WSRF技術。Weka4ws用戶介面支援當地和遠程的數據挖掘任務的執行。在每一個計算節點上,一個與WSRF相容的WS被用來曝光由Weka程序庫提供的所有數據挖掘算法。

網格架構發展迅速,所支援的程序的種類日益多樣化,可使用的工具也日趨完善和複雜。網格服務的發展方向已從原先的基本的面向計算的服務轉到進階資訊管理和知識發現服務上來。知識網格系統爲分佈式數據挖掘和基於網格服務的知識發現定義了一個集成的體系結構。該體系結構推動了地理位置分佈的大規模數據集的數據挖掘。

參考文獻:

胡蓉,肖基毅.基於知識網格的分佈式數據挖掘計算機技術與發展.17 No.10Oct.2007