博文谷

位置:首頁 > 實用範文 > 論文

探析Hadoop 技術在鐵路資訊化建設中的作用論文

論文1.64W

前言

探析Hadoop 技術在鐵路資訊化建設中的作用論文

我國鐵路資訊化建設經過幾十年的發展,已經形成多個較爲未穩定的系統,如辦公自動化系統(OA)、運輸生產計劃系統(FOMS)、鐵路運輸管理資訊系統(TIMS)、鐵路列車調度指揮系統(TDCS)、鐵路車輛管理系統(CMIS)、鐵路客票發售和預定系統(PMIS)、機務、工務、電務等管理資訊系統以及中國鐵路總公司站和12306鐵路客戶服務中心等,提高了鐵路管理和決策的智能化程度,但在鐵路資訊化建設之初,由於缺乏統籌規劃,各資訊系統的建設通常以業務部門爲界限,各個系統之間的業務協同及數據交互處於割裂狀態,隨着業務領域的不斷拓展,由於各時期所採用的開發技術互不相同,硬件及平臺的異構性等原因暴露出鐵路在資訊化建設方面存在的一些問題:

(1)由於各個業務資訊系統是獨立建設的,每個都自成體系,導致各個系統間包括系統內的資訊資源不能實現有效整合。系統軟件專用,數據庫獨立,資訊難以共享,綜合利用難度巨大。

(2)由於缺乏前期規劃,各業務資訊系統的協議、編碼和接口規範不統一,難以實現資訊共享和交換,對突發事件難以快速響應。

(3)各業務系統的操作系統存在非常大的異構性,操作系統有UNIX、Windows 等,也有大型機操作系統。

(4)數據庫管理系統也存在多種不同,如SQLServer、DB2、Oracle等,各部門之間數據資源共享很難實現。

1 Hadoop 分佈式系統

隨着數據容量、數據維度的爆炸式增長,傳統模式的數據處理方式已經難以滿足數據分析、業務處理等在處理效率、響應速度等方面的要求,在這種情況下,大數據與雲計算的概念便應運而生。在鐵路領域,全國鐵路數據同樣滿足了容量巨大、維度複雜的特點,同時鐵路行業對業務響應的要求也滿足了價值豐富、響應快速的特性,這些均說明大數據與雲計算的方式在該領域同樣適用。但是當前我國鐵路還停留在傳統的數據存儲形式,系統設計與實現也停留在傳統模式中,因此將大數據、雲計算等先進的技術應用於鐵路運輸領域是十分必要的。

Hadoop 是一個能夠對大量數據進行分佈式處理的軟件框架,能夠使用戶在不瞭解分佈式底層的情況下,開發分佈式程序,充分利用集羣的威力高速運算與存儲數據。與常規系統相比,Hadoop 採用並行執行機制,大大提高了運算效率。並且Hadoop 在檢驗應用層,處理異常錯誤等方面充分考慮了“硬件故障是常態而非異態”的理念,利用集羣實現了高容錯率的特性。

透過Hadoop 集羣視圖不難發現,在Hadoop 架構中,存在大量的數據節點,每個數據節點都被管理節點按照某種規則分配一定的任務。在這種情況下,所有節點(或者所有活躍節點)進行並行運算,用以解決複雜的大數據問題。我國鐵路有6000 多個鐵路車站,且在鐵路運輸中的作用各不相同,這就造成了鐵路數據存儲、業務處理方面存在操作困難、反應遲緩等問題。以車站爲單位作爲數據節點,或按照某種方式將車站進行分類形成節點區域恰恰能夠滿足Hadoop 架構中的數據節點(DateNode)要求。同時,我國鐵路行業現行管理機制較爲集中,在中國鐵路總公司層面建立相應的名字節點(NameNode)能夠保證核心部門對全國鐵路運輸狀況進行統籌規劃與管理。

從軟件資源、硬件資源的角度來看,Hadoop 大數據框架有兩個主要特徵:

(1)異構性

op 所依賴的`網絡環境可以是異構的。目前對Hadoop 集羣的應用主要集中在局域網內部。各種類型的局域網,執行不同的協議,這些不同協議的子網互聯成廣域網。

b. 組成Hadoop 集羣的服務器硬件資源是異構的。分佈式系統由不同硬件類型的服務器組成,導致存儲和運算資源分配的不同。

c.服務節點所處的軟件環境是異構的。服務器的操作系統可以執行Windows、Unix、Linux 等不同OS。同時,服務所使用的編程語言也可以不同,服務間透過協議接口進行通

(2)服務節點共享資源

資源共享是形成分佈式系統的主要動力。在Hadoop 大數據集羣中,數據資源分散存儲於不同物理服務器的磁盤上。在物理視圖上,數據是分散存儲的,而在邏輯視圖上,數據則是全局的統一的。這就是說,數據“分佈式存儲”這一特性對用戶來說是透明的。

2 Hadoop 分佈式系統的安全性

鐵路應用Hadoop 技術的存在着一定的安全風險。首先,系統本身存在如網絡攻擊、系統漏洞等安全風險;其次,客戶的隱私數據面臨泄露風險。鐵路企業既能夠獲取旅客和貨主的身份證號碼、聯繫方式等基礎資訊,又可以透過數據挖掘出旅客和貨主深層次的運輸習慣等資訊。

針對上述問題,首先應建立嚴格的數據存儲機制,並對數據存儲選擇加密性能比較高的加密算法進行加密,同時採用數據安全隔離技術,如物理隔離、虛擬化和Multi-tenancy 等方式;其次建立嚴格的數據訪問控制機制,使用技術手段依據不同權限做好敏感數據如客戶的名字、身份證號、聯繫方式等的消隱工作;最後做好數據備份與恢復工作,實現快速的虛擬機恢復,支援檔案級完整與增量備份。

3 結束語

綜上所述,Hadoop 技術實現了全路資訊的資源共享,降低了投資成本和維護成本;各部門可根據自身發展需要,實現資源動態配置,有效降低投資成本,簡化內部管理;各業務部門實現資訊高度共享,既提高了生產效率,又增加了部門參與生產與決策的積極性。