博文谷

位置:首頁 > 實用範文 > 論文

數字圖書館中大數據存儲的應用研究論文

論文5.87K

【摘要】大數據時代,數據的存儲與快速存取成爲圖書館管理工作中的重要問題。現代圖書館數字化的管理模式帶來更大的資料數據容量,同時也爲數字圖書館的存儲功能提出了更高的要求。傳統的數據存儲和數據管理方式早已無法達到大數據存儲的要求標準。數字圖書館中大數據存儲問題還需要進一步的深入研究,並尋求順應科技發展的全新的模式來應對大數據的存儲難題。

數字圖書館中大數據存儲的應用研究論文

【關鍵詞】數字圖書館;大數據;存儲;應用

圖書館、閱覽室的數據存儲系統與其他行業的存儲系統有較大不同,主要表現在:①數據量龐大。一座大型圖書館每年的數據增量可達10TB以上;②存儲週期長。圖書館數據需要較長的存儲時間,甚至可達50年以上;③數據類型多樣。現代圖書具有影像、圖像、文字、聲音等數據,均需要存儲;④高度的可靠性和安全性要求。作爲一所資訊化程度較高的圖書館,爲了構建一個滿足業務需要的高效數據存儲系統,可以利用數據壓縮、重複數據刪除、自動精簡配置、自動分層存儲等現代數據存儲技術,對大數據進行高效的存儲和管理。

一、數字圖書館大數據存儲容量不足的問題

現代圖書館是一個十分複雜的機構,完備的圖書館除了具有對借閱人員資訊、圖書還借與出人資訊、圖書設備資訊等硬數據進行管理外,數據量最大最複雜的當屬對圖書資料本身的軟數據管理以及現代電子圖書資料的儲存與管理,特別是大型圖書館或高校圖書館,門類齊全、借閱量大、內容及設備多樣,更使得它所產生的數據結構複雜且數據增量大。

圖書館的數據量隨時間線性增長,隨着各種類型的數字化圖書及設備越來越多,資訊化程度的不斷加強,對圖書及讀者管理規範程度的不斷提高,以及讀者對資源要求的不斷加深,致使數據容量加速增長。

當前大型圖書館每年的數據增量大約爲20~30TB,如此浩大的數據量,對於一個擁有100TB存儲容量的圖書館一也只能滿足3一5年的數據存儲需要,因此需要採取有效的'應對措施予以解決。

日前,許多高校圖書館的存儲設備容量利用率不到50%,大有潛力可挖。在圖書館實際管理工作中,在缺乏技術的情況下,經常採取整理碎片的技術來提高存儲空間利用率和數據查詢效率,這對於一般性的小容量操作是可行的,但對於大型數據系統其耗費的時間是難以估計的。況且,碎片的整理並不能有效消除分配卷中未使用的空間,達不到精簡配置的目的。

二、數字圖書館大數據存儲容量不足的應對

措施日前許多圖書館採取的辦法是由被購買了電子圖書的商家作數據備份,這顯然不是最有效的數據存儲機制。爲了大幅度提高數據存儲效率,最有效的辦法是採用數據壓縮技術和重複數據刪除技術。

1、利用壓縮技術提高空間利用率

對於書籍等圖書資料檔案,其檔案內和檔案間存在大量的相似性關係,Delta壓縮技術則可以對檔案內和檔案間的數據進行比較,刪除檔案內和檔案間的冗餘數據,達到數據壓縮的日的,相似程度越高,壓縮比越小。

2、利用消重技術提高空間利用率

圖書館數據在存儲過程中往往有大量的備份數據,數據經過多次備份後,產生較多的數據重複,重複數據刪除技術在備份過程中能夠較好地消除重複數據,進而節約空間。對於重複數據備份,可以分爲時間數據消重和空間數據消重。對於電子書籍等產生的數據一般屬於自然數據,其主要特點是,數據的變化率較低、完備的數據備份、數據長期儲存、數據內容可以感知等,因此,適合採用時間數據消重。因此,就本校圖書館的數據整理,大約每三個月進行一次。

圖書館數據量龐大,僅僅一所5000人規模學校的中型圖書館,其電子圖書數據量就可達到15TB以上。因此,不能簡單採用與中小備份類似的解決方案,由於存在大量的圖形檔案及影像檔案等,其海量數據備份是一個非常耗時的過程,在熱備份情況下,可能需要花費近一個月時間。最佳實踐做法是,採用備份設施來拷貝數據並同時保證應用程序仍然可以讓客戶端使用。重要數據的備份可以使用有冗餘級別配置的主機或硬盤RAID。兩個獨立硬件控制的RAID陣列的軟件鏡像可以用來備份其關鍵數據。這種技術可以保證當某個磁盤或陣列發生故障時整個系統仍然可以使用,任何網絡組件的故障,如網卡、視頻設備、IDE控制器、電源等可以容易地替換而不影響執行。最經濟且非常有效的數據備份方案可以採取冗餘技術RAID4,即若干個數據盤帶一個冗餘盤,在這些盤中的相應塊內,存儲的相應位的1的個數必須是偶數個。當某一個數據盤發生故障而更換了新盤後,只要按照偶數個1的原則就可以將損壞了的數據恢復到新盤中。

在實際操作中,可以有多種備份方案,通常採用停機備份:正常關閉待操作數據,進行數據的冷備份。備份所有數據檔案、控制檔案、日誌檔案和參數檔案,把冷備份拷貝到新存儲設備上,然後新建一個同名實例,最後再把備份數據檔案重新開啟即可。

3、提高存儲空間的利用率

對於某項應用,傳統空間分配方案採用完全供給,以確保該應用擁有足夠的增長空間,這勢必造成大量的存儲空間閒置,在空間浪費的同時也造成了能源損失。採用自動精簡配置是一種較新的存儲空間管理技術。利用自動精簡配置技術,能夠幫助用戶在不降低性能的情況下,大幅度提高存儲空間利用效率,能使用戶實現接近100%的存儲空間利用率,因爲數據需要多少空間系統則按需要進行分配,基本不產生多餘的空間。自動精簡配置技術的一個明顯的優勢在於可自動擴展分配卷,無須手動擴展,而且當需求變化時,無需更改存儲容量設定;透過虛擬化技術集成存儲,減少超量配置,降低總功耗。這也是解決機房耗能問題的很有效的方法。

三、總結

總的來說,對於數字圖書館大數據的存儲和管理都十分關鍵,有效地存儲和管理大數據是現代圖書館資訊化管理的必要基礎,良好的數據管理技術能夠爲圖書館管理工作的順利開展提供保障。所以,加強大數據存儲工作的管理,是未來數字圖書館發展的重要保證。

參考文獻

[1]彭磊.建立SAN(存儲局域網)——高校圖書館數據存