博文谷

位置:首頁 > 實用範文 > 論文

數據密集型科學環境下的情報服務與發展論文

論文2.23W

大數據時代的到來,使得學術活動的資訊數據來源、組成、價值以及處理技術都發生了巨大變化,數據就如傳統價值認識中的“黃金”一樣,變得無比重要和價值巨大[1],這些變化也影響到了學術資訊的交流環境,使得科學研究向數據密集型科研轉變,越來越多的科研工作是基於現有數據的重新分析、組織、認識、解析和利用,數據成爲了科學研究的基礎。雖然說從目前來看將數據比作“金礦”有誇大之嫌,但也充分的說明了數據的重要作用與價值。同時,我們也看到,在這種數據密集型科學環境下,變化的不只是科學研究,一些服務機構特別是資訊服務機構的服務內容、服務方式也在悄然發生着變化,對能爲用戶創造價值與創新的科學數據日益重視,基於數據的服務也成爲了它們的服務增長點,對新型科學環境下的服務發展學術研究也正在如火如荼的進行之中。基於此,本文從數據密集型科學環境出發,對科學研究的第四範式、數據密集型科學環境的形成與推動因素進行了概述,重點對數據密集型科學環境下的情報服務內容進行了陳述,同時也對情報服務的發展途徑如數據建設、人才建設、協作機制建設進行了分析。

數據密集型科學環境下的情報服務與發展論文

1 數據密集型科學研究興起的社會環境

2007 年,Jim Grey在美國國家研究理事會計算機科學和遠程通訊委員會( NRC- CSTB) 的演講報告中首次提出了以數據密集型計算爲基礎的科學研究“第四範式”概念[2],並將其作爲與實驗科學、理論推演、計算機仿真三種科研範式平行的科學研究[3],但在對科學研究範式的發展及劃分簡單論述後,並未對第四研究範式的內涵、科學研究現狀等進行深入論述。直到2009 年, 微軟公司的TonyHey、Stewart Tansley和Kristin Tolle主編的《The Fourth Paradigm:Data- intensive Scientific Discovery》(第四範式——數據密集型科學發現)一書,才較爲詳細的登載了第四範式的內涵和意義等內容,並從地球與環境、健康與幸福、科學基礎設施、科學交流四個方面展示了69 位學者從不同的視角觀察、理解、分析和探討[4]。

對數據密集型科學研究來說,科學研究第四範式強調傳統的假設驅動將向基於科學數據探索的科學方法方向轉變,並在這種數據的轉變與方法實現中,數據依靠工具獲取、分析與處理,依靠計算機存儲。筆者認爲,大數據時代的來臨,數據的來源、類型、存在形態將異常豐富,可以是實驗觀察數據、實驗數據、仿真數據、互聯網數據,也可以是產生於智能終端如智能手機、社交活動如微博、虛擬社區中的資訊行爲數據等;類型和存在形態可以是已經可以靈活儲存於數據庫、機構庫中的結構化數據,也可能是目前只能透過路徑記錄、現場拍攝才能記錄的半結構化數據、非結構化數據。

從數據密集型科學研究的興起與形成來看,數量龐大、類型豐富、價值巨大的數據產生即大數據時代的到來以及一方面產生數據、一方面又能實現對數據管理與應用的現代資訊技術更新、發展是數據密集型科學環境興起與發展的根本推動因素,而資訊爆炸、關聯數據運動、數據開放運動等直接推動數據密集型科學環境成熟的運動也都功不可沒。

2 數據密集型科學環境下的情報服務

2.1 科學數據服務

2012年6月,美國大學與研究圖書館協會出版了《學術圖書館與科學數據服務》白皮書報告[5],該報告調查了美國和加拿大的大學與研究圖書館協會的351所成員館的科學數據服務情況,結果顯示儘管目前只有少數美國、加拿大的大學與研究圖書館協會成員館開展科學數據服務,但也顯示許多高校圖書館準備在未來一到兩年內開展科學數據服務。這說明在當前的數據密集型環境下,開展科學數據服務將成爲情報服務的主要組成部分。數據密集型環境下的科學數據服務,既可以借鑑普渡大學圖書館的D2C2分佈式數據儲存項目[6],開展諸如情報諮詢、科學數據管理、科學數據查找服務,也可以借鑑澳洲國立大學依靠超級計算機設備進行的存儲服務[7],提供大量範圍內的數據存儲、數據標註服務。且相信隨着技術的發展與用戶的需求變化,在未來的情報服務中,諸如科學數據的開發、發現、引用、標識、分析及技術支援等更大範圍的數據服務都將會實現。

2.2 數據發現服務

產生於大量智能終端、社交網站、活動場所的海量、複雜的半結構化數據、非結構化數據的出現,使得傳統的情報服務中的數據處理與數據服務變得困難,如何在數據密集型的科研環境下爲用戶提供數據的發現服務,成爲了數據密集型科研環境下的主要情報服務內容之一。Web、本體、XML、RDF、標籤等技術的出現,使得數據資源的共享、檢索、標註與利用更加便捷,實現系統化、語義化、網絡化、自動化的數據發現服務成爲了可能,在以谷歌爲代表的IT數據發現服務帶領下,業界掀起了基於數據發現服務的數據發現服務系統開發熱潮,國內外研發了一批基於語義擴展搜尋的數據發現系統,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知識資源發現與服務系統Worldcat Local,提供了全世界近2萬個圖書館的館藏紙質資源和部分數字資源的資訊共17億條[8]。在數據密集型科學環境下,數據發現服務不僅能爲用戶發現和關聯可能存儲於社會各個行業、多個領域、多個學科的數據知識,也能爲用戶發現數據表面、少量數據不易於發現的價值,進而爲用戶的市場預測、資訊行爲等做出態勢分析、前景判斷提供知識與數據支撐。

2.3 知識諮詢服務

一直以來,資訊諮詢服務都是情報服務的主要組成部分,也爲企業資訊分析、情報收集等工作提供巨大的參考與幫助作用,得到了情報服務用戶的高度認可。但在數據密集型環境下,由於提供諮詢服務的數據來源、類型、處理平臺、服務方式都將發生巨大變化,傳統的諮詢工作並不會滿足用戶的需求,因而依賴於海量知識、依靠數據分析系統、爲用戶提供解決問題知識的知識諮詢服務將應運而生。與傳統的資訊諮詢、參考諮詢相比,知識諮詢服務更具專業化、知識化以及實現多樣化等特點,即需專業的服務人員藉助專業的服務平臺實現對專業學科資源的專業分析,用知識服務平臺實現對知識資源的知識處理並提供用戶知識產品,用多樣化的技術手段來處理多樣化的數據進而透過多樣化的途徑提供多樣化的服務。由於知識諮詢以用戶的知識需求爲出發點,以複雜的海量數據爲知識來源,以面向大數據的分析、挖掘軟件爲工具,以向用戶提供最終可以解決問題的知識產品爲目標,因此,知識諮詢將在數據密集型科學環境下廣泛的用於企業情報收集、政府決策分析、個人科研創新等領域。

2.4 學科服務

數據密集型科學環境的興起與發展,使得存在於社會每一個角落的各類數據以及產生於每一個實驗、調查等科研活動的相關數據都可能成爲知識創新與科學研究的主要知識來源,但對這些數據、知識的組織與利用並不一定因爲科研人員資訊素養的水平差異而能成功實現,於是,一些科研院所、大型科研團隊日益重視科研隊伍建設時的'圖書館員等能靈活檢索和運用數據資源的團隊組成比例,國外興起的數據監管教育就是順應這種科研人才隊伍的需求而產生的,這類人員的主要職能是利用專業的學科背景知識,運用掌握的資訊素養知識,爲科研團隊提供專業的學科服務。在未來日益發展的數據密集型科學環境下,這類學科服務將突破目前的第一代、第二代學科服務形式,即圖書館領域的設定學科館員形式與嵌入式學科服務形式,出現情報服務機構與科研團隊合作形式,進而爲科研活動提供更爲專業、有團隊協作保障的學科服務。

2.5 數據雲服務

雲計算的發展以及Google、亞馬遜等雲計算服務提供商多種雲服務平臺的推出,爲情報服務的雲服務實現提供了便捷條件。由於雲服務是將分佈式計算、網格計算、並行計算以及Internet結合起來的一種新興的IT資源提供模式,實現了將動態、可伸縮的IT資源以服務方式透過互聯網提供給用戶[9],因此,情報服務對於雲計算的應用並不需要昂貴的硬件設備、專業的技術人員以及種類繁多的軟件操作平臺,只需要根據自己的用戶需求特徵來租用合適的雲平臺及服務,以透過雲計算虛擬技術而實現在雲計算的技術支撐環境下提供數據的上傳、下載、運算等服務。雲服務的模式主要有IaaS(Infrastructure as a Service,基礎設施即服務)、PaaS(Platform as a Service,平臺即服務)、SaaS(Software as a Service,軟件即服務)等三種模式[10]。從目前的雲計算服務提供商來看,情報服務的雲平臺既可以選擇Google和Amazon等雲服務提供商提供的雲平臺,大型服務機構也可以借鑑OCLC與美國國會圖書館透過自建雲服務平臺來實現對用戶的雲服務。

2.6 數據分析服務

在數據密集型科學環境下,不管是對用戶提供諸如上述的科學數據、知識諮詢、數據發現等服務,還是可能出現的如用戶定製的數據關聯、數據發佈等服務,數據分析都將是其實現的主要組成部分,只不過常態的科學數據、知識諮詢等服務,情報服務機構的依賴資源是雲數據、機構存儲數據與購買數據等,即主要以社會或機構公有數據爲主,但用戶的個性化定製如數據關聯等服務可能主要以用戶個體私有數據爲主。同時,需要注意的是,數據密集型科學環境下的數據分析,需以一些系統平臺和技術爲支撐,如當前運用較多的可視化技術、數據挖掘與語義處理等。

3 數據密集型科研環境下的情報服務發展

3.1 重視對數據資源建設與價值挖掘

IBM的《分析:大數據在現實世界中的應用》白皮書認爲數據是大數據時代業務發展的主要驅動因素之一[11],一些IT業發達的國家如美國、印度等近來出現了一批以數據的獲取、聚合、加工爲盈利手段的企業,由此可以看出數據在業務發展中的價值,對於提供以數據爲知識來源與主要業務實現基礎的情報服務來說更是價值巨大。情報服務機構如圖書館、情報研究所等應認清數據在未來情報服務中的重要性,提高數據收集意識,一方面,對現存結構化數據進行關聯、標註、索引等分析與重組處理,實現數據的關聯化、語義化,以爲數據的發現與關聯打下基礎;另一方面,注重隱藏着巨大價值但目前收集幾乎空白的非結構化數據、半結構化數據的建設,爲將來的情報服務提供豐富的數據保障。

3.2 重視對人才隊伍的建設與培養

《中國大數據技術與服務市場2012-2016年預測與分析》報告認爲“大數據相關人才的欠缺將成爲影響大數據市場發展的一個重要因素”[12]。IDC認爲中國大數據技術與服務市場將會從2011年的7760萬美元快速增長到2016年的6.16億美元,同時麥肯錫 (McKinsey)也認爲到2018年,美國需要14~19萬名具有“深度分析”經驗的工作者,以及150萬名更加精通數據的經理人。而多種數據顯示這類工作人員非常稀缺,如著名的國際研究暨顧問機構Gartner就認爲只有1/3的新的工作崗位能僱傭到熟悉大數據技能的IT專業人員[13]。人才問題同樣也會影響到未來數據密集型科學環境下基於大數據的情報服務,因爲對數據分析、數據發現等情報服務來說,其不僅要有傳統情報服務的資訊檢索、組織等資訊素養,還需掌握對大數據的平臺分析等技術,更要在學科服務中具備一定的專業知識。要滿足這種服務業務的發展需要,情報機構進行人才引進與人才培養是唯一的兩條出路,並且需相輔相成,即一方面,引進一些IT服務商的數據科學家、數據工作者以及高校數據監護、數據監管專業的畢業生,另一方面,選擇與高校、IT公司合作,進行現有人才的培訓培養。

3.3 重視情報服務合作機制的構建

大數據時代的數據特點決定了數據的收集、利用都需以機構間、團隊間的合作爲基礎,因此,在數據密集型科學環境下,情報機構既需要在數據資源上實現互相的共建共享以避免出現資源重複建設,還需在人才培訓、技術合作上實現互補,以透過資源共享、機構協作實現用戶需求的最大滿足。同時,開展校際合作、校企合作也是一個新的發展思路。這些合作機制的建立,一方面將進一步增強數據資源的互補性,拓展數據資源體系範圍,充分發揮科學數據的使用價值;另一方面,合作協作也將增強人才隊伍實力,爲情報服務的開展拓寬了人才隊伍知識領域,提高服務能力。

4 結語

大數據時代纔剛剛來臨,科學研究的第四範式也尚處於日益成熟階段,數據密集型科學環境的發展還並不成熟,數據的價值也未在諸多領域得到體現,但隨着數據密集型科學環境的日益成熟與數據價值的日益體現,情報服務的數據服務價值也會被社會廣泛認可,適應用戶與社會發展需求的服務內容創新、方向轉變更將必不可少,重視數據資源、人才與合作機制建設,迎接日益社會發展步伐的需求挑戰,將是情報服務機構搶佔先機的關鍵決策。