博文谷

位置:首頁 > 實用範文 > 論文

基於可擴展的網頁關鍵資訊抽取研究論文

論文8.37K

1 引言

基於可擴展的網頁關鍵資訊抽取研究論文

網頁的關鍵資訊是網頁的最基本的資訊,它體現了該網頁和其他網頁的差別。常見的關鍵資訊有正文、作者、來源、發佈時間等。在網絡輿情監控、網絡情報分析、搜尋引擎等重大網絡應用中,這些關鍵資訊都是後期分析挖掘必不可少的基礎數據。需要利用網絡資訊抽取技術從網頁中抽取出這些關鍵資訊。從某種角度上講,關鍵資訊的抽取質量直接決定了網絡應用服務的效果。因此,網頁的關鍵資訊抽取研究具有重大的應用價值。

隨着網頁規模呈指數級增長,在網絡應用中,模板無關的全自動資訊抽取算法和基於模板的資訊抽取算法以其特有的優勢成爲資訊抽取環節的主流算法。該算法通常針對特定需求,利用一些經驗規則處理特定領域或特定格式的網頁。因爲抽取過程無需人工干預,所以此類算法越來越多地應用於實際網絡環境中。基於模板的資訊抽取算法充分利用了動態網頁的規律:網頁是由同一個模板生成的,屬於模板的符號不會變化,變化的只是模板中填充的數據。因此,該算法在對動態網頁進行抽取時能夠取得較高的精度。

但是,這兩類抽取算法也存在着其固有的缺陷。模板無關的全自動抽取算法通常基於過強的假設。在處理多樣性日益顯著的網頁時,常常因爲某些網頁不符合假設,而導致出現抽取精度不能滿足需求的情況;並且由於使用過多規則,導致抽取效率低的情況。使用基於模板的資訊抽取算法進行抽取時,需先針對某類網頁學習出模板,後人工標註。面對日益增多的數據源,會導致網絡應用的運維代價過大;同時日益複雜的網頁使得模板的準確性下降,從而導致抽取精度下降。

針對上述模板無關的全自動資訊抽取算法和基於模板的資訊抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網頁關鍵資訊抽取框架。該框架透過輸入訓練網頁或其他算法的抽取結果,生成關鍵資訊模板集。再透過模板的正交過濾算法,生成候選的關鍵資訊模板。最後透過模板的特徵過濾算法,生成最終的關鍵資訊模板。利用該模板可快速、準確地從同類型網頁中抽取關鍵資訊。該框架很好地融合了模板無關的全自動資訊抽取算法和基於模板的資訊抽取算法,使得兩類算法能夠充分發揮各自的優點,並在缺點方面互相彌補。實驗結果表明,該框架能夠在抽取精度、抽取效率方面有本質上的提高。此外,該框架具有很好的可擴展性,框架中的一些關鍵環節可根據需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓練網頁或其他算法的抽取結果分成若干份,生成若干個模板,再透過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基於模板的抽取算法中,能夠從本質上提高生成的模板的準確性,最後的實驗結果也充分驗證了這一結論。

2 相關工作

網頁資訊抽取是一種針對網絡數據源和網頁進行深度處理和加工的過程。由於網頁的複雜性和多樣性,使得網頁資訊抽取算法也越來越多。常見的網頁資訊抽取算法主要可分爲4類:包裝器語言、包裝器歸納、基於模板的資訊抽取和模板無關的全自動資訊抽取。由於包裝器語言和包裝器歸納都需要過多的人工干預,所以在實際的工程應用中,基於模板的資訊抽取算法和模板無關的全自動資訊抽取算法以其較強的實用性佔據了主流的位置。基於模板的資訊抽取通常基於這樣的假設:待抽取的網頁是由同一個模板生成的,屬於模板的'符號不會變化,變化的只是模板中填充的數據。符合這種生成模型的網頁都可以利用網頁模板分析方法來抽取。互聯網上大量存在的動態網頁是由機器生成的(例如論壇)網頁。基於模板的資訊抽取的工作流程是:

1)利用多個同類型網頁中具有共性的不變的部分生成一個模板;

2)根據模板對同類型網頁進行抽取。因爲此類算法過濾了網頁中的大量模板,只留下了數據,同時自動還原出了數據的結構,使得用戶在付出較小人工代價的同時,能夠獲得較爲準確的關鍵資訊。因此此類算法一直都是網絡應用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網頁生成一個模板。模板的準確性直接決定了後續資訊抽取的精確度。隨着網頁複雜性以及同一類型網頁的差異性的增大,生成的模板準確性隨之降低。模板無關的全自動資訊抽取算法進一步提高了資訊抽取的自動化程度。此類算法通常利用一些經驗規則處理特定領域或特定格式的網頁,例如,經典的全自動資訊抽取算法MDR。該算法的缺陷在於通常基於過強的假設。以網頁正文抽取爲例。網頁的正文往往是各大網絡應用都需要的關鍵資訊,有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是透過計算DOM 樹中的連結文字比來確定正文所在的範圍。CETR是透過標籤的密度來確定正文所在的範圍。CETD結合了二者優點。這些算法自動化程度高,通用性強,但是效率較低,且假設過強,精確度不如基於模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網頁。因此這種方法的效率較低。

在以往的文獻中,較少看到將模板無關的全自動資訊抽取算法和基於模板的資訊抽取算法結合使用的相關研究。在本文提出的框架中,巧妙地將這兩種算法有機地結合起來,使得二者能夠取長補短,從本質上提高資訊抽取的質量。