博文谷

位置:首頁 > 知識文庫 > 知識問答

特徵碼前綴

隨着網絡技術和資訊技術的飛速發展,網絡已經成爲人們獲取資訊的一個重要途徑。現有的搜尋引擎面臨的最大一個問題就是返回的結果集中包含大量重複的資訊。如何更有效地幫助用戶獲取所需要的資訊,能夠快速、準確地爲用戶提供資訊,是網絡資訊服務面臨的新課題。優化搜尋結果可以採用多種手段,如透過提取網頁的特徵進行基於內容的`資訊檢索,利用用戶反饋的資訊進一步精確檢索結果,將結果集中的重複資訊儘可能地消除等。

由於網絡資訊分佈的特點,網站上的資訊存在相互轉載及鏡像站點等情況。出現相同網頁主要有以下幾種情形:網頁的URL完全相同;網頁的URL形式不同,但網站域名所對應的IP是相同的;URL雖然不同,但網頁內容完全相同;URL不同,爲不同的網頁形式,但網頁上主要內容是相同的。本文主要討論對於網頁內容重複性的消除。

標籤:前綴