網對網和Web數據挖掘在搜尋引擎中的運用論文

論文1.04W

摘要：當今網絡資訊技術日益發展，傳統意義上的搜尋引擎更加難以滿足廣大用戶日益增長的資訊檢索需求。在這種趨勢下，智能技術在搜尋引擎中的應用顯得越來越重要。只有將智能技術引進搜尋引擎，才能提高用戶的工作效率，滿足人們日益增長的客觀需求。主要介紹瞭如今搜尋引擎的幾大分類，傳統搜尋引擎需要改進的不足以及兩大智能技術在搜尋引擎中的應用。在智能技術將會更加智能更加發達的未來，搜尋引擎也將不斷地更新和發展，爲人們提供更加高效的搜尋體驗。

　關鍵詞：智能技術；搜尋引擎；網對網技術；數據挖掘。

搜尋引擎是根據一定的策略，運用特定的計算機程序來搜尋互聯網上的資訊，在對資訊進行組織和處理後，將處理後的結果顯示給用戶，是爲用戶提供檢索服務的系統。而智能技術在搜尋引擎中的實際應用也越來越廣泛，不斷有新興的智能技術，搜尋引擎也不斷地結合這些智能技術來進行自身的變革和發展。這是一個漸進的過程。本文將詳細介紹 2 種智能技術在搜尋引擎中的應用。

1.搜尋引擎的分類。

搜尋引擎可分爲以下 3 類：①全文搜尋引擎。全文搜尋引擎是最標準的搜尋引擎，國外的主要代表是 Google,而國內的主要代表則是百度。全文搜尋引擎的主要原理是在互聯網中檢索與所查目標相匹配的內容，繼而建立數據庫，按序排列並且將其展示給用戶。②目錄搜尋引擎。從本質來說，目錄搜尋引擎其實不能算是真正的搜尋引擎。只是將網站連結目錄分類，用戶並不需要輸入關鍵字，根據目錄就完全可以找到想要的資訊。目錄索引最具代表性的就是 Yahoo 和新浪索引。③元搜尋引擎。元搜尋引擎在接收用戶的搜尋請求後，可以在各個搜尋引擎上同時搜尋，隨後將結果顯示給用戶。這一種搜尋引擎的國內代表是搜星搜尋引擎。

2.傳統搜尋引擎相比網絡資訊檢索的缺點。

傳統搜尋引擎作爲用戶在互聯網進行資訊檢索的一個重要途徑，給廣大用戶提供了相當大的便利，隨着互聯網的迅速發展，用戶對搜尋引擎又提出了搜尋速度更快、搜尋效率更高等諸多要求。正是用戶的這些需求刺激着搜尋引擎的快速發展。傳統搜尋引擎越來越滿足不了用戶的需求，主要存在以下幾點不足：①搜尋引擎從互聯網搜尋的各種網頁水準不一，存在着根本沒用或者暫時性的網頁。這嚴重加大了用戶檢索資訊的困難程度，並且嚴重影響了檢索速度。②主流搜尋引擎大多采用關鍵詞來檢索，由於用戶水平的差異，極少數可以總結出關鍵詞或關鍵詞組，以至於用戶搜尋不到想要的內容，從而加大了檢索難度。③每個搜尋引擎覆蓋的範圍雖然不小，但與龐大的互聯網相比，簡直是九牛一毛。④檢索的結果不準確、不唯一，搜尋結果爲零或者爲數萬的情況時有發生。⑤不能智能搜尋，難以滿足用戶深層次的需求。

3.智能技術的運用。

由於傳統引擎的各種缺點，用戶越來越渴望更好用、更便捷的搜尋方式出現。在這種刺激下，智能技術在搜尋引擎中的應用大量出現。這使得搜尋引擎需具有一定的智能化和理解能力。當前主要有以下兩大智能技術。

3.1 網對網技術。

顧名思義，“網對網技術”就是網絡和網絡對應起來的意思。這其中又要提到兩個概念了，是兩個單詞。一個單詞我們都相當熟悉了--Internet.我們常說的互聯網，就是這個單詞。而在這裏，這個單詞指的是一個資訊網絡，也就是我們所說的網絡中的資訊網。我們想要搜尋什麼東西時，將它輸入搜尋引擎中，引擎就會在這個網絡庫中查找，找到相關資訊，然後呈現在我們面前。而另一個詞可能就有一些陌生了--Innernet.表面上看起來與 Internet 很像，英文詞典中並沒有這個詞，我們在這裏叫它“內聯網”.與看起來更像數據庫的 Internet 比起來，內聯網更像是人類大腦的一個資訊網絡。這裏面不僅僅有我們生活和工作中所用到的各種各樣的資訊，更重要的是，資訊之間繁雜又緊密的聯繫。就像我們在生活中和他人交流，提到“小夥伴”這個詞，我們會想到其他與之有聯繫的詞彙，比如“朋友”“同學”等。同樣的，當提到“師父”,我們的大腦也會迅速聯想到“師門”“師生”這樣的相關詞彙。我們所說的內聯網，它所着重的，也是資訊與資訊之間這樣息息相關的聯繫。Internet 和 Innernet都是知識的網絡，互聯網時代的資訊社會發展日新月異，因此無論是哪個網絡，其內的資訊都是不斷變化着的。人們將這個技術運用在搜尋引擎中，大大提高了搜尋引擎的實用性。作爲內聯網的 Innernet 和 Internet 聯結起來，運用資訊之間存在的各種各樣的聯繫，將用戶輸入搜尋引擎中，將複雜的聯繫正確分割開，然後各自拓展出一些對人們而言有用的資訊，將 Internet 中龐大、雜亂的資訊進行有序化的篩選和整理，最終將資訊呈現在人們的眼前。這大大提高了搜尋引擎的可操作性，縮短了人們不斷刪改語句來配合 Internet 的時間，自然也就提高了用戶的工作效率。

3.2 Web 數據挖掘技術。

數據挖掘作爲一門交叉學科，其原理比較複雜，可以從龐大的數據中將更有用、更有新意的數據挖掘出來，而 Web 挖掘，便是將數據挖掘和 Web 發展聯繫起來。Web 數據挖掘有 3 種不同的挖掘形式，即內容挖掘、結構挖掘和使用記錄的挖掘。

3.2.1 內容挖掘。

內容挖掘指的是從 Web 文檔中或是描述中挖掘，在網頁中進行數據挖掘，其中包括文字、超連結、圖像和視頻等，而半結構化的數據和無結構的文字便是主要的挖掘對象。

3.2.2 結構挖掘。

Web 結構挖掘則是透過網頁中的超連結，發現其中資訊之間的結構及其緊密或稀疏的聯繫。在平時上網時，我們只能看到一個個的.網頁，開啟瀏覽或者關閉。但是在這些頁面的背後，其實隱藏着無數個結構連結。Web 數據挖掘就能夠透過這些結構上的連結，發現頁面與頁面、數據與數據之間的聯繫，隨後對它們分類，以便爲用戶提供含有相似資訊的更多頁面，幫助用戶完善自己想要在搜尋引擎中得到的資訊。

3.2.3 使用記錄的挖掘。

與前兩者相比，Web 使用記錄的挖掘讓我們感覺更加熟悉，至少“使用記錄”4 個字是我們上網過程中能夠看到的。當我們點擊一下搜尋引擎的輸入框想要輸入文字時，搜尋引擎會自動下拉出我們前幾次使用時所查詢的內容，以便我們重複檢視相似內容的資訊。搜尋引擎有時也會爲我們推薦一些內容的資訊。這些資訊也會是我們所感興趣的一些內容，是搜尋引擎結合了我們之前的使用記錄，爲我們提供感興趣的相類似的內容。這些都是 Web 使用記錄挖掘在搜尋引擎中的實用例子，但並不是全部。搜尋引擎會從用戶的訪問痕跡中挖掘出很多有意義的數據，包括數據端、服務器端和代理端的數據。而其獲得這些數據的途徑又分爲 KDD 和專業化追蹤。這些方法和深度的挖掘，使搜尋引擎更加“智能”地瞭解用戶的興趣和需要。

4.總結。

搜尋引擎是我們工作、學習和生活中必不可少的實用性技術，正如一個調查中所顯示的，85%的人都是透過搜尋引擎獲取到他們所需要的資訊和所喜愛的網站，可見搜尋引擎的重要性。隨着智能技術的不斷更新，人們的生活變得越來越智能，對搜尋引擎的要求也會隨之越來越高，因此不斷利用新的技術完善和提高搜尋引擎的智能性，是用戶的選擇，也是時代的選擇，是搜尋引擎在現在和未來的發展中必然的趨勢，且將一直持續下去。

參考文獻：

[1]陳勇躍，張玉峯。智能技術在搜尋引擎中的應用[J].情報雜誌，2004（02）：2-3,6.

[2]楊佔華，楊燕。數據挖掘在智能搜尋引擎中的應用[J].微計算機資訊，2006（12）：244-246.

[3]朱素媛，馬溪俊，樑昌勇。人工智能技術在搜尋引擎中的應用[J].合肥工業大學學報（自然科學版），2003（S1）：657-661.