網絡讀者訪問流量統計分析的論文

論文3.29W

1系統的實現

訪問量的多少是衡量網站是否成功的重要標準，但對於圖書館網站是遠遠不夠的，圖書館需要獲取完整的讀者訪問流量統計數據，來對圖書館資訊資源的使用情況進行分析，網絡資訊計量學方法是目前網絡界普遍採用的網站績效評估計量法，被認爲是可以用科學的方法檢驗網站訪問數據的一種工具。它的目的包括瞭解網絡讀者的行爲、確定網站是否吸引適當的讀者來訪、評定網站建設策略是否得當。其實施步驟可分爲三個階段：

(1)記錄網站的訪問數據；

(2)分析記錄數據；

(3)爲網站建設策略的改進提供依據。

1.1系統原理

由於網絡發佈站點和數據庫本身具備了訪問計量功能，各自的資訊資源收藏狀況便於人們掌握，並且能自動記錄讀者訪問的登入情況，如登入名、登入時間、瀏覽檔案、讀者的來源地址等，這些數據資料能夠準確反映讀者訪問資訊和來源分佈等情況，所以依據圖書館網絡讀者訪問統計的工作內容，制定相應的分析指標，並收集網絡讀者訪問圖書館資訊資源發佈站點形成的日誌檔案，然後利用日誌統計工作軟件定時對日誌檔案進行處理，得到統計數據，並動態生成各種表達形式的能滿足圖書館各項統計分析工作的報表。最後把生成的分析報表匯入到發佈數據庫中發佈出去。

圖書館各個網絡資源站點建設人員可透過瀏覽網絡讀者訪問流量統計分析報告，分析和了解讀者的訪問需求，從而做好網絡資訊資源的建設工作。

讀者行爲分析研究則可透過對分析報告進行質化研究，並結合一般調查法、諮詢研究法對讀者的資訊尋求行爲進行研究。

本系統還可利用統計分析的結果來對系統自身工作進行評估和調整。

1.2分析指標

傳統圖書館的分析指標和計量方法，雖然和數字化圖書館有很多不同，但使用的目的及計量的準則並沒有太大實質性差異[4]。

參考傳統圖書館的分析指標以及國內外類似的研究結果選定了下列10個分析指標：

(1)讀者到訪人數和潛在讀者人數的百分比；

(2)到訪讀者表現了閱讀的興趣的百分比（採取明顯的閱讀行動）；

(3)可能的讀者轉爲經常的讀者的百分比（經常閱讀、下載資料）；

(4)讀者的持續度（重複到訪讀者）；

(5)讀者的忠誠度（網頁瀏覽次數、再度到訪的次數及時間長度）；

(6)讀者停止閱讀行爲的百分比（閱讀行爲半途中止）；

(7)讀者耗損率（現有讀者中停止閱讀行爲者的百分比）；

(8)讀者動搖率（耗損的讀者／到訪讀者的總數）；

(9)讀者最近到訪時間（據上次到訪的間隔時間）；

(10)讀者到訪頻率（多久到訪一次）。

就此參數，我們可以從一個客觀的角度來觀察和評估圖書館網絡讀者訪問情況。

1.3系統框圖

網絡讀者流量統計分析系統功能框圖

1.4工作方法

本系統工作方法主要是採集網絡讀者訪問過程日誌進行量化分析法，它的優缺點見表1。

讀者訪問過程日誌分析法優缺點

量化分析法重視量的分析，本系統透過對訪問過程日誌以量的方法加以統計分析，首先根據爲了研究讀者需求分佈和需求增長情況這一目的將研究內容歸類成若干分析單元，接着將分析單元以數量的方式加以表達，進而以此爲解釋讀者資訊尋求行爲的依據。

1.5技術實現

(1)系統結構

本系統是以瀏覽器／服務器／數據庫體系結構作爲基本架構，透過ASP方式實現交互式、動態的讀者訪問日誌統計分析系統。系統結構框架如圖2所示：

讀者訪問日誌統計分析系統結構框圖

(2)系統組成模組

本系統有六個模組組成：訪問日誌入庫、訪問流量分析、被訪頁面分析、來訪讀者分析和統計分析圖表。

(3)系統執行環境與開發平臺

本系統執行環境和開發平臺如表2。

讀者訪問日誌統計分析系統模組

表2系統執行環境及開發平臺一覽表

軟件類別軟件名稱

數據庫SQLServer2000+FastTrendsDatabase

操作系統Windows2000SP4Server+Aix4.3.3

Web服務器軟件IIS5.0+Apache3.0

瀏覽器軟件IE5.5

網頁製作Frontpage2000+&#106avascript

ASP工具EditplusTextEditor

編程語言VisualBasic6.0

圖表軟件Excel2000

(4)程序流程與代碼實現

該系統由（主介面程序）、（小時、日、星期流量分析）、（被訪頁面分析）、（來訪讀者分析）、（統計分析圖表）五個組成。

我們以“被訪頁面分析”模組的程序流程和代碼說明系統組成模組的實現過程，該模組程序流程圖如圖4。

“被訪頁面分析”程序流程圖

相應代碼：

＜table

＜tdclass＝定義的表格形式及表頭＞

Setconn=tobjectl("ection")

"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=tobject("rderset")

veconnection=conn

dbname=Application("logtime")——數據表名稱

“QL語句”

執行Recordset操作，服務器進行統計計算

e——寫入統計表

loop

程序中一些代碼說明：

①Recordset的Open方法：允許用戶向數據庫發出請求，通常是執行sql命令。如：Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"sqlquery,dbconnection,3,3

②Recordset的RecordCount屬性：可以取得當前在Recordset對象中的記錄條數。如：setdbrs=teobject("rdset")amount=rdcount

③Recordset的MoveNext方法：移動指針到Recordset對象的下一條數據。如：next

④Response的Write方法：負責將字元串資訊輸出的用戶端。如：e“頁面總訪問量：“&amount&”＜br＞

⑤Recordset的Close方法：可以用來關閉指定的Recordset對象。如：e

1.6系統執行過程

下面以西安交通大學圖書館網站爲統計分析對象說明該系統執行過程。

首先我們用FTP工具抓取網址爲的服務器，時間段爲2003/01/01到2003/12/31的訪問日誌匯入到數據庫中，該服務器完成圖書館網站的部分功能：門戶資訊、OPAC、館際互借、電子期刊、網絡數據庫、網絡資源、參考服務等。

對日誌分析系統進行執行偏好設定：讀者訪問時間間隔設爲20分鐘；從最新QQ顯IP版軟件中匯出讀者IP位址分配資料，轉換格式後匯入到日誌分析系統的地址表中，以便對讀者分羣；設定過濾規格檔案濾掉一些無用的訪問資訊，如背景圖片、圖書館Logo，頁面美化圖片和服務器漏洞掃描日誌等日誌資訊，然後對服務器訪問日誌進行初步統計分析，儲存統計分析結果準備進行進一步統計分析。

最後利用精緻多樣的統計分析方法對初步統計結果進行統計分析，統計分析出的數據有：一年內資源點擊與訪問計數；一年內網站中最常使用的資源與服務；一年內點擊次數最多的讀者；一年內務分羣讀者的點擊次數比例；一年內點擊次數與閱讀次數的變化；一年內上網的讀者與累積成長趨勢；一週各天的平均點擊次數；一天內各時段的平均點擊次數；校內各區讀者點擊次數比例；各項相關資源被使用的情形等等。這些數據可用Eexel軟件生成直觀的統計分析圖表，部分圖表詳見實際應用一節中。本系統的研究主要採用訪問過程日誌分析法，以內容分析法、問卷調查法輔助研究。主要考慮：一是這種方法在電子商務和其它網絡應用的量化分析，已經有許多研究成果，可使我們的研究更爲便利；二是可以經濟的，較具體客觀的分析到網絡讀者資訊需求特性；三是透過定量的計算，定質的分析，形成一種綜合分析的方式，以求分析結果更爲客觀和科學。

2系統的實現

(1)記錄網站的訪問數據；

(2)分析記錄數據；

(3)爲網站建設策略的改進提供依據。

2.1系統原理

圖書館各個網絡資源站點建設人員可透過瀏覽網絡讀者訪問流量統計分析報告，分析和了解讀者的訪問需求，從而做好網絡資訊資源的建設工作。

讀者行爲分析研究則可透過對分析報告進行質化研究，並結合一般調查法、諮詢研究法對讀者的資訊尋求行爲進行研究。

本系統還可利用統計分析的結果來對系統自身工作進行評估和調整。

2.2分析指標

傳統圖書館的分析指標和計量方法，雖然和數字化圖書館有很多不同，但使用的目的及計量的準則並沒有太大實質性差異[4]。

參考傳統圖書館的分析指標以及國內外類似的研究結果選定了下列10個分析指標：

(1)讀者到訪人數和潛在讀者人數的百分比；

(2)到訪讀者表現了閱讀的興趣的百分比（採取明顯的閱讀行動）；

(3)可能的讀者轉爲經常的讀者的百分比（經常閱讀、下載資料）；

(4)讀者的持續度（重複到訪讀者）；

(5)讀者的忠誠度（網頁瀏覽次數、再度到訪的次數及時間長度）；

(6)讀者停止閱讀行爲的百分比（閱讀行爲半途中止）；

(7)讀者耗損率（現有讀者中停止閱讀行爲者的百分比）；

(8)讀者動搖率（耗損的讀者／到訪讀者的總數）；

(9)讀者最近到訪時間（據上次到訪的間隔時間）；

(10)讀者到訪頻率（多久到訪一次）。

就此參數，我們可以從一個客觀的角度來觀察和評估圖書館網絡讀者訪問情況。

2.3系統框圖

網絡讀者流量統計分析系統功能框圖

2.4工作方法

本系統工作方法主要是採集網絡讀者訪問過程日誌進行量化分析法，它的優缺點見表1。

讀者訪問過程日誌分析法優缺點

2.5技術實現

(1)系統結構

本系統是以瀏覽器／服務器／數據庫體系結構作爲基本架構，透過ASP方式實現交互式、動態的讀者訪問日誌統計分析系統。系統結構框架如圖2所示：

讀者訪問日誌統計分析系統結構框圖

(2)系統組成模組

本系統有六個模組組成：訪問日誌入庫、訪問流量分析、被訪頁面分析、來訪讀者分析和統計分析圖表。

(3)系統執行環境與開發平臺

本系統執行環境和開發平臺如表2。

讀者訪問日誌統計分析系統模組

(4)程序流程與代碼實現

該系統由（主介面程序）、（小時、日、星期流量分析）、（被訪頁面分析）、（來訪讀者分析）、（統計分析圖表）五個組成。

我們以“被訪頁面分析”模組的程序流程和代碼說明系統組成模組的實現過程，該模組程序流程圖如圖4。

“被訪頁面分析”程序流程圖

相應代碼：

＜table

＜tdclass＝定義的表格形式及表頭＞

Setconn=tobjectl("ection")

"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=tobject("rderset")

veconnection=conn

dbname=Application("logtime")——數據表名稱

“QL語句”

執行Recordset操作，服務器進行統計計算

e——寫入統計表

loop

程序中一些代碼說明：

②Recordset的RecordCount屬性：可以取得當前在Recordset對象中的記錄條數。如：setdbrs=teobject("rdset")amount=rdcount

③Recordset的MoveNext方法：移動指針到Recordset對象的下一條數據。如：next

④Response的Write方法：負責將字元串資訊輸出的用戶端。如：e“頁面總訪問量：“&amount&”＜br＞

⑤Recordset的Close方法：可以用來關閉指定的Recordset對象。如：e

2.6系統執行過程

下面以西安交通大學圖書館網站爲統計分析對象說明該系統執行過程。

3實際應用

從2002年開始，我們從圖書館門戶網站讀者訪問計數開始了網絡讀者訪問統計工作，從最初的圖書館首頁訪問計數到現在應用網絡讀者訪問流量統計分析系統到以資訊資源發佈站點、數據庫爲單元的訪問利用上，取得了不少研究成果，下面我們介紹以2003年西安交通大學圖書館網站讀者訪問日誌爲統計對象，獲得的一些統計分析結果。

表3是2003年圖書館網站的資源瀏覽次數，訪問次數與訪問讀者數的統計表，我們看到一年內資源的瀏覽次數是10,222,296，訪問次數是1,617,166，訪問讀者是310,628，對照2003年西安交大統計公報教職工5341人，在校學生32766人的數據表明圖書館網站有很高的訪問量。另外網絡訪問讀者310,628遠遠大於學生和教職工的總和，表明有相當多的讀者使用本館的資源，這說明本館的資訊資源豐富，吸引了很多讀者。網站不足之處是自建的外文資源很少。從表3看，來自國內訪問佔6.43%，來自國外訪問佔0.01%。綜合以上資料，西安交大圖書館網站爲校內外讀者提供了方便、豐富的資源服務，吸引了大量的讀者，但在國外的知名度很低，現有資源不能吸引國外讀者，對此圖書館採取一些措施，來解決這個問題。

接着我們看一年間網絡讀者常使用的網站資源與服務，圖5顯示的是讀者最常使用的前十項網站資源與服務以及它們佔全部瀏覽次數的百分比。從圖中我們觀察到前十項佔了訪問量的43%，第一項是圖書館首頁，然後依次是網絡數據庫、聯機公共目錄查詢、中國期刊網……，這說明圖書館網站的資源內容設計與規劃合理，讀者訪問資源方便，相關資訊更新及時，受到了讀者的歡迎。另外，網絡數據庫和聯機公共目錄訪問比例接近說明讀者並重利用印刷型資源和數宇化資源，數字化資源對科研和教學的作用日益明顯。從圖5中我們還觀察到所有的電子數據庫訪問所佔比例值呈現出指數下降的.趨勢，這說明較少數數據庫的訪問量較大，而較多數數據庫訪問量較少，根據這個特點，圖書館在採購數據庫時可採取不同的採購策略，對於使用量大的數據庫保證數據的更新量和連續性，則可滿足約80%的讀者資訊需求，對於較多的使用量少的數據庫可採用合夥採購共同使用的辦法，來滿足約20%的讀者資訊需求。

圖書館網站前十名資源與服務以及它們佔全部訪問次數的比例(01/01/2003-12/31/2003)

接下來我們來分析常訪問的讀者及其來源，首先，圖6中表示網絡讀者訪問次數的分佈，從圖6中可以看出75.15%的讀者只訪問過一次，9.86%的讀者訪問過兩次，6.49%的讀者則經常訪問圖書館網站，這說明作爲一個爲大學教育和科研服務的資訊中心，圖書館的網絡資源已經有了固定的讀者，但還有大量讀者的資訊需求不能滿足，爲此圖書館透過參加一些文獻資訊資源建設項目和組織，如中國高等教育文獻保障體系(CALIS)，陝西省科技情報協作網等，以便獲取更多優質的文獻資訊資源，增強圖書館文獻資訊資源的保障能力。另外，圖書館資訊資源大多數有訪問權的限制，校外的讀者無法接觸到，爲此圖書館採取了一些辦法，如建立電子數據庫導航庫，電子期刊導航庫，提供文獻傳遞等服務來滿足校外讀者的資訊需求。表4是常來圖書館網站的讀者統計數據，可以觀察到前二十名讀者絕大部分是西安交大校園網的讀者佔全部來訪數的4.61%。如果以其上網所屬機構來劃分來訪的網絡讀者，圖7是前十名各類機構網絡讀者的訪問。從圖7中，我們可以清楚的看到本校的用戶佔73%，其中來自科學館的訪問佔3.23%，圖書館的讀者佔3.18%，西一樓的2.34%，可見西安交大的校園網比較普及，讀者能夠很方便的進入圖書館資源網站，這也表示圖書館提供給讀者閱讀電子資源的電子閱覽室滿足了讀者需要。在圖7中數據顯示，外校的讀者也經常訪問圖書館網站，如西安理工大學的讀者佔0.33%，長安大學的佔0.31%，北京大學的佔0.05%，西北工業大學的佔0.17%，上海交大佔0.08%等等，這些讀者主要使用聯機公共目錄查詢和使用自建數據庫，這說明高校間的資訊共享正在發展，圖書館應該加強自建特色數據庫的建設，增強文獻傳遞和館際互借服務，滿足這些讀者的資訊需求。

接下來我們來觀察各類讀者在每個月訪問網絡資源的比例變化圖，見圖8是各類網絡讀者訪問前十名網絡資源的變化圖，總體訪問變化的趨勢和學校的校歷安排有明顯的關係，每個數據庫的訪問量變化則和各類讀者的資訊需求不同有關係。這反映了讀者的結構影響着網站的使用情形。

網絡讀者訪問圖書館網站次數分佈(01/01/2003-12/31/2003)

前十名各類主機訪問圖書館網站的訪問次數(01/01/2003-12/31/2003)

各類網絡讀者對前十名網絡資源訪問變化圖(01/01/2003-12/31/2003)

由於篇幅有限，我們簡單介紹了本系統對圖書館網站網絡讀者訪問流量的統計分析結果，在以上的討論中，可以觀察到讀者利用網絡資訊資源是聯機公共目錄檢索和資訊檢索並重，且大部分讀者是本校的。

透過上述討論，我們知道本系統還有許多值得進一步研究之處，下一步的研究方向是收集更完整的讀者訪問日誌，包括更長期的和所有與圖書館資源訪問相關的。並且嘗試利用精緻的統計方法來分析，以達到對網絡讀者行爲更精確的解讀。

4結語

經實際應用證明，該系統對我館資訊資源建設起到了重要的促進作用。首先，在控制我館資訊資源存放空間問題上，雖然目前看來效果不明顯，但如果越來越多的資訊資源雜亂無章地佔據資訊空間，將會大大降低資訊檢索的效率，干擾核心資訊源的利用。本系統可以提供調整資訊存放的定量依據，在探明各類型資訊資料數量特徵的基礎上，分析其增長和老化規律，判斷資訊的價值和時效性，使有價值的資訊充分地發揮作用，使資訊空間得到有效的利用。

其次，在“以人爲本”的理念指導下，圖書館走出了單純提供館藏資訊資源爲中心的定位，着眼於滿足讀者廣泛的資訊需求。在本系統的指導下能實現這個目標：一是根據資訊資源規律反映出的學術動態和資訊利用規律反映出的需求動態，指導圖書館的館藏資源建設。二是透過對資訊資源利用規律的研究，使計算機資訊檢索系統走向科學化、規範化，從而方便用戶查詢。

在整個研究過程中，取得了一些研究成果，也發現有不少問題等待我們進一步的研究，首先是無法取得確實充分的數據，主要問題是圖書館提供的網絡數據庫是聯接到廠商的數據庫中去檢索的。如果圖書館自己沒有服務主機，那麼就要請廠商提供訪問數據，雖然廠商都會提供月報表，但是能夠判讀的資料不多，或是他提供的數據不標準，或是他提供資料不是圖書館想要的。其次不易解釋數據，有了訪問過程記錄數據，可是怎麼去解釋它？讀者從哪裏來，做什麼，這個比較容易解釋，可是要知道讀者做某件事的動機，就沒有辦法從數據中去解釋了。