博文谷

位置:首頁 > 實用範文 > 論文

情感詞獲取與分類評級論文

論文2.04W

一、研究背景

情感詞獲取與分類評級論文

近年來BBS的迅速發展,主觀性的言論越來越多。如何構建一個高效的系統對如此豐富的資訊資源進行分析和處理,成爲一個重要的研究問題。而對BBS資訊資源的分析和處理,可以透過中心詞和情感詞兩個維度進行處理。對於中心詞的歸類已經有了相對較爲完整的分析體系,產生了很多有監督的學習方法以及文字特徵表示方法和特徵選擇機制。而情感詞的分類和評級以主觀詞爲主,因此針對中心詞的選擇機制及方法在情感詞上不能完全加以應用。本文主要以中山大學BBS的帖子爲研究內容,選擇合適的情感詞分類方法,對情感詞進行細分及評級,從而得出一個滿足中大BBS輿情分析系統的情感詞分類體系。

二、國內外研究現狀分析

目前,基於語義的文字傾向性研究方法主要有兩種:

一種是透過現有詞典構建情感傾向詞典。如,Hiroya利用待測詞與褒義詞、貶義詞的語義距離計算待測詞彙的語義傾向性;Ku等利用WORDNET中的其他與詞彙相關的資訊來判斷詞彙的語義傾向性;徐琳宏等採用HOWNET作爲基準詞,並在實驗中加入否定詞和副詞的處理,計算待測詞與關聯度確定語義傾向,從語義理解方面對電影評論進行了傾向性識別研究。

另一種是建立一個語義模式庫,採用語義分析技術用於文字傾向性判斷。例如,復旦大學的朱嫣嵐等年提出的基於HOWNET的.詞彙語義傾向計算方法,利用詞語間的相似度來計算詞的褒貶程度。路彬等設計了一種基於語義分析的資訊過濾模型,該模型針對不良資訊的特點,以自然語句爲處理單元,採用主題詞和語義分析的兩級過濾工作模式。

但情感詞的分類和評級以主觀詞爲主,因此針對中心詞的選擇機制及方法在情感詞上不能完全加以應用。

三、研究目標

透過對帖子出現的情感的類型與強度進行標引,將情感詞進行分類,把情感詞的強度按正面到負面分成等級進行標引。其中的軟件處理流程類似於中心詞的標引。當新詞(解析字典沒有的詞)發現以後,透過語義相近度計算軟件,比較與字典中詞彙的相近程度,透過人工干預(半自動或全自動)進行中心詞與情感詞的添加。

最後透過對帖子數據的分析和調查,對情感詞的分類和標引,開發一個可以實現將中大bbs的帖子進行實時抓取和自動分類的系統。

四、研究內容

帖子的分類標引以及中心詞的主題分類標引這兩個方面在去年師兄師姐的努力下已經完成了44067個帖子的抓取和分類,因此今年我們主要針對帖子情感詞分類以及評級這一塊開始入手。

情感心理學認爲,情感的基本類型可以分爲以下四種:即快樂,憤怒,恐懼和悲傷。

爲進一步解決這個問題,我們透過對人類情感有關資料的查找發現:人的感情複雜多樣,由於不同事情引起的同一類情感也有許多不同,即使是同一個人對同一件事情在同一個環境下也可能會有不同的情感,而不同的視野角度對情感詞的分類也有所不同。因此透過對BBS中隨機抽取的詞語,我們除去可以分類的,根據無法準確分類的進行歸納,我們利用知網發佈的wordsimilarity進行義項查找,發現一項出現頻率較高的情感類型:憐憫。

古人云:人有七情六慾,對於心理學來說,七情分別是:喜怒哀樂驚恐憐。喜怒哀樂驚恐都可以在基本類型中找到位置,而憐似乎放在哪一個類型裏面都不完全恰當。

綜上,我們把憐憫列爲單獨的一項。情感大類分爲:快樂,憤怒,恐懼,悲哀和憐憫五種。

快樂是指一個人期望和追求的目的達到後產生的情緒體驗。由於需要得到滿足,願望得以實現,心理的急迫感和緊張感解除,快樂隨之而生:

樂:指歡樂,身心愉悅,充滿幸福的一種情感;

喜:包括喜愛、喜悅、喜好、喜歡、高興、快樂等情感。

憤怒是指需求受到抑制或阻礙,願望無法實現時產生的情緒體驗。憤怒時緊張感增加,有時不能自我控制,甚至出現攻擊行爲:

怒:包括憤怒、惱怒、發怒、怨恨、憤恨等情感。

恐懼是當危險狀況出現時,人們企圖擺脫和逃避,而又無力應付時產生的情緒體驗:

驚:指驚吒、驚愕、驚慌、驚悸、驚奇、驚歎、驚喜、驚訝等情感;

恐:指恐慌、恐懼、害怕、擔心、擔憂、畏懼等情感。

悲哀是指心愛的事物失去時,或者夢想破滅時產生的情緒體驗:

哀:包括悲傷、悲痛、悲哀、憐憫、哀憐、哀愁、哀憫、哀怨、哀思等情感。

憐憫是指對肉體或精神上遭受痛苦的人或者對不幸的人表示同情的情緒體驗:

憐:包括憐憫、哀憐、同情等情感。

爲了使分類體系可以更加規範準確的劃分情感詞,我們利用知網發佈的wordsimilarity對以上五類情感詞進行義原判斷,得到以下結果:

爲了方便分類,我們再把情感詞義原兩兩之間進行距離計算,得到以下結果:

對此,我們可以發現害怕,生氣,悲哀三個負面情感詞兩兩之間的距離和相似度是一樣的;而喜悅,憐憫分別與三個負面義原之間的距離和相似度是一樣的;憐憫與喜悅之間的距離和相似度與憐憫與其他三個負面義原之間的距離和相似度是一樣的。

因此,我們先着手研究負面情感詞三個義原之間的關係,我們先依據義原距離構建一個等邊三角形,三角形的三個頂點分別爲三個義原,如圖:害怕→生氣→悲哀→生氣→害怕

爲了進一步確認分類體系,我們在上一屆同事的工作基礎上,透過對他們抓取到部分中大BBS帖子(共5578個)人工篩選的情感詞進行驗證,共342個。由4個成員獨立進行情感詞的類型分類,從中取得分類一致的結果,對於有歧義的情感詞,我們對其進行再次分類,刪除無法得出一致結果的詞語。以同樣的步驟對正面情感詞進行操作。

這樣,結合HOWNET發佈的,一共得到各類情感詞978個,分類如下表。

即在此基礎上,建立情感詞分類體系如下:

五、結語

本分類體系是根據已有研究成果和從中大BBS帖子中已抽取出並去重後的情感詞詞表的基礎上確立的分類體系,透過人工分類和修正,將情感詞進行有效分類,這個分類比簡單分正面情感詞和負面情感詞更適用於中大BBS的輿情分析系統.對於類別“其他”中的詞彙,應在後續情感詞分類中會根據情感詞的情況對各子類進行必要的添加、去除或修正。