技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 【技術(shù)干貨】自然語言語義相似度計(jì)算方法

【技術(shù)干貨】自然語言語義相似度計(jì)算方法

時(shí)間:2018-05-17 17:11:36來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:?總體來看,文本相似度的計(jì)算方法主要分為兩大類:一類是基于統(tǒng)計(jì)學(xué)的計(jì)算方法,此種方法需要大規(guī)模的語料庫,并且在計(jì)算時(shí)沒有考慮文本的句子結(jié)構(gòu)信息和語義信息,計(jì)算的結(jié)果有時(shí)會(huì)與人對(duì)自然語言的理解不相符合;另一類是基于語義理解的計(jì)算方法,這種方法不需要大規(guī)模的語料庫,但需要依賴于具有層次結(jié)構(gòu)關(guān)系的語義詞典,計(jì)算結(jié)果相對(duì)準(zhǔn)確,與人對(duì)自然語言的理解較為符合。

計(jì)算機(jī)對(duì)主觀題的自動(dòng)評(píng)閱準(zhǔn)確與否,主要取決于其對(duì)文本相似度的計(jì)算是否準(zhǔn)確。由于文本相似度計(jì)算在文檔復(fù)制檢查、信息檢索和機(jī)器翻譯等領(lǐng)域都有十分廣泛的應(yīng)用,所以,近年來有越來越多的學(xué)者致力于文本相似度算法的研究。總體來看,文本相似度的計(jì)算方法主要分為兩大類:一類是基于統(tǒng)計(jì)學(xué)的計(jì)算方法,此種方法需要大規(guī)模的語料庫,并且在計(jì)算時(shí)沒有考慮文本的句子結(jié)構(gòu)信息和語義信息,計(jì)算的結(jié)果有時(shí)會(huì)與人對(duì)自然語言的理解不相符合;另一類是基于語義理解的計(jì)算方法,這種方法不需要大規(guī)模的語料庫,但需要依賴于具有層次結(jié)構(gòu)關(guān)系的語義詞典,計(jì)算結(jié)果相對(duì)準(zhǔn)確,與人對(duì)自然語言的理解較為符合。下面介紹幾種經(jīng)典的文本相似度計(jì)算方法,并對(duì)他們各自的性能進(jìn)行簡要的分析。

 

1、基于向量空間模型的計(jì)算方法

向量空間模型簡稱VSM,是VectorSpaceModel的縮寫,是近些年使用效果較好、且應(yīng)用較為廣泛的一種信息檢索模型。在此模型中,文本被看作是由一系列相互獨(dú)立的詞語組成的,若文檔D中包含詞語t1,t2,…,tN,則文檔表示為D(t1,t2,…,tN)。由于文檔中詞語對(duì)文檔的重要程度不同,并且詞語的重要程度對(duì)文本相似度的計(jì)算有很大的影響,因而可對(duì)文檔中的每個(gè)詞語賦以一個(gè)權(quán)值w,以表示該詞的權(quán)重,其表示如下:D(t1,w1;t2,w2;…,tN,wN),可簡記為D(w1,w2,…,wN),此時(shí)的wk即為詞語tk的權(quán)重,1≤k≤N。這樣,就把文本表示成了向量的形式,同時(shí)兩文本的相似度問題也就可以通過兩向量之間的夾角大小來計(jì)算了,夾角越大,兩文本的相似度就越低。

基于向量空間模型的計(jì)算方法假設(shè)文本中的詞語是相互獨(dú)立的,因而可以用向量的形式來表示,這種表示方法簡化了文本中詞語之間的復(fù)雜關(guān)系,也使得文本的相似程度變得可以計(jì)算了。向量表示方法中詞語的權(quán)值應(yīng)該能夠顯示出該詞語對(duì)整個(gè)文本的重要程度,一般用經(jīng)過統(tǒng)計(jì)得到的詞頻來表示;向量的所有分量組合在一起,應(yīng)該能夠?qū)⒋宋谋九c其他文本區(qū)分開。

大量統(tǒng)計(jì)結(jié)果表明,文本中出現(xiàn)次數(shù)最多的詞語往往是反映句子語法結(jié)構(gòu)的虛詞以及文本作者想要闡述某個(gè)問題時(shí)所用的核心詞,如果是圍繞同一核心問題的文本,其核心詞匯應(yīng)該是類似的,所以這兩類詞對(duì)文本相似度的計(jì)算都是沒有用的。因此,最高頻詞和低頻詞都不適宜做文本的特征詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做特征詞。

在文本中出現(xiàn)頻率較高的詞語應(yīng)該具有較高的權(quán)值,因此,在計(jì)算詞語對(duì)文本的權(quán)重時(shí),應(yīng)考慮詞語在文本中的出現(xiàn)頻率,記為tf。僅考慮這一項(xiàng)是不夠的,如果某一詞語不僅在一個(gè)文本中出現(xiàn),而是在文本集中的很多個(gè)文本中都有出現(xiàn),例如“的”字在中文文本中的出現(xiàn)頻率應(yīng)該是相當(dāng)高的,但它對(duì)于我們區(qū)分各個(gè)文本是沒有幫助的,也就是說,這樣的詞語是不具備鑒別能力的。因而,在計(jì)算詞語權(quán)重時(shí)還應(yīng)考慮詞語的文檔頻率(df),即含有該詞的文檔數(shù)量。由于詞語的權(quán)重與文檔頻率成反比,又引出與文檔頻率成反比關(guān)系的倒置文檔頻率(idf),其計(jì)算公式為idf=logN/n(其中N為文檔集中全部文檔的數(shù)量,n為包含某詞語的文檔數(shù))。由此得出特征詞t在文檔D中的權(quán)重weight(t,D)=tf(t,D)*idf(t)。用tf*idf公式計(jì)算特征項(xiàng)的權(quán)重,既注重了詞語在文本中的重要性,又注重了詞的鑒別能力。因此,有較高的tf*idf值的詞在文檔中一定是重要的,同時(shí)它一定在其它文檔中出現(xiàn)很少。因此我們可以通過這種方法來選擇把那些詞語作為文本向量的特征詞。

特征詞選擇出來之后,就能確定文本的向量表示了,有了文本向量,我們就可以通過此向量計(jì)算文本的相似度了。相似度的計(jì)算方法很多,其中包括:

內(nèi)積法(InnerProduct)

余弦法(Cosine)

Dice系數(shù)法(DiceCoefficient)

Jaccard系數(shù)法(JaccardCoefficient)

2、基于漢明距離的計(jì)算方法

上述方法是基于向量空間技術(shù)的,把文本表示成空間中的向量,通過計(jì)算向量之間的夾角來得出文本之間的相似程度。而基于漢明距離的文本相似度計(jì)算方法與上述方法不同,不是基于向量空間技術(shù),而是依賴于編碼理論中的漢明距離,通過計(jì)算兩文本之間的漢明距離來計(jì)算兩文本的相似度。此種方法的優(yōu)點(diǎn)在于運(yùn)算過程比較簡便。

首先介紹一下什么是編碼理論中的漢明距離。漢明距離是描述兩個(gè)長度為n的碼字之間的距離,例如計(jì)算碼字x=(x1x2…xi…xn)與y=(y1y2…yi…yn)之間的距離,其計(jì)算公式如下:

其中運(yùn)算符號(hào)⊕表示模2加運(yùn)算,xi和yi的取值為0或1。通過此公式計(jì)算得出的數(shù)據(jù)D(x,y)表示的是碼字x與y中不同符號(hào)的數(shù)目,也就反映出了碼字x與y之間的差異,D(x,y)值越大說明兩個(gè)碼字相似程度越低。

利用此方法計(jì)算文本之間的相似度時(shí),首先提取出文本的一些相關(guān)信息,例如文中的關(guān)鍵字等,然后將其排列成字碼形式,文本的信息就通過這些字碼表現(xiàn)出來,形成文本與字碼的一一對(duì)應(yīng)關(guān)系。例如,文本D就可以表示成D=(10100111001101011),其中的0和1表示的是其所在位置對(duì)應(yīng)的文本信息在文本中的狀態(tài),如果0表示文本D在其對(duì)應(yīng)位置上的信息是不存在的,那么1就表示文本D在其對(duì)應(yīng)位置上的信息是存在的;反過來表示也是可以的。根據(jù)上面的闡述我們就可以很容易的將文本表示成碼字的形式,想要求出兩個(gè)文本之間的相似度,就可以依據(jù)上面公式的計(jì)算結(jié)果得出。如果碼字的長度為n,則通過上述公式計(jì)算出的兩碼字之間的距離值會(huì)介于0和n之間,當(dāng)計(jì)算結(jié)果為n時(shí),說明兩文本的所有信息均不相同,反之,當(dāng)結(jié)果為0時(shí),說明兩文本的所有信息都相同。這樣的推算方法顯然很不直觀,而且如果n值不同,文本相似度的大小也會(huì)很難比較。所以,我們首先要確定整個(gè)文本集的碼字集,然后將每個(gè)文本表示成其對(duì)應(yīng)的碼字,對(duì)于文本D1=(x1x2…xi…xn)和D2=(y1y2…yi…yn),定義其相似度計(jì)算公式為:

其中,xi和yi分別為文本D1和D2對(duì)應(yīng)的碼字中第i位的分量,其值0或1,⊕仍然是模2加運(yùn)算,此種運(yùn)算對(duì)計(jì)算機(jī)來說,十分方便快捷。運(yùn)用Sim(D1,D2)公式計(jì)算出來的文本相似度,其值介于0和1之間,當(dāng)結(jié)果0時(shí),說明兩個(gè)文本完全不相似,當(dāng)結(jié)果為1時(shí),說明兩個(gè)文本很相似,符合人們正常的認(rèn)知規(guī)律。

基于漢明距離的文本相似度計(jì)算方法沒有用到基于向量空間技術(shù)中使用的大量復(fù)雜的運(yùn)算,只是用到計(jì)算機(jī)運(yùn)算起來十分快捷的模2加等運(yùn)算,因而,計(jì)算速度比較快。另外,這種方法所用的文本信息不僅僅限于關(guān)鍵字等互相獨(dú)立的信息,提供了聯(lián)合的描述文本信息的可能。但是,如何選擇和排列文本信息,使其構(gòu)成與文本一一對(duì)應(yīng)的碼字集合,是運(yùn)用此方法進(jìn)行文本相似度計(jì)算過程中有待于進(jìn)一步研究的難點(diǎn)問題。

3、基于語義理解的計(jì)算方法

基于語義理解的文本相似度計(jì)算方法與基于統(tǒng)計(jì)學(xué)的計(jì)算方法不同,此方法不需要大規(guī)模的語料庫,也不需要長時(shí)間和大量的訓(xùn)練,一般需要一個(gè)具有層次結(jié)構(gòu)關(guān)系的語義詞典,依據(jù)概念之間的上下位關(guān)系或同義關(guān)系進(jìn)行計(jì)算。文本的相似性計(jì)算大多是依賴于組成此文本的詞語,基于語義理解的相似度計(jì)算方法也不例外,一般都是通過計(jì)算語義結(jié)構(gòu)樹中兩詞語之間的距離來計(jì)算詞語的相似度。因此,一般會(huì)用到一些具有層次結(jié)構(gòu)關(guān)系的語義詞典,如WordNet、HowNet、同義詞詞林等。基于語義詞典的文本相似度計(jì)算方法很多,有的通過計(jì)算詞語在WordNet中由上下位關(guān)系所構(gòu)成的最短路徑來計(jì)算詞語的相似度;也有的根據(jù)兩詞語在詞典中的公共祖先結(jié)點(diǎn)所具有的最大信息量來計(jì)算詞語的相關(guān)度;國內(nèi)也有通過知網(wǎng)或同義詞詞林來計(jì)算詞語的語義相似度的方法。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:英威騰MH500電液伺服故障速查...

下一篇:振動(dòng)傳感器選擇指南,如何選...

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號(hào) | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)