技術頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術頻道 > 技術百科 > 人工智能系統(tǒng)如何識別重復數(shù)據(jù)?

人工智能系統(tǒng)如何識別重復數(shù)據(jù)?

時間:2021-05-17 14:38:22來源:中國傳動網(wǎng)

導語:?對人工智能概念的討論,例如比較數(shù)據(jù)庫中的記錄,以及如何將這些技術與Salesforce結合使用。在本文中,我們將更仔細地研究數(shù)據(jù)科學家用來訓練機器學習系統(tǒng)以識別重復項的一些方法。

人工智能概念的討論,例如比較數(shù)據(jù)庫中的記錄,以及如何將這些技術與Salesforce結合使用。

當您同時比較兩個Salesforce記錄或任何其他CRM記錄時,您可以很容易地確定它們是否重復。然而,即使你有少量的記錄,比如說不到10萬條,也幾乎不可能一個一個地篩選它們,并進行這樣的比較。這就是為什么公司已經(jīng)開發(fā)了各種工具來自動化這些過程,但是,為了做好工作,機器需要能夠識別記錄之間的所有相似性和差異性。在本文中,我們將更仔細地研究數(shù)據(jù)科學家用來訓練機器學習系統(tǒng)以識別重復項的一些方法。

 人工智能

機器學習系統(tǒng)如何比較和對比記錄?

研究人員使用的主要工具之一是字符串度量。當您獲取兩個數(shù)據(jù)字符串并返回一個值時,如果字符串相似,則返回低值;如果字符串不同,則返回高值。這在實踐中是如何起作用的?

如果一個人看到這兩個記錄,很明顯這是重復的。然而,機器依靠字符串度量來復制人類的思維過程,這就是人工智能的全部內(nèi)容。最著名的字符串度量之一是漢明距離,它度量將一個字符串轉換為另一個字符串所需的替換次數(shù)。例如,如果我們返回到上面的兩個記錄,只需要進行一次替換就可以將burgendy”變成“burgendy”,因此Hamming距離為1

還有許多其他的字符串度量標準來度量兩個字符串之間的相似性,而分隔每個字符串的是它們所允許的操作。例如,我們提到了漢明距離,但是這個字符串度量只允許替換,這意味著它只能應用于長度相等的字符串。類似Levenshtein距離的東西允許刪除、插入和替換。

如何將所有這些用于重復數(shù)據(jù)消除Salesforce?

人工智能系統(tǒng)有幾種方法可以實現(xiàn)Salesforce重復數(shù)據(jù)消除。方法之一是阻塞方法,如下所示:

這種阻塞方法使這種方法具有可擴展性。它的工作方式是,每當你上傳新的記錄到你的Salesforce中,系統(tǒng)會自動將看起來“相似”的記錄屏蔽在一起,這可以是名字的前三個字母或任何其他條件。

這是非常有益的,因為它減少了需要進行比較的次數(shù)。例如,假設Salesforce中有100000條記錄,并且您希望上載一個包含50000條記錄的Excel電子表格。傳統(tǒng)的基于規(guī)則的重復數(shù)據(jù)消除應用程序需要將每個新記錄與現(xiàn)有記錄進行比較,這意味著需要進行5000000000次比較(100000 x 50000)。想象一下這需要多長時間,它會增加多少出錯的概率。此外,我們需要記住,100000條記錄只是Salesforce記錄中相當有限的一部分。有很多組織擁有數(shù)十萬甚至數(shù)百萬的記錄。因此,在嘗試適應此類模型時,傳統(tǒng)方法的可擴展性很差。

另一種選擇是單獨比較每個字段:

Acme公司

一旦系統(tǒng)將“相似”的記錄組合在一起,它將繼續(xù)逐字段分析每個記錄。這就是我們前面討論的所有字符串度量將發(fā)揮作用的地方。除此之外,系統(tǒng)將為每個字段指定一個特定的“權重”或重要性。例如,假設對于您的數(shù)據(jù)集,“Email”字段是最重要的。您可以自己調(diào)整算法,或者當您將記錄標記為重復(或不重復)時,系統(tǒng)將自動學習正確的權重。這被稱為主動學習,更可取的是,因為系統(tǒng)可以精確計算一個領域對另一個領域的重要性。

機器學習方法的優(yōu)點是什么?

機器學習能提供的最大好處是它能為你做所有的工作。我們在上一節(jié)中描述的主動學習方面將自動對每個字段應用所有必要的權重。這意味著不需要創(chuàng)建復雜的設置過程或規(guī)則。讓我們看看下面的場景。假設其中一個銷售代表發(fā)現(xiàn)了一個重復的問題,并將此問題通知Salesforce管理員。然后Salesforce管理員將繼續(xù)創(chuàng)建一個規(guī)則,以防止將來發(fā)生此類重復。每次發(fā)現(xiàn)一個新的復制品使這樣一個過程變得不可持續(xù)時,就必須一遍又一遍地重復這個過程。

另外,我們需要記住,Salesforce中基于重復數(shù)據(jù)消除的功能也是基于規(guī)則的,只是非常有限。例如,一次只能合并三條記錄,不支持自定義對象,還有許多其他限制。機器學習只是一種更聰明的方法,因為規(guī)則的創(chuàng)建是簡單的自動化,而人工智能和機器學習則試圖重現(xiàn)人類的思維過程。本文討論了機器學習和自動化的區(qū)別。選擇一個簡單地擴展Salesforce功能而不是修復整個過程的重復數(shù)據(jù)消除產(chǎn)品是沒有意義的。這就是為什么機器學習方法是最好的方法。

標簽: 人工智能

點贊

分享到:

上一篇:邊緣計算和物聯(lián)網(wǎng)之間的共生關系

下一篇:嵌入式操作系統(tǒng)的八大優(yōu)點

中國傳動網(wǎng)版權與免責聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(m.u63ivq3.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

網(wǎng)站簡介|會員服務|聯(lián)系方式|幫助信息|版權信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務平臺

網(wǎng)站客服服務咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權所有
粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報中心 | 粵公網(wǎng)安備 44030402000946號