摘 要:隨著信息技術(shù)的發(fā)展,人們采集數(shù)據(jù)的手段日益豐富與高明,由此積累的機(jī)械設(shè)備故障數(shù)據(jù)日益膨脹,而且高維數(shù)據(jù)也日益成為主流。如何從這些海量數(shù)據(jù)及高維特征中選出有用的數(shù)據(jù)進(jìn)行有效的故障診斷成為一件困難的事情。計(jì)算機(jī)性能的日益更新和數(shù)據(jù)庫技術(shù)的快速發(fā)展,使得數(shù)據(jù)挖掘這一融合多種分析手段,從大量數(shù)據(jù)中發(fā)現(xiàn)有用知識的方法應(yīng)運(yùn)而生,為上述問題的解決開辟了一條道路。本文就詳細(xì)論述了應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行機(jī)械設(shè)備故障診斷的全過程。
關(guān)鍵詞:數(shù)據(jù)挖掘;機(jī)械設(shè)備;故障診斷;粗糙集;人工神經(jīng)網(wǎng)絡(luò);決策樹
[b][align=center]The Research of Machinery Fault Diagnoses Based On Data Mining
CHU Jian-li CHEN Bu-ying[/align][/b]
Abstract:As information technology development,data collection method plenty and advisability,there are more and more data about machinery fault.Some are multidimensional.How to select useful data from so large data is a difficult thing.Now computer capability is updating and database technology is developing fleetly.As a result data mining technology appears.It includes many analysis methods and can find out useful knowledge from large data.This paper discusses the whole process about how to use data mining technology solve the problem of machinery fault diagnoses.
Key Words:Data Mining;Machinery;Fault Diagnosis;Rough Set;Artificial Neural Network;Decision Tree
1. 引言
伴隨著科學(xué)技術(shù)的飛速發(fā)展和市場競爭的日益激烈,工業(yè)生產(chǎn)不斷向大型化、連續(xù)化、高速化、重載化和智能化方向發(fā)展,從而導(dǎo)致了機(jī)械設(shè)備的結(jié)構(gòu)以及故障產(chǎn)生的機(jī)理日益復(fù)雜,有時(shí)還表現(xiàn)出非線性、隨機(jī)性和突發(fā)性。因此,將故障診斷技術(shù)應(yīng)用于保護(hù)國民經(jīng)濟(jì)支柱產(chǎn)業(yè)的關(guān)鍵設(shè)備,將成為工業(yè)發(fā)展的必然趨勢。隨著信息技術(shù)的發(fā)展,人們采集數(shù)據(jù)的手段日益豐富與先進(jìn),由此積累的數(shù)據(jù)日益膨脹,數(shù)據(jù)量達(dá)到GB甚至TB級,而且高維數(shù)據(jù)也日益成為主流,這些海量數(shù)據(jù)及其高維特征使得傳統(tǒng)的數(shù)據(jù)分析手段相形見絀。計(jì)算機(jī)性能的日益更新,使得人們能夠期望計(jì)算機(jī)能夠幫助我們分析與理解數(shù)據(jù),幫助我們以豐富的數(shù)據(jù)為基礎(chǔ)做出正確的決策。于是數(shù)據(jù)挖掘這一融合多種分析手段,從大量數(shù)據(jù)中發(fā)現(xiàn)有用知識的方法就應(yīng)運(yùn)而生,并在使用中蓬勃發(fā)展。
數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個(gè)重要步驟,它是從大量不完全的、有噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是有用的信息和知識,更廣義的說法為數(shù)據(jù)挖掘是在一些事實(shí)或觀察數(shù)據(jù)集合中尋找模式的決策支持過程[1]。它綜合了人工智能、模式識別、計(jì)算智能(人工神經(jīng)網(wǎng)絡(luò)、遺傳算法)、數(shù)理統(tǒng)計(jì)等先進(jìn)技術(shù),并已應(yīng)用于工業(yè)、商業(yè)、金融等行業(yè),本文就把數(shù)據(jù)挖掘應(yīng)用于機(jī)械設(shè)備故障診斷中。
2. 數(shù)據(jù)挖掘的常用技術(shù)
根據(jù)挖掘的途徑、方法、發(fā)現(xiàn)知識的種類、挖掘的數(shù)據(jù)庫類型等不同的角度,數(shù)據(jù)挖掘的分類不同。目前,常用的數(shù)據(jù)挖掘技術(shù)有[2,3]:
?、?決策樹
作為數(shù)據(jù)挖掘中核心算法之一,決策樹算法通常被用于從海量數(shù)據(jù)中挖掘出有效的、正確的且可理解的模式。決策樹的優(yōu)點(diǎn)是不受原始數(shù)據(jù)的約束,可以是數(shù)值型的和非數(shù)值型的數(shù)據(jù),操作直觀,容易理解。國際上最有影響和最早的決策樹方法是J.R.Quinlan提出的ID3方法?;舅悸肥沁x擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性。對測試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本,根節(jié)點(diǎn)屬性的每個(gè)值都是一個(gè)子集。這個(gè)過程可以遞歸地應(yīng)用到每個(gè)子樹上進(jìn)一步劃分,直到子集中的所有元素都是同一類時(shí)停止劃分,便生成一棵決策樹。
?、?遺傳算法
遺傳算法是借鑒生物遺傳機(jī)制的一種隨機(jī)化搜索算法,其主要特點(diǎn)是群體搜索和群體中的個(gè)體之間的信息交換。遺傳算法尤其適用于處理傳統(tǒng)方法難以解決的復(fù)雜的和非線性的問題。把它用于數(shù)據(jù)挖掘中,常常把任務(wù)表示為一種搜索問題,利用遺傳算法的搜索能力找到最優(yōu)解。但是遺傳算法有其應(yīng)用的局限性,它需要的參數(shù)太多,對許多問題編碼困難,計(jì)算量大。
?、恰∪斯ど窠?jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中應(yīng)用廣泛,它是基于生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能建立起來的模擬人腦神經(jīng)元的一種方法?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法通過模仿人的神經(jīng)系統(tǒng)來反復(fù)訓(xùn)練/學(xué)習(xí)數(shù)據(jù)集,從待分析的數(shù)據(jù)集中發(fā)現(xiàn)用于預(yù)測和分類的模式。以MP模型和HEBB規(guī)則作為基礎(chǔ),人工神經(jīng)網(wǎng)絡(luò)可分為三類:①前饋式網(wǎng)絡(luò):主要用于模式識別和預(yù)測等方面;②反饋式網(wǎng)絡(luò):主要用于聯(lián)想記憶和優(yōu)化計(jì)算;③自組織網(wǎng)絡(luò):主要用于聚類。
?、?粗糙集
粗糙集方法是一種新的數(shù)學(xué)分析工具,能夠處理不確定、不精確、不完整和不一致的信息,能夠進(jìn)行信息簡化和從經(jīng)驗(yàn)中獲取知識。其基本原理是基于等價(jià)類的思想,而這種等價(jià)類中的元素在粗糙集中被視為不可區(qū)分的,其基本方法是首先用粗糙集近似的方法來將信息系統(tǒng)(關(guān)系)中的屬性值進(jìn)行離散化;然后對每一個(gè)屬性劃分等價(jià)類,再利用集合的等價(jià)關(guān)系來進(jìn)行信息系統(tǒng)(關(guān)系)的約簡;最后得到一個(gè)最小的決策關(guān)系,從而便于獲得規(guī)則。其主要優(yōu)點(diǎn)就是不需要任何關(guān)于數(shù)據(jù)的初始的或附加的信息。
粗糙集理論建立在分類機(jī)制基礎(chǔ)之上,即它把知識的描述和事物的分類聯(lián)系在一起。一個(gè)知識表達(dá)系統(tǒng)可表示為:
S=(U,C,D,V,f)
式中:U表示論域,C∩D=A是屬性集合;子集C和D分別稱為條件屬性和決策屬性集合;
是屬性值的集合;V[sub]a[/sub]表示了屬性
的范圍;
為一信息函數(shù),它指定了U中每一對象x的屬性值。這種描述方式使得知識表達(dá)系統(tǒng)可以用二維表格來表示,這樣的表格稱為決策表。
?、?模糊論方法
模糊論方法利用模糊集合理論,對實(shí)際問題進(jìn)行模糊判斷、模糊決策、模糊模式識別等。對數(shù)據(jù)挖掘系統(tǒng)進(jìn)行分類,模糊邏輯是有用的,它提供了在高抽象層處理的便利,一般地,模糊邏輯在基于規(guī)則的系統(tǒng)中的使用涉及:
?、?對于給定的新樣本,可以使用單個(gè)模糊規(guī)則,每個(gè)可用規(guī)則為分類的成員關(guān)系都有貢獻(xiàn),我們可以對每個(gè)預(yù)測分類的真值求和。
② 將屬性值轉(zhuǎn)換成模糊值。
?、?組合上面得到的和,得到一個(gè)系統(tǒng)返回的值。
?、?關(guān)聯(lián)規(guī)則
一個(gè)大型數(shù)據(jù)庫,其各個(gè)字段之間存在著各種各樣的關(guān)系,這種關(guān)系就隱含在數(shù)據(jù)庫所包含的數(shù)據(jù)中,關(guān)聯(lián)規(guī)則挖掘的目的是找出這些隱藏的關(guān)聯(lián)。
一般關(guān)聯(lián)規(guī)則挖掘問題可分為兩個(gè)步驟尋找支持度大于預(yù)定義最小值的數(shù)據(jù)項(xiàng)集,在這兩個(gè)步驟中關(guān)聯(lián)規(guī)則挖掘效率取決于第一步,當(dāng)?shù)玫綌?shù)據(jù)集后,相應(yīng)的關(guān)聯(lián)規(guī)則可以直接得到。因此,關(guān)聯(lián)規(guī)則挖掘的主要工作在于第一步的實(shí)現(xiàn)。Apriori和DHP算法可以用于尋找待求數(shù)據(jù)項(xiàng)集。
?、?樸素貝葉斯模型、
可以使用樸素貝葉斯模型建立分類條件分布,假定所有變量對于給定的分類是條件獨(dú)立的,P(X|C[sub]K[/sub])=P(X[sub]1[/sub],…,X[sub]P[/sub]|C[sub]K[/sub])=∏P(X[sub]j[/sub]|C[sub]K[/sub]),1≤k≤m,這種近似允許用一元分布的乘積來近似需要O(K[sub]P[/sub])個(gè)概率的完整條件分布,近似后每個(gè)類所需的概率總數(shù)是O(K[sub]P[/sub])。因此條件獨(dú)立模型對變量數(shù)P是線性的,而不是指數(shù)的。
[align=center]
圖1 數(shù)據(jù)挖掘系統(tǒng)的框架[/align]
3. 數(shù)據(jù)挖掘在機(jī)械設(shè)備故障診斷中的應(yīng)用
3.1 應(yīng)用的基本原理
故障診斷的實(shí)施主要分為四個(gè)步驟:信號采集、特征提取、模式識別和診斷決策。把數(shù)據(jù)挖掘應(yīng)用在機(jī)械設(shè)備故障診斷中,就是根據(jù)機(jī)械設(shè)備的歷史運(yùn)行記錄,對它可能的運(yùn)行狀態(tài)進(jìn)行分類并對它的運(yùn)行趨勢進(jìn)行預(yù)測。故障診斷的核心是模式識別,對故障診斷的過程,就是模式獲取及模式匹配的過程。機(jī)械設(shè)備故障診斷的主要問題是故障特征模式提取,也就是知識獲取的問題。下面是數(shù)據(jù)挖掘應(yīng)用于機(jī)械設(shè)備故障診斷的系統(tǒng)框架圖,見圖1所示。
3.2 機(jī)械設(shè)備故障診斷的數(shù)據(jù)挖掘技術(shù)策略
進(jìn)行機(jī)械設(shè)備的故障診斷,首先要獲取機(jī)械設(shè)備的大量的運(yùn)行參數(shù),即要有機(jī)械設(shè)備平穩(wěn)運(yùn)行、正常工作時(shí)的數(shù)據(jù);更要有機(jī)械設(shè)備出現(xiàn)故障時(shí)的數(shù)據(jù),并且應(yīng)已獲知故障的類別。這樣,由已知故障類別、故障發(fā)生時(shí)的各運(yùn)行參數(shù)、歷史記錄組成的數(shù)據(jù)庫或數(shù)據(jù)倉庫便構(gòu)成了數(shù)據(jù)挖掘的訓(xùn)練/學(xué)習(xí)樣本庫。數(shù)據(jù)挖掘的任務(wù)就是從這些海量的雜亂無章的樣本庫中找出隱藏在其中的內(nèi)在規(guī)律,提取出不同故障的特征。
在數(shù)據(jù)挖掘處理分類問題時(shí),對同一問題可根據(jù)需要選用不同的分類方法,依據(jù)不同的判決規(guī)則完成分類工作。在機(jī)械設(shè)備故障診斷的數(shù)據(jù)挖掘技術(shù)策略中,采用發(fā)展較為成熟的粗糙集與決策樹理論結(jié)合來處理實(shí)際問題,即利用粗糙集理論用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、屬性約簡等方面,但由于粗糙集理論的分類是確定的,缺乏交互驗(yàn)證功能,結(jié)果往往不穩(wěn)定,精度不高;利用決策樹方法來產(chǎn)生分類所用到的規(guī)則,有可能形成新的有效的分類方法。依據(jù)這些規(guī)則,對新來數(shù)據(jù)進(jìn)行判別并對故障數(shù)據(jù)進(jìn)行歸類,識別出故障的種類,依此找到故障的原因并消除故障。圖2是基于數(shù)據(jù)挖掘技術(shù)的故障診斷策略示意圖。
[align=center]
圖2 基于數(shù)據(jù)挖掘技術(shù)的故障診斷策略示意圖[/align]
3.3 基于粗糙集和決策樹的數(shù)據(jù)挖掘算法
基于粗糙集和決策樹結(jié)合的數(shù)據(jù)挖掘算法過程可以描述為:不斷從條件屬性C中取出相對于決策屬性較為重要的屬性與核形成新的條件屬性集,如此不斷重復(fù),直到所得到的屬性集,使得決策屬性D對其依賴度等于D對C的依賴度為止。在具體的約簡過程中,根據(jù)領(lǐng)域 診斷對象知識,對特別重要的屬性可首先人為地取出,與核一起形成尋找最佳約簡的起始點(diǎn)。在不斷從C中取屬性過程中,要選擇那些D對其依賴度較大的屬性,這就需計(jì)算加入該屬性后依賴度的變化,依賴度增加越多,說明該屬性越重要,應(yīng)優(yōu)先被選入約簡集。然后,利用信息增益作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,該屬性成為該節(jié)點(diǎn)的測試屬性。對測試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分枝,并據(jù)此劃分樣本。算法使用同樣的過程,遞歸地形成每個(gè)劃分上的樣本判定樹,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不必考慮該節(jié)點(diǎn)的任何后代上。
4. 結(jié)論
由上面的分析我們不難看出,數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)的科學(xué)方法不同,它是一種在數(shù)據(jù)驅(qū)動下發(fā)現(xiàn)已有理論不能預(yù)測模式的新方法。它在機(jī)械設(shè)備故障診斷的開發(fā)和應(yīng)用中有著廣闊的應(yīng)用前景。可以相信,隨著理論研究和實(shí)際應(yīng)用的不斷深入,數(shù)據(jù)挖掘理論必將促使機(jī)械設(shè)備故障診斷技術(shù)進(jìn)入一個(gè)新的發(fā)展階段。
5. 參考文獻(xiàn):
[1].鞠可一,葛世倫.基于數(shù)據(jù)挖掘技術(shù)創(chuàng)建企業(yè)本體.微計(jì)算機(jī)信息:2006(22):228~230.
[2].姚洪波. 楊炳儒..Web日志挖掘數(shù)據(jù)預(yù)處理過程技術(shù)研究.微計(jì)算機(jī)信息:2006(22):234~236.
[3].楊靜,張紹兵,張健沛.數(shù)據(jù)挖掘技術(shù)在優(yōu)化與機(jī)械設(shè)備故障診斷中的應(yīng)用[J].煤礦機(jī)械:2005(9):146~147.