【中國傳動網(wǎng) 技術前沿】 中國是一個制造大國,每天都要生產大量的工業(yè)產品。用戶和生產企業(yè)對產品質量的要求越來越高,除要求滿足使用性能外,還要有良好的外觀,即良好的表面質量。但是,在制造產品的過程中,表面缺陷的產生往往是不可避免的。不同產品的表面缺陷有著不同的定義和類型,一般而言表面缺陷是產品表面局部物理或化學性質不均勻的區(qū)域,如金屬表面的劃痕、斑點、孔洞,紙張表面的色差、壓痕,玻璃等非金屬表面的夾雜、破損、污點,等等。
表面缺陷不僅影響產品的美觀和舒適度,而且一般也會對其使用性能帶來不良影響,所以生產企業(yè)對產品的表面缺陷檢測非常重視,以便及時發(fā)現(xiàn),從而有效控制產品質量,還可以根據(jù)檢測結果分析生產工藝中存在的某些問題,從而杜絕或減少缺陷品的產生,同時防止?jié)撛诘馁Q易糾份,維護企業(yè)榮譽。
人工檢測是產品表面缺陷的傳統(tǒng)檢測方法,該方法抽檢率低、準確性不高、實時性差、效率低、勞動強度大、受人工經(jīng)驗和主觀因素的影響大,而基于機器視覺的檢測方法可以很大程度上克服上述弊端。
美國機器人工業(yè)協(xié)會(RIA)對機器視覺下的定義為:“機器視覺是通過光學的裝置和非接觸的傳感器自動地接收和處理一個真實物體的圖像,以獲得所需信息或用于控制機器人運動的裝置”[1]。
機器視覺是一種無接觸、無損傷的自動檢測技術,是實現(xiàn)設備自動化、智能化和精密控制的有效手段,具有安全可靠、光譜響應范圍寬、可在惡劣環(huán)境下長時間工作和生產效率高等突出優(yōu)點。機器視覺檢測系統(tǒng)通過適當?shù)墓庠春蛨D像傳感器(CCD攝像機)獲取產品的表面圖像,利用相應的圖像處理算法提取圖像的特征信息,然后根據(jù)特征信息進行表面缺陷的定位、識別、分級等判別和統(tǒng)計、存儲、查詢等操作;
視覺表面缺陷檢測系統(tǒng)基本組成主要包括圖像獲取模塊、圖像處理模塊、圖像分析模塊、數(shù)據(jù)管理及人機接口模塊。
圖像獲取模塊由CCD攝像機、光學鏡頭、光源及其夾持裝置等組成,其功能是完成產品表面圖像的采集。在光源的照明下,通過光學鏡頭將產品表面成像于相機傳感器上,光信號先轉換成電信號,進而轉換成計算機能處理的數(shù)字信號。目前工業(yè)用相機主要基于CCD或CMOS(complementarymetaloxidesemiconductor)芯片的相機。CCD是目前機器視覺最為常用的圖像傳感器。
光源直接影響到圖像的質量,其作用是克服環(huán)境光干擾,保證圖像的穩(wěn)定性,獲得對比度盡可能高的圖像。目前常用的光源有鹵素燈、熒光燈和發(fā)光二級管(LED)。LED光源以體積小、功耗低、響應速度快、發(fā)光單色性好、可靠性高、光均勻穩(wěn)定、易集成等優(yōu)點獲得了廣泛的應用。
由光源構成的照明系統(tǒng)按其照射方法可分為明場照明與暗場照明、結構光照明與頻閃光照明。明場與暗場主要描述相機與光源的位置關系,明場照明指相機直接接收光源在目標上的反射光,一般相機與光源異側分布,這種方式便于安裝;暗場照明指相機間接接收光源在目標上的散射光,一般相機與光源同側分布,它的優(yōu)點是能獲得高對比度的圖像。結構光照明是將光柵或線光源等投射到被測物上,根據(jù)它們產生的畸變,解調出被測物的3維信息。頻閃光照明是將高頻率的光脈沖照射到物體上,攝像機拍攝要求與光源同步。
圖像處理模塊主要涉及圖像去噪、圖像增強與復原、缺陷的檢測和目標分割。
由于現(xiàn)場環(huán)境、CCD圖像光電轉換、傳輸電路及電子元件都會使圖像產生噪聲,這些噪聲降低了圖像的質量從而對圖像的處理和分析帶來不良影響,所以要對圖像進行預處理以去噪。圖像增強目是針對給定圖像的應用場合,有目的地強調圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強調某些感興趣的特征,擴大圖像中不同物體特征之間的差別,抑制不感興趣的特征,使之改善圖像質量、豐富信息量,加強圖像判讀和識別效果的圖像處理方法。圖像復原是通過計算機處理,對質量下降的圖像加以重建或復原的處理過程。圖像復原很多時候采用與圖像增強同樣的方法,但圖像增強的結果還需要下一階段來驗證;而圖像復原試圖利用退化過程的先驗知識,來恢復已被退化圖像的本來面目,如加性噪聲的消除、運動模糊的復原等。圖像分割的目的是把圖像中目標區(qū)域分割出來,以便進行下一步的處理。
圖像分析模塊主要涉及特征提取、特征選擇和圖像識別。
特征提取的作用是從圖像像素中提取可以描述目標特性的表達量,把不同目標間的差異映射到低維的特征空間,從而有利于壓縮數(shù)據(jù)量、提高識別率。表面缺陷檢測通常提取的特征有紋理特征、幾何形狀特征、顏色特征、變換系數(shù)特征等,用這些多信息融合的特征向量來區(qū)可靠地區(qū)分不同類型的缺陷;這些特征之間一般存在冗余信息,即并不能保證特征集是最優(yōu)的,好的特征集應具備簡約性和魯棒性,為此,還需要進一步從特征集中選擇更有利于分類的特征,即特征的選擇。圖像識別主要根據(jù)提取的特征集來訓練分類器,使其對表面缺陷類型進行正確的分類識別。
數(shù)據(jù)管理及人機接口模塊可在顯示器上立即顯示缺陷類型、位置、形狀、大小,對圖像進行存儲、查詢、統(tǒng)計等。
機器視覺表面缺陷檢測主要包括2維檢測和3維檢測,前者是當前的主要表面缺陷檢測方式,也是本文的著重論述之處。
機器視覺在工業(yè)檢測、包裝印刷、食品工業(yè)、航空航天、生物醫(yī)學工程、軍事科技、智能交通、文字識別等領域得到了廣泛的應用。工業(yè)檢測領域是機器視覺應用中比重最大的領域,主要用于產品質量檢測、產品分類、產品包裝等,如:零件裝配完整性檢測,裝配尺寸精度檢測,位置/角度測量,零件識別,PCB板檢測,印刷品檢測,瓶蓋檢測,玻璃、煙草、棉花檢測,以及指紋、汽車牌照、人臉、條碼等識別。表面質量檢測系統(tǒng)是工業(yè)檢測的極其重要的組成部分,機器視覺表面缺陷檢測在許多行業(yè)開始應用,涉及鋼板[2-4]、玻璃[5-6]、印刷[7-9]、電子[10]、紡織品[11]、零件[12-13]、水果[14]、木材[15-16]、瓷磚[17-19]、鋼軌[20]等多種關系國計民生的行業(yè)和產品。
1研究現(xiàn)狀、視覺軟件系統(tǒng)和研究平臺
1.1研究現(xiàn)狀
機器視覺在金屬(特別是鋼板)表面、紙張等印刷品、紡織品、磁磚、玻璃、木材等表面缺陷檢測國內外有較多的研究成果,不乏成功應用系統(tǒng)和案例。
在鋼板表面缺陷檢測領域,美國Westinghouse公司采用線陣CCD攝像機和高強度的線光源檢測鋼板表面缺陷,并提出了將明域、暗域及微光域3種照明光路形式組合應用于檢測系統(tǒng)的思路[21]。這些系統(tǒng)可識別的缺陷種類相對較少,并且不具備對周期性缺陷的識別能力。美國Cognex公司研制成功了iS-2000自動檢測系統(tǒng)和iLearn自學習分類器軟件系統(tǒng)[22]。這兩套系統(tǒng)配合有效改善了傳統(tǒng)自學習分類方法在算法執(zhí)行速度、數(shù)據(jù)實時吞吐量、樣本訓練集規(guī)模及模式特征自動選擇等方面的不足;Parsytec公司為韓國浦項制鐵公司研制了冷軋鋼板表面缺陷檢測系統(tǒng)HTS,該系統(tǒng)能對高速運動的熱軋鋼板表面缺陷進行在線自動檢測和分級的系統(tǒng),在連軋機和CSP生產線上取得了良好的效果[23];英國EuropeanElectronicSystem公司研制的EES系統(tǒng)也成功地應用于熱連軋環(huán)境下的鋼板質量自動檢測[24]。EES系統(tǒng)實時地提供高清晰度、高可靠性的鋼板上下表面的缺陷圖像,最終交由操作員進行缺陷類型的分類判別。國內北京科技大學的高效軋制國家工程研究中心也在進行鋼板表面質量檢測系統(tǒng)的研制,對其常見缺陷類型進行了檢測與識別,取得了一定的研究成果[25],東北大學、上海寶鋼集團公司、武漢科技大學等科研院所研究了冷軋鋼板表面缺陷的檢測系統(tǒng)[26-28],重慶大學對高溫連鑄坯表面缺陷進行了研究[29]。
在其他領域,視覺表面缺陷檢測也得到了廣泛的研究和應用。文獻[30]對規(guī)則紋理表面(天然木材、機械加工表面、紡織面料)的表面缺陷采用傅里葉變換進行圖像的復原,高頻的傅里葉分量對應表面紋理線型,而低頻的傅里葉分量對應表面缺陷區(qū)域。文獻[31]研究了鋁帶連鑄生產中的表面缺陷檢測,通過紅外檢測提供鋁帶表面溫度的分布情況以評估鋁帶質量,采集鋁帶圖像,進行表面缺陷檢測和分類。文獻[32]將機器視覺應用于集成電路晶片表面缺陷檢測,使用模糊邏輯對表面凹坑缺陷的不同形狀進行分析處理。文獻[33]利用圖像對鐵軌的表面質量進行自動檢測,車載檢測系統(tǒng)對鐵軌的表面質量進行實時檢測和分類。文獻[34]基于機器視覺系統(tǒng)對雞肉包裝前的質量檢測,根據(jù)雞肉圖像的顏色信息,采用數(shù)學形態(tài)學方法對潛在的問題區(qū)域進行特征提取,然后按預定義的質量問題列表進行分類。文獻[35]針對隨機紋理的彩色圖像提出了一種利于分水嶺變換的顏色相似性度量,提取了圖像的顏色和紋理特征,實現(xiàn)了隨機紋理表面缺陷的自動分割和檢測。文獻[36]采用雙目立體視覺,基于特征立體匹配算法對掃描電鏡圖像研究了物體的表面深度信息。文獻[37]介紹了一種皮革表面缺陷檢測的方法,采用OTSU方法進行缺陷分割,利用歐式距離聚類法進行缺陷分類,在分類聚類時使用形態(tài)學算子進行腐蝕運算,實驗結果表明了該方法的有效性。文獻[38]對玻璃缺陷進行了識別,把采集到的缺陷圖像縮放到10×10的大小,然后把這個100個像素值作為特征向量,分別運用徑向基(RBF)神經(jīng)網(wǎng)絡和決策樹進行識別;該方法的缺點是不同缺陷縮放后造成部分信息的丟失。文獻[39]研究了一種玻璃缺陷識別的專家系統(tǒng)(ES),首先需要電子顯微技術和等離子射線獲得缺陷信息作為知識庫,對未知的玻璃缺陷通過搜索知識庫對缺陷信息進行匹配,選擇最相近的類別作為輸出;該方法的缺點是分類采用貪婪搜索法,匹配速度慢。文獻[40]針對機器視覺在產品表面粗糙度的檢測方法作了描述,首先建立粗糙度的模型,然后以表面的累加偏差作為特征通過神經(jīng)網(wǎng)絡(ANN)進行等級劃分,并闡述了不同的ANN模型對識別結果的影響。
1.2視覺軟件系統(tǒng)
機器視覺軟件系統(tǒng)除具有圖像處理和分析功能外,還應具有界面友好、操作簡單、擴展性好、與圖像處理專用硬件兼容等優(yōu)點。國外視覺檢測技術研究開展的較早,已涌現(xiàn)了許多較為成熟的商業(yè)化軟件,應該比較多的有HALCON、HexSight、VisionPro、LEADTOOLS等[41]。
HALCON是德國MVtec公司開發(fā)的一套完善的標準的機器視覺算法包,擁有應用廣泛的機器視覺集成開發(fā)環(huán)境維視圖像開發(fā)定制軟件,在歐洲以及日本的工業(yè)界已經(jīng)是公認具有最佳效能的MachineVision軟件。HALCON的imageprocessinglibrary,由一千多個各自獨立的函數(shù)和底層的數(shù)據(jù)管理核心構成,其函數(shù)庫可以用C,C++,C#,Visualbasic和Delphi等多種普通編程語言訪問。HALCON百余種工業(yè)相機和圖像采集卡提供接口,包括GenlCam,GigE和IIDC1394。HALCO還具有強大的3維視覺處理能力,另外,自動算子并行處理(AOP)技術是HALCON的一個獨特性能。HALCON應用范圍涵蓋自動化檢測、醫(yī)學和生命科學,遙感探測,通訊和監(jiān)控等眾多領域。
Adept公司出品的HexSight是一款高性能的、綜合性的視覺軟件開發(fā)包,它提供了穩(wěn)定、可靠及準確定位和檢測零件的機器視覺底層函數(shù)。HexSight的定位工具是根據(jù)幾何特征、采用輪廓檢測技術來識別對象和模式。在圖像凌亂、亮度波動、圖像模糊和對象重疊等方面有顯著效果。HexSight能處理自由形狀的對象,并具有功能強大的去模糊算法。HexSight軟件包含一個完整的底層機器視覺函數(shù)庫,可用來建構完整的高性能2D機器視覺系統(tǒng),可利用VisualBasic、VisualC++或BorlandDephi平臺方便地進行二次開發(fā)。其運算速度快,在一臺2GHz的處理器上尋找和定位一般的零部件不超過10ms;具有1/40亞像素平移重復精度和0.05度旋轉重復精度。此外,內置的標定模塊能矯正畸變、投影誤差和X-Y像素比誤差,完整的檢測工具包含硬件接口、圖像采集、圖像標定、圖像預處理、幾何定位、顏色檢測、幾何測量、Blob分析、清晰度評價(自動對焦)、模式匹配、邊緣探測等多種多樣,開放式體系結構,支持DirectShow、DCam,GigEvision等多種通用協(xié)議,幾乎與市面上所有商業(yè)圖像采集卡,以及各種USB、1394以及GigE接口的攝像機兼容。
Cognex公司的VisionPro是一套基于.Net的視覺工具,適用于包括FireWire和CameraLink在內的所有硬件平臺,利用ActiveX控制可快速完成視覺應用項目程序的原模型開發(fā),可使用相應的VisualBasic、VB.Net、C#或C++搭建出更具個性化的應用程序。
LEADTOOLS在數(shù)碼圖像開發(fā)工具領域中已成為全球領導者之一,是目前功能強大的優(yōu)秀的圖形、圖像處理開發(fā)包,它可以處理各種格式的文件,并包含所有圖形、圖像的處理和轉換功能,支持圖形、圖像、多媒體、條形碼、OCR、Internet、DICOM等等,具有各種軟硬件平臺下的開發(fā)包。
此外,還有Dalsa公司的Sherlock檢測軟件,日本的OMRON和Keyence,德國SIEMENS等,這些機器視覺軟件都能提供完整的表面缺陷檢測方法。
國內機器視覺檢測系統(tǒng)開發(fā)較晚,相關的企業(yè)主要是代理國外同類產品,提供視覺檢測方案和系統(tǒng)集成,其中具有代表性的企業(yè)有凌華科技、大恒圖像、視覺龍、凌云光子、康視達、OPT、三姆森和微視圖像等。
1.3視覺硬件平臺
機器視覺表面質量檢測,特別是實時檢測,圖像采集的數(shù)據(jù)量大,所以如何提高圖像處理速度顯得十分重要。提高圖像處理速度主要有兩種手段,一是改善和優(yōu)化圖像處理算法,算法既要簡單快速,又要兼顧實際效果;二是改善和優(yōu)化實現(xiàn)算法的手段。目前,實時圖像處理采集方案主要為下面幾個方面[42]。
1)通用計算機網(wǎng)絡并行處理。這種處理結構采用“多客戶機+服務器”的方式,一個圖像傳感器對應一臺客戶機,服務器實現(xiàn)信息的合成,圖像處理的大部分工作由軟件來完成。該結構雖然比較龐大,但升級維護方便、實時性較好。
2)數(shù)字信號處理器(DSP)。DSP是一種獨特的微處理器,是以數(shù)字信號來處理大量信息的器件。其工作原理是將接收到的模擬信號轉換為“0”或“1”的數(shù)字信號,再對數(shù)字信號進行修改、刪除和強化,并在其他系統(tǒng)芯片中把數(shù)字數(shù)據(jù)解譯回模擬數(shù)據(jù)或實際環(huán)境格式,其實時運行速度遠遠超過通用微處理器。但是,DSP的體系仍是串行指令執(zhí)行系統(tǒng),而且只是對某些固定的運算進行硬件優(yōu)化,故不能滿足眾多的算法要求。
3)專用集成電路(ASIC)。ASIC是針對于某一固定算法或應用而專門設計的硬件芯片,有很強的實時性。但在實際應用中存在開發(fā)周期相對較長、成本高、適應性和靈活性差等缺點。
4)現(xiàn)場可編程門陣列(FPGA)。FPGA由多個可編程的基本邏輯單元組成的一個2維矩陣,邏輯單元之間以及邏輯單元與I/O單元之間通過可編程連線進行連接。FPGA能在設計上具有很強的靈活性,集成度、工作速度也在不斷提高,可實現(xiàn)的功能也越來越強;同時其開發(fā)周期短,系統(tǒng)易于維護和擴展,能夠大大地提高圖像數(shù)據(jù)的處理速度。
實時圖像處理系統(tǒng)中,底層的信號數(shù)據(jù)量大,對處理速度的要求高,但運算結構相對比較簡單,適合采用FPGA以硬件方式來實現(xiàn);高層處理算法的特點是處理的數(shù)據(jù)量相對較少,但算法和控制結構復雜,可使用DSP來實現(xiàn)。所以,可以把二者的優(yōu)點結合在一起以兼顧實時性和靈活性。
USB、串口、并口是計算機和外設進行通訊的常用接口,但對于數(shù)據(jù)量大的圖像來說,串行RS-232協(xié)議難于達到圖像采集實時性要求。USB口即使能滿足所需速度,但要求外設必須支持USB協(xié)議,而USB協(xié)議與常用工程軟件的接口還不普及。IEEE-1394接口具有廉價,速度快,支持熱拔插,數(shù)據(jù)傳輸速率可擴展,標準開放等特點,在眾多領域得到了廣泛的應用。但隨著數(shù)字圖像采集速度的提高、數(shù)據(jù)量的增大,原有的標準漸難以滿足需求。為了簡化數(shù)據(jù)的連接,實現(xiàn)高速、高精度、靈活、簡單的連接,在NationalSemiconductor公司等多家相機制造商共同制定推出了CameraLink標準。CameraLink是專門為數(shù)字攝像機的數(shù)據(jù)傳輸提出的接口標準,專為數(shù)字相機制定的一種圖像數(shù)據(jù)、視頻數(shù)據(jù)控制信號及相機控制信號傳輸?shù)目偩€接口,其最主要特點是采用了低壓差分信號(LVDS)技術,使攝像機的數(shù)據(jù)傳輸速率大大提高。
2表面缺陷檢測圖像處理和分析算法
2.1圖像預處理算法
工業(yè)現(xiàn)場采集的圖像通常包含噪聲,圖像預處理主要目的是減少噪聲,改善圖像的質量,使之更適合人眼的觀察或機器的處理。圖像的預處理通常包括空域方法和頻域方法,其算法有灰度變換、直方圖均衡、基于空域和頻域的各種濾波算法等,其中直觀的方法是根據(jù)噪聲能量一般集中于高頻,而圖像頻譜則分布于一個有限區(qū)間的這一特點,采用低通濾波方式進行去噪,例如滑動平均窗濾波器、Wiener線性濾噪器等。上述各種濾波方法中,頻域變換復雜,運算代價較高;空域濾波算法采用各種模板對圖像進行卷積運算。直接灰度變換法通過對圖像每一個像素按照某種函數(shù)進行變換后得到增強圖像,變換函數(shù)一般多采用線性函數(shù)、分段線性函數(shù)、指數(shù)函數(shù)、對數(shù)函數(shù)等,運算簡單,在滿足處理功能的前提下實時性也較高。近年來,數(shù)學形態(tài)學方法[43-44]、小波方法[45-47]用于圖像的去噪,取得了較好的效果。
2.2圖像分割算法
圖像的分割是把圖像陣列分解成若干個互不交迭的區(qū)域,每一個區(qū)域內部的某種特性或特征相同或接近,而不同區(qū)域間的圖像特征則有明顯差別。它是由圖像處理到圖像分析的關鍵步驟?,F(xiàn)有的圖像分割方法主要分為基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。近年來,研究者不斷改進原有的圖像分割方法并把其他學科的一些新理論和新方法用于圖像分割,提出了不少新的分割方法。圖像分割后提取出的目標可以用于圖像語義識別、圖像搜索等領域。
2.2.1基于區(qū)域的分割算法
基于區(qū)域的分割算法包括閾值分割法、區(qū)域生長法和聚類分割法等。
閾值分割法是一種傳統(tǒng)的圖像分割方法,其基本原理是:通過設定不同的灰度閾值,把圖像像素點分為若干類。因其實現(xiàn)簡單、計算量小、性能較穩(wěn)定而成為圖像分割中最基本和應用最廣泛的分割方法,其中閾值的選取是圖像閾值分割方法中的關鍵。
關于閾值的確定方法,目前比較常用的有固定閾值法、自適應閾值法、多區(qū)域閾值法等。固定閾值分割算法實時性強,適用于圖像背景和目標灰度值區(qū)別明顯的情況;自適應閾值分割算法,適用于目標與背景的灰度值區(qū)別不明顯的情況;多區(qū)域閾值法,適用于目標與背景在不同區(qū)域區(qū)別較大的情況。
Otsu提出了動態(tài)門限方法[48],它以目標和背景之間的方差最大來動態(tài)地確定圖像分割門限值,但當目標的相對面積較小時,此方法性能不佳。Pun和Kapur等人提出了利用最大先驗熵選取閾值的方法[49-50],從信息論的角度選擇閾值,在一定程度上克服了上述算法的缺點,但當圖像背景復雜時分割時容易喪失部分信息,且計算量較大。
Yen等人提出了利用最大相關性原則取代常用的最大熵原則來選取閾值的方法[51],以及基于一維或2維直方圖的閾值方法[52-54]、最小誤判概率準則下的最佳閾值方法[55]在其后也被提出。
區(qū)域生長法的基本思想是依據(jù)一定的生長準則,將若干個“相似”子區(qū)域聚合成較大的區(qū)域。它首先對每個需要分割的區(qū)域找到一個種子像素作為生長的起點,再將種子像素鄰域中與其具有相同或相似性質的像素根據(jù)某種事先確定的準則合并到種子像素所在的區(qū)域中;將這些新像素當作新的種子像素繼續(xù)像上面的操作,直到再沒有滿足條件的像素可包括進來。此法原理簡單,對于較均勻的連通目標有較好的分割效果;缺點是依賴于初始條件的選取,計算量較大,不適用于實時檢測。
分裂—合并法也是一種基于區(qū)域的分割算法,其基本思想是:根據(jù)圖像和各區(qū)域的不均勻性,將圖像或區(qū)域分裂成新的子區(qū)域,再將包含相同內容的區(qū)域合并成新的較大區(qū)域,最后得到分割圖像。四叉樹分解是一種常用的分裂—合并法,其具體過程是:將圖像分成4塊大小相等的方塊,判斷每個小塊是否滿足一致性標準(如兩區(qū)域參數(shù)統(tǒng)計特征結果相同,等等)。若滿足,則不再分解;若不滿足,則再細分成四塊,再用細分塊進行一致性標準檢查,直到滿足一致性標準,結果可能包含大小不同的塊。
聚類法進行圖像分割是根據(jù)圖像在特征空間的聚集對特征空間進行分割,再映射到原圖像空間得到分割結果,K均值聚類算法、模糊C均值聚類(FCM)算法[56-57]是常用的聚類算法。
2.2.2基于邊緣的分割方法
基于邊緣的分割方法其實就是根據(jù)圖像中局部特性的不連續(xù)性而采用某種算法來提取出圖像中的對象與背景間的交界線。
邊緣處像素的灰度值不連續(xù),這種不連續(xù)性可通過求導來檢測。經(jīng)典的邊緣檢測算法一般采用微分的方法進行計算,常用的一階微分邊緣檢測算子有Robert算子、Sobel算子、Prewitt算子、Kirsch算子等幾種。一階微分算子方法計算簡便、速度快,但定位不準確。二階微分算子主要有Canny算子、Log算子、Laplacian算子,這類算子基于一階導數(shù)的局部最大值對應二階導數(shù)的零交叉點這一性質,通過尋找圖像灰度的二階導數(shù)的零交叉點從而定位邊緣。二階微分算子方法邊緣定位準確,但對噪聲敏感。對于噪聲污染的圖像,在進行微分算子邊緣檢測前一般先要濾波,但濾波的同時也使圖像邊緣產生一定程度的模糊。Marr算子將噪聲濾波與邊緣提取相結合,但當模板較小時抗噪性能不良,模板較大時計算費時。
2.2.3基于特定理論的分割方法
隨著數(shù)學和人工智能的發(fā)展,出現(xiàn)了一些新的邊緣檢測方法,如數(shù)學形態(tài)學法、小波變換法、人工神經(jīng)網(wǎng)絡法、遺傳算法、基于模糊理論的算法等。
20世紀90年代初,Mallat在圖像多分辨分析理論的基礎上,提出了小波變換局部模極大值邊緣檢測方法[58-59],在噪聲圖像中取得了較好的邊緣檢測效果。后來,人們在Mallat理論框架下,提出了多尺度邊緣檢測方法[60]。多尺度邊緣檢測方法主要思想在較大的尺度下能對邊緣精確檢測,而在較小的尺度下能對邊緣點精確定位。小波變換的突出優(yōu)點是其多分辨率,圖像的每個尺度的小波變換都提供了一定的邊緣信息。小波分析在時域和頻域都具有良好的局部化性質,可聚焦到對象的任意細節(jié),是圖像處理領域的熱點。雖然人們提出了多種的邊緣檢測方法[61-62],但邊緣檢測時抗噪性和檢測精度的矛盾仍然是要研究的重點內容之一。
基于數(shù)學形態(tài)學邊緣檢測方法[63-64]的基本思想是用具有一定形態(tài)的結構元素提取圖像中的對應形狀,以達到對圖像分析和識別的目的。采用多結構元素的數(shù)學形態(tài)學算法,既能提取細小邊緣,又能很好的抑制噪聲,結構元素選取靈活,但在靈活的同時也導致算法的適應性變差。
近年來有一些新的研究手段如神經(jīng)網(wǎng)絡、遺傳算法和小波方法等被引入到圖像分割的閾值選取中[65-69],其效果仍在探索之中。
雖然有許多圖像分割的方法,這些算法的共性問題在于分割精度與抗噪性的矛盾,同時,高實時性處理算法的研究遠遠滯后于通用圖像處理算法的研究,應用于實際生產中的一些算法在準確性、實時性和可操作性上也還存在較大的困難。至今,圖像分割算法大都是針對具體問題所提出的,雖然每年都有新的圖像分割算法提出,但是并沒有一種通用的算法能適用于所有的圖像分割處理。
2.3特征提取及其選擇算法
圖像的特征提取可理解為從高維圖像空間到低維特征空間的映射,是基于機器視覺的表面缺陷檢測的重要一環(huán),其有效性對后續(xù)缺陷目標識別精度、計算復雜度、魯棒性等均有重大影響。特征提取的基本思想是使目標在得到的子空間中具有較小的類內聚散度和較大的類間聚散度。目前常用的圖像特征主要有紋理特征、顏色特征、形狀特征等。
2.3.1紋理特征提取
紋理是表達圖像的一種重要特征,它不依賴于顏色或亮度而反映圖像的同質現(xiàn)象,反映了表面結構組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系。與顏色特征和灰度特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算,即局部性;同時,局部紋理信息也存在不同程度的重復性,即全局性。紋理特征常具有旋轉不變性,并且對于噪聲有較強的抵抗能力。
根據(jù)Tuceryan和Jain的分類,基于的紋理特征提取方法有統(tǒng)計法、信號分析法、模型法、結構法和幾何法。
1)統(tǒng)計法。統(tǒng)計方法將紋理看用隨機現(xiàn)象,從統(tǒng)計學的角度來分析隨機變量的分布,從而實現(xiàn)對圖像紋理的描述。直方圖特征是最簡單的統(tǒng)計特征,但它只反映了圖像灰度出現(xiàn)的概率,沒有反映像素的空間分布信息;灰度共生矩(GLCM)是基于像素的空間分布信息的常用統(tǒng)計方法;局部二值模式(LBP)具有旋轉不變性和多尺度性、計算簡單;此外,還有行程長度統(tǒng)計法、灰度差分統(tǒng)計法等,因計算量大、效果不突出而限制了其應用。
(1)直方圖特征。圖像的直方圖提供了圖像的許多信息和特征,常用的直方圖特征有最大值、最小值、均值、中值、值域、熵、方差和熵等。此外,直方圖對比統(tǒng)計特征,如L1范數(shù)、L2范數(shù)、Bhattacharyya距離、Matusita距離、歸一化相關系統(tǒng)等,亦常用作統(tǒng)計特征[70]。
直方圖特征方法計算簡單、具有平移和旋轉不變性、對顏色像素的精確空間分布不敏感等,所以在表面檢測、缺陷識別得到不少應用。
(2)灰度共生矩。Haralick等人[71]提出的灰度共生矩是一種廣泛應用的使用統(tǒng)計特征來描述紋理的方法。灰度共生矩陣就是從圖像灰度級為的像素出發(fā),統(tǒng)計與其距離為、灰度級為的像素同時出現(xiàn)的概率。一般取0°、45°、90°和135°這4個方向?;叶裙采仃嚪从沉藞D像灰度關于方向、相鄰間隔、變化幅度的綜合信息,所以可以作為分析圖像基元和排列結構的信息。
GLCM共有14種紋理特征,文獻[72-74]研究了GLCM統(tǒng)計量的相關性并提出了更有效的紋理特征量,但是文獻[75]認為僅有4個特征,即對比度、相關性、能量(和同質性是不相關的,所以,為減少計算量,提高特征分類精度,常取這4個特征作為GLCM特征。GLCM在圖像的紋理分析中占有重要的地位,在特征提取和缺陷檢測等方面有著廣泛的應用。
(3)局部二值模式(LBP)。局部二值模式最早由Ojala提出,它引入了紋理基元的思想,是一個簡單但非常有效的紋理運算符。LBP將各個像素與其附近的像素進行比較,并把結果保存為二進制數(shù),即它用二進制位表達局部鄰域點與中心點的關系,所有鄰域點的二進制位用來描述局部結構信息的模式。
LBP對諸如光照變化等造成的圖像灰度變化具有較強的魯棒性,所以局部二值模式算法已廣泛應用于表面缺陷檢測,同時,在指紋識別、光學字符識別、人臉識別及車牌識別等領域也有應用。由于LBP計算簡單,也可以用于實時檢測。
目前出現(xiàn)了一些改進的LBP算法。Tan等人[76]提出了局部三值模式(LTP),即通過設定閾值將鄰域與中心相似的狀態(tài)作為中間狀態(tài),從而將擴展局部鄰域關系為三種狀態(tài)。在此基礎上,Nanni等人[77]將局部關系擴展到四種狀態(tài)。也有學者將LBP由傳統(tǒng)的2維特征改進到3維特征主要用于視頻分析[78-80]。此外,有學者將LBP表達的局部信息與其他信息或算法結合構成聯(lián)合特征量,如Tan等人[81]聯(lián)合LBP特征和Gabor小波特征進行人臉的識別,Huang等人[82]將LBP和SIFT算法結合用于人臉的3維識別。賀永剛[83]提出了一種多結構的局部二值模式,該算法結合各向同性采樣和各向異性采樣對局部二值模式進行擴展,利用圖像金字塔提取紋理圖像的微結構和宏結構信息。
(4)自相關函數(shù)法。自相關函數(shù)法從圖像的自相關函數(shù)提取紋理特征,即通過對圖像的能量譜函數(shù)的計算,提取紋理的粗細度及方向性等特征參數(shù)。對于規(guī)則紋理圖像,因其自相關函數(shù)具有波峰和波谷,故可用其進行表面檢測,但自相關函數(shù)法不適用于不規(guī)則紋理圖像。
2)信號處理法。將圖像當作2維分布的信號,從而可從信號濾波器設計的角度對紋理進行分析。信號處理方法也稱濾波方法,即用某種線性變換、濾波器(組)將紋理轉到變換域,然后應用相應的能量準則提取紋理特征。基于信號處理的方法主要有傅里葉變換、Gabor濾波器、小波變換、Laws紋理、LBP紋理等。
(1)傅里葉變換方法。傅里葉變換是基于頻率的分析方法,20世紀70年代以來,有學者提出通過傅里葉濾波器來描述紋理。傅里葉變換將圖像變換到頻率域上使用頻譜能量或頻譜熵等特征來表達紋理。Rao和Lohse開展了基于人的感知的紋理研究,指出周期性、方向性以及隨機性是表征紋理的3個重要因素[84]。紋理圖像在空間分布上具有一定的周期性,其功率譜具有離散性和規(guī)律性;對于方向性紋理,方向性會在傅里葉頻譜中很好的保持;對于隨機性紋理,頻譜的響應分布并不限制到某些特定的方向。
根據(jù)相對于頻率中心位置距離的頻譜分布情況,可以大致判斷紋理圖像的相對粗糙程度。對于粗糙紋理,其紋理基元尺寸較大,圖像的低頻信號較多,功率譜的能量主要集中在離頻率中心位置較近的低頻區(qū)域;相反,對于基元尺寸較小的細致紋理,圖像含有的高頻信息較多,功率譜的能量分布較為分散,主要集中在距離頻率中心位置較遠的高頻區(qū)域。但是,傅里葉變換作為一種全局性的變化,仍有一定的局限性,如不具備局部化分析能力、不能分析非平穩(wěn)信號等。
(2)Gabor濾波方法。盡管傅里葉變換在信號頻域分析中有著重要作用,但它只能對整個時間段的信號的頻率進行分析,沒有信號的空間局部信息的刻畫能力,如當需要對局部的圖像紋理細節(jié)進行分析時,傅里葉變換無能為力。為克服傅里葉變換不能局部化分析的缺點,短時窗口傅里葉變換(STFT)被提出,它通過在變換時增加一個窗函數(shù)來實現(xiàn),當窗函數(shù)是Gaussian函數(shù)時,即得到Gabor變換。
Gabor濾波方法模擬了人類視覺感覺特性,具有很好的頻率選擇性和方位選擇性。使用Gabor濾波器提取紋理特征的主要過程是:先設計濾波器,再從其輸出結果中提取特征。濾波器設計包括單個濾波器參數(shù)的設計和濾波器組的布局。濾波器的輸出結果可作為紋理特征,但維數(shù)較高,為此,常采用斯平滑處理、Gabor能量特征、復矩特征、獨立成分分析等后處理方法以降低特征集的數(shù)據(jù)量[85]。對于2維數(shù)字圖像,研究者們提出了2維Gabor函數(shù)形成的2維Gabor濾波器。
自從Clark等人[86]首次將Gabor濾波方法用于紋理分析以來,很多研究人員開始用Gabor濾波器進行紋理特征提取,進行表面缺陷的檢測[87-91]。國內叢家慧等人[92]利用Gabor濾波器具有頻率選擇和方向選擇的特性,有效提取了帶鋼表面缺陷的紋理特征,為確定最佳濾波器參數(shù),引入的評價函數(shù)使缺陷圖像和無缺陷圖像能量響應差別最大化。張學武等人[93]使用Gaussian金字塔分解和Gabor濾波器提取缺陷圖像特征,合成特征顯著圖基于視覺仿生機理進行銅帶表面缺陷檢測,實現(xiàn)缺陷的正確分類。
因窗函數(shù)決定空域的局部性,且Gaussian函數(shù)經(jīng)傅里葉變換后仍為Gaussian函數(shù),故Gabor變換在頻域上也是局部的。Gabor濾波器在紋理描述方面有著良好的效果,但存在計算量大的問題[94]。
(3)小波變換方法。傅里葉變換沒有局部分析能力,STFT雖然在一定程度上改善了這種局限性,但采用的的滑動窗函數(shù)一經(jīng)選定就固定不變,故決定了其時頻分辨率固定不變,不具備自適應能力,而小波分析很好的解決了這個問題。小波變換(WT)是法國地質物理學家Morlet于1984年提出的,通過伸縮和平移等運算功能對函數(shù)或信號進行多尺度細化分析,達到高頻處時間細分,低頻處頻率細分,能自動適應時頻信號分析的要求,從而可聚焦到信號的任意細節(jié)。
圖像紋理往往表現(xiàn)為多尺度特征,對圖像進行小波分解后,得到不同分辨率的一系列圖像;不同分辨率的圖像由代表不同方向信息的一系列高頻子帶圖像構成,高頻子帶圖像反映了圖像的紋理特征。
傳統(tǒng)的金字塔小波變換僅對低頻部分進行了分解,而紋理圖像的高頻部分可能也含有重要的特征信息,小波包分解或是樹結構小波分解則可克服這一缺點。小波變換方法提取圖像特征以進行表面缺陷檢測已有大量的應用[95-98]。
(4)Laws紋理。Laws模板的紋理描述方法通過使用簡單模板處理紋理圖像,從而對紋理圖像的特征進行描述。它使用一組小的模板對紋理圖像卷積,對卷積后的圖像的每一個像素的鄰域進行統(tǒng)計計算,將統(tǒng)計量作為對應像素的紋理特征。
3)結構法。結構法是建立在紋理基元理論基礎上的,認為復雜的紋理是由一些在空間中重復出現(xiàn)的最小模式即紋理基元執(zhí)照一定的規(guī)律排列組成。結構方法主要有兩個重要問題:一是紋理基元的確定;二是紋理基元排列規(guī)律的提取。最簡單的紋理基元是單個的像素,也可以是圖像的灰度均質區(qū)域,此外,Vilnrotter等人[99]采用邊緣重復數(shù)組來提取基元,Hsu等人[100]利用自相關函數(shù)和小波變換系數(shù)提取基元,等等。確定基元后需要提取基元的特征參數(shù)和紋理結構參數(shù)作為描述圖像紋理的特征?;奶卣鲄?shù)有面積、周長、離心率、矩量等,結構參數(shù)則由基元之間的排列規(guī)律確定;基元的排列規(guī)則是基元的中心坐標及基元之間的空間拓撲關系,可從基元之間的模型幾何中得到,也可以通過基元之間的相位、距離等統(tǒng)計特征中得到,較復雜的情況可以用句法分析、數(shù)學形態(tài)學等方法。
采用結構方法提取圖像紋理特征以進行表面缺陷檢測的研究并不少見,Wen等人[101]利用結構法提取圖像的邊緣特征進行了皮革表面缺陷檢測,Goswami等人[102]基于激光檢測和形態(tài)學對織物疵點進行了檢測,或采用數(shù)學形態(tài)學操作對鋼板表面缺陷進行了檢測[103]。但是,結構法只適合于紋理基元較大且排列規(guī)則的圖像;對于一般的自然紋理,因其隨機性較強、結構變化大,難以用該方法來準確描述,此時一般要與其他方法聯(lián)合使用。
4)模型法。模型法以圖像的構造模型為基礎,采用模型參數(shù)的統(tǒng)計量作為紋理特征,不同的紋理在某種假設下表現(xiàn)為模型參數(shù)取值的不同,如何采用優(yōu)化參數(shù)估計的方法進行參數(shù)估計是模型法研究的主要內容。典型的模型法有馬爾可夫隨機場(MRF)模型、分形模型和自回歸模型等。
(1)MRF模型。隨機場模型法試圖以概率模型來描述紋理的隨機過程,實質上是描述圖像像素對其鄰域像素的統(tǒng)計依賴關系,常見的隨機場模型有Markov模型、Gibbs模型等。
MRF模型將紋理圖像看用是一個隨機2維圖像場,并且假設像素的灰度級僅與鄰域內像素的灰度級有關,使用局部鄰域的條件分布描述作為對應隨機場的局部特征。MRF模型的優(yōu)點是能將局部特性與全局特性聯(lián)系起來,且有較好的抗噪性能。但基于Markov隨機場模型僅通過局部特征很難得到全局的聯(lián)合分布,Cohen[104]將Markov與高斯分布聯(lián)系起來,提出了使用高斯—馬爾可夫模型(GMRF,在檢驗過程中,被視為假設檢驗的問題源自高斯—馬爾可夫模型。
(2)分形模型。分形的概念是美籍數(shù)學家Mandelbrot首先提出的。很多自然圖像(如海岸線)其特征是極不規(guī)則、極不光滑的,但所有海岸線在形貌上卻是自相似的,即局部形態(tài)和整體形態(tài)的相似。具有自相似性的形態(tài)廣泛存在于自然界中,Mandelbrot把這些部分與整體以某種方式相似的形體稱為分形。1975年,Mandelbrot創(chuàng)立了分形幾何學。在此基礎上,形成了研究分形性質及其應用的科學,稱為分形理論。
Pentland[105]首次用分形有來描述紋理,認為自然界中的分形與圖像的灰度表示之間存在著一定的對應關系,指出分形維數(shù)是描述紋理的一個重要特征。分形模型中如何確定分數(shù)維是描述紋理的重要問題,常用的算法有Keller的盒維數(shù)、Sarkar等人提出的差分計盒法等。分形模型主要適用于具有自相似性的自然紋理。
徐科等人[106]將分形維數(shù)作為特征量,利用Peleg毯覆蓋法計算圖像在不同尺度下的分形維數(shù),通過尺度—分形維數(shù)曲線圖估計最優(yōu)尺度,用于對熱軋帶鋼表面缺陷的自動識別,取得了良好的效果。李慶中等人[107]基于分形特征進行水果缺陷快速識別研究,通過該方法提取的紋理特征不受光照強度變化的影響,且具有平移、旋轉和縮放不變性。
5)紋理特征提取算法比較。上述紋理特征提取方法各有其優(yōu)缺點,總的看來,可以從以下幾個角度來估計其優(yōu)勢和不足:計算的復雜度,是否利用了全局信息,是否具有多分辨特征及是否與人類視覺感受一致。
統(tǒng)計法方法簡單、易于實現(xiàn),特別是GLCM方法具有較強的適應性和魯棒性;但缺少圖像的全局信息,紋理尺度間像素的依賴關系難于發(fā)現(xiàn),沒有聯(lián)系人類的視覺模型。模型方法既考慮了紋理局部的隨機性,又考慮了紋理整體的規(guī)律性,靈活性較大,而且也研究了紋理的多分辨性;但模型的參數(shù)估計有一定的難度,而且計算量較大。信號方法能對紋理進行多分辨描述,能將空域和頻域相結合對紋理進行研究,也符合人類的視覺持征;但正交小波變換對高頻部分沒有進一步分解,而小波包對非規(guī)則紋理圖像的處理效果不佳,且計算量大。結構法只適合于紋理基元較大且排列規(guī)則的圖像;對于一般的自然紋理,因其隨機性較強、結構變化大,難以用該方法來準確描述。上述方法各有利弊,研究人員正試圖將不同的方法結合對紋理特征進行比較研究和融合提取。
2.3.2形狀特征提取
形狀特征人類視覺進行物體識別時所需要的關鍵信息之一,它不隨周圍的環(huán)境如亮度等因素的變化而變化,是一種穩(wěn)定信息;相對于紋理和顏色等底層特征而言,形狀特征屬于圖像的中間層特征。在2維圖像中,形狀通常被認為是一條封閉的輪廓曲線所包圍的區(qū)域。
對形狀特征的描述主要可以分為基于輪廓形狀與基于區(qū)域形狀兩類,區(qū)分方法在于形狀特征僅從輪廓中提取還是從整個形狀區(qū)域中提取。
1)基于區(qū)域的形狀特征?;趨^(qū)域的形狀特征是利用區(qū)域內的所有像素集合起來獲得用以描述目標輪廓所包圍的區(qū)域性質的參數(shù)。這些參數(shù)既可以是幾何參數(shù),也可以是密度參數(shù),還可以是區(qū)域2維變換系數(shù)或傅里葉變換的能量譜。基于區(qū)域的形狀特征主要有幾何特征、拓撲結構特征、矩特征等。
幾何特征包括區(qū)域簡單特征描述,如面積、周長、質心、分散度、矩形度、長寬比、方向等;還包括基于形狀相似性的特征,如區(qū)域的矩形度、圓形度、球形度、偏心率、面積周長比、細度,還有基于直方圖、基于飽和度、基于形態(tài)曲率和多邊形描述的形狀特征等。
拓撲結構特征不受圖像幾何畸變的影響,是一種不依賴于距離變化的全局特征。常用的拓撲結構特征是歐拉數(shù),即圖像目標區(qū)域連通組元的個數(shù)與目標區(qū)域的孔數(shù)之差,它表明圖像的連通性。
矩特征利用目標所占區(qū)域的矩作為形狀描述參數(shù),其計算要用到目標區(qū)域中所有相關的像素點,因此從全局描述了對象的整體特性。特征矩也可理解為將圖像目標函數(shù)投影到一組基函數(shù)上,根據(jù)基函數(shù)的特征,可將矩分為非正交矩和正交矩。非正交矩主要有幾何矩、復數(shù)矩、旋轉矩等。歸一化的中心矩對目標圖像平移、尺度變換具有不變性。Hu基于上述矩組合而成了7個經(jīng)典不變量,被稱為Hu不變矩[108],具有平移、旋轉和比例不變性。正交矩又分為連續(xù)正交矩和離散正交矩。連續(xù)正交矩主要有Zernike矩、偽Zernike矩、Legendre矩、正交Fourier-Mellin矩,離散正交矩主要有Chebyshev矩、Krawtchouk矩[109]。
2)基于輪廓的形狀特征?;谳喞男螤蠲枋龇菍Π鼑繕藚^(qū)域的輪廓的描述,主要有邊界特征法(邊界形狀數(shù)、邊界矩等)、簡單幾何特征(如周長、半徑、曲率、邊緣夾角)、基于變換域(如傅里葉描述符、小波描述符)、曲率尺度空間(CSS)、數(shù)學形態(tài)學、霍夫變換、小波描述符等方法。
基于輪廓的特征有如下優(yōu)點:輪廓更能反映人類區(qū)分事物的形狀差異,且輪廓特征所包含的信息較多,能減少計算的復雜度;但是,輪廓特征對于噪聲和形變比較敏感,有些形狀應用中無法提取輪廓信息。
2.3.3顏色特征提取
顏色特征是人類感知和區(qū)分不同物體的一種基本視覺特征,是一種全局特征,描述了圖像或圖像區(qū)域所對應的景物的表面性質。顏色特征對于圖像的旋轉、平移、尺度變化都不敏感,表現(xiàn)出較強的魯棒性。顏色模型主要有HSV、RGB、HSI、CHL、LAB、CMY等。常用的特征提取與匹配方法如下:
1)顏色直方圖。顏色直方圖(colorhistogram)是最常用的表達顏色特征的方法,它能簡單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,特別適用于描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像,且計算簡單,對圖像中的對象的平移和旋轉變化不敏感;但它無法描述圖像中顏色的局部分布及每種色彩所處的空間位置。
當顏色特征并不能取遍所有取值時,在統(tǒng)計顏色直方圖時會出現(xiàn)一些零值,這些零值對計算直方圖的相交帶來很大影響,使得計算的結果不能正確反映兩幅圖像之間的顏色差別。為解決上述問題,可利用累積直方圖法。
2)顏色集。顏色直方圖法是一種全局顏色特征提取與匹配方法,無法區(qū)分局部顏色信息。顏色集是對顏色直方圖的一種近似,首先將圖像從RGB顏色空間轉化成視覺均衡的顏色空間(如HSV空間),并將顏色空間量化成若干個柄(bin)。然后,用色彩自動分割技術將圖像分為若干區(qū)域,每個區(qū)域用量化顏色空間的某個顏色分量來索引,從而將圖像表達為一個二進制的顏色索引集。在圖像匹配中,比較不同圖像顏色集之間的距離和色彩區(qū)域的空間關系。因為顏色集表達為二進制的特征向量,可經(jīng)構造二分查找樹來加快檢索速度,這對于大規(guī)模的圖像集合十分有利。
3)顏色矩。顏色矩(colormoments)是另一種簡單而有效的顏色特征提取與匹配方法。該方法的數(shù)學基礎在于:圖像中任何的顏色分布均可以用它的矩來表示。由于顏色分布信息主要集中在低階顏色矩中,因此僅采用顏色的一階中心矩、二階中心矩和三階中心矩就可以表達圖像的顏色特征,它們分別表示圖像的平均顏色、標準方差和三次根非對稱性。該方法的另一個優(yōu)點是它無需對顏色特征進行向量化。但因為沒有考慮像素的空間位置,該方法仍存在精確度和準確度不足的缺點。
4)顏色聚合向量。其核心思想是:將屬于直方圖每一個柄的像素分成兩部分,如果該柄內的某些像素所占據(jù)的連續(xù)區(qū)域的面積大于給定的閾值,則該區(qū)域內的像素作為聚合像素,否則作為非聚合像素。
在目前圖像處理的硬件條件下,直接對彩色圖像的處理與分析是復雜而又耗時的,因此對彩色圖像的處理通常都是先轉化為灰度圖像,然后再按照灰度圖像處理方法進行處理。
2.3.4特征的選擇
圖像的特征提取及其選擇的目的是為了提高后續(xù)圖像識別的準確性和魯棒性。圖像的特征提取實現(xiàn)了從圖像空間到特征空間的轉換,但是并非所有的特征都對后續(xù)的圖像識別和分類有作用。如果特征提取的數(shù)量多,使得特征向量有較高的維數(shù),這些高維特征中很可能存在冗余信息,從而導致圖像處理結果的精確度下降;圖像特征維度過高,還會使圖像處理算法的復雜度高導致“維度災難”。因此,對于高維圖像特征,為了降低所提取圖像特征維數(shù)之間的相關性,需要消除圖像特征之間的依賴性,即降維處理,也就是從圖像原始特征中找出真正有用的特征,以降低圖像處理算法的復雜度,并提高處理速度和結果的精確度,這個處理過程就是特征的選擇。
很多特征選擇問題被認為是NP問題,因此,人們一般只能尋找特定問題的評價標準來保證所選擇的特征是最優(yōu)的,這也就造成了目前特征選擇方法眾多。目前,特征選擇的方法包括:主成分分析法(PCA)、獨立成分分析法(ICA)、Fisher分析法(FDA)、相關分析法(CFS)、自組織映射法(SOM)、Relief法、遺傳算法、模擬退火法、Tabu搜索法及基于流行的非線性降維方法等。
PCA由Pearson首先引入,后來由Hotelling進行了發(fā)展。PCA是一種數(shù)學降維方法,其基本原理通過研究指標參數(shù)之間的相關性,尋求幾個綜合指標來代替原來眾多的指標,使這些綜合指標彼此之間互不相關且能盡可能地代表原來的信息量,并具有最大的方差;通過壓縮變量個數(shù),用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息,即將許多相關性很高的變量轉化成個數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨立的幾個新變量,即所謂的主成分。
PCA設法將原來眾多具有一定相關性個指標,重新組合成一組新的互相無關的綜合指標來代替原來的指標。將選取的第一個線性組合即第一個綜合變量方差最大、信息最多,稱為第一主成分;如果第一主成分不足以代表原來個變量的信息,再選取第二個線性組合即第二主成分,依此類推。
PCA是一種線性組合方法,它能在盡可能好的代表原始數(shù)據(jù)的前提下,能過線性變換將高維空間的樣本數(shù)據(jù)投影到低維空間,因其計算簡單且便于分析而應用廣泛。
如果基于最小MSE來降低特征向量的維數(shù),則PCA的結果是最優(yōu)的,但因PCA所獲得的特征向量的各分量之間是不相關的,故PCA無法滿足特征向量的各分量之間是統(tǒng)計獨立的。獨立成分分析(ICA),最早應用于盲源信號分離(BBS)。ICA方法最早是由法國的Herault和Jutten于80年代中期提出來的,ICA理論的基本思想是從一組混合的觀測信號中分離出獨立信號,或者盡可能獨立的信號對其他信號進行表征。
ICA的主要任務是給定一個維特征向量,確定一個×的變換矩陣(分離矩陣),使得變換后的向量的各分量滿足互相統(tǒng)計獨立的特性。ICA方法的關鍵是如何快速求取最優(yōu)的分離矩陣,根據(jù)求取分離矩陣的方法,ICA算法有Infomax算法、峰度估計法、快速ICA算法等。
PCA和ICA所形成的新特征各分量之間是互不相關或是統(tǒng)計獨立的,從理論上等價于使得二階或高階交叉累積量最小。如果根據(jù)二階或高階交叉累積量構造一個準則函數(shù),則特征優(yōu)化問題可理解為基于準則函數(shù)進行特征的優(yōu)化,即通過最小化的準則函數(shù),在概率意義上計算出問題的全局最優(yōu)解,基于組合優(yōu)化的特征選擇就是基于上述原理的,常用的組合優(yōu)化算法有遺傳算法、模擬退火算法和Tabu搜索算法等。
遺傳算法(GA)是由美國Michigan大學的Holland教授根據(jù)Darwin的生物進化論和Mendel的遺傳變異理論提出的一種基于種群搜索的優(yōu)化算法。其思想是隨機產生初始種群,通過選擇(reproduction)、交叉(crossover)和變異(mutation)等遺傳算子的共同作用使種群不斷進化,最終得到最優(yōu)解。
基于遺傳算法的缺陷特征優(yōu)化的基本思想是:先對待尋優(yōu)的缺陷特征參數(shù)進行編碼,按一定規(guī)模初始化種群,種群中的每一個體就代表了一個可能的解;然后根據(jù)適應度值函數(shù)計算每一個體的適應度值并依此決定遺傳操作,再按一定的概率對種群進行交叉、變異,直至滿足終止條件結束。
模擬退火算法是一種求解在規(guī)模組合優(yōu)化問題的隨機性方法,它以優(yōu)化問題的求解與物理系統(tǒng)退火過程的相似性為基礎,利用metropolis算法并適當控制溫度的下降過程實現(xiàn)模擬退火,從而得到全局最優(yōu)解。文獻[110]提出了一種基于自適應模擬退火算法的特征選擇方法,該方法將模擬退火算法嵌入到自適應遺傳算法的循環(huán)體中,避免陷入局部最優(yōu)解。
Tabu搜索法最早由美國Glover教授提出,它是對局部領域搜索的一種擴展,是一種全局逐步尋優(yōu)算法。Tabu搜索法從一個初始可行解出發(fā),選擇一系列的特定搜索方向作為試探,選擇實現(xiàn)讓特定的目標函數(shù)值變化最多的搜索。為了避免陷入局部最優(yōu)解,采用了一種靈活的“記憶”技術,對已經(jīng)進行的優(yōu)化過程進行記錄和選擇,指導下一步的搜索方向。為了能夠逃出局部極值和避免循環(huán),算法中設置了禁止表,當搜索的解在禁止表中時,則放棄該解。Tabu搜索法可以靈活地使用禁止表記錄搜索過程,從而使搜索既能找到局部最優(yōu)解,同時又能越過局部極值得到更優(yōu)的解。
PCA和ICA等線性降維方法簡潔直觀、數(shù)學推導嚴謹,可較好的發(fā)現(xiàn)高維向量空間的線性子空間上的數(shù)據(jù)集的內部幾何結構,具有廣泛的應用。但線性降維方法難以解決高維空間的非線性流形學習問題。為此,基于流行學習的非線性降維方法也受到了科研者們的廣泛關注,主要有局部線性嵌入(LLE)方法、局部保持映射法(LPP)、Isomap方法等。這些算法首先根據(jù)給定的樣本數(shù)據(jù)集,定義一個描述成數(shù)據(jù)點相似度的關系矩陣,然后計算這個矩陣的特征值和特征向量,選擇合適的特征向量投影到低維空間,從而得到低維嵌入向量。因所構建的關系矩陣不同,故有不同的算法。
2.4表面缺陷目標識別算法
統(tǒng)計模式識別(statisticalpatternrecognition)和句法(結構)模式識別(syntacticpatternrecognition)是兩種基本的模式識別方法。前者是模式的統(tǒng)計分類方法,即結合統(tǒng)計概率的貝葉斯決策系統(tǒng)進行模型識別的技術,又稱為決策理論識別方法;后者的基本思想是把一個模式描述為較簡單的子模式的組合,子模式又可進一步描述為更簡單的子模式的組合,最終得到一個樹狀結構描述,利用模式與子模式分層結構的樹狀信息完成模式識別任務。數(shù)字圖像的識別問題通常適用于統(tǒng)計模式識別,而句法模式識別主要用于遙感圖像識別、文字識別等,目前,基于機器視覺的表面缺陷識別主要涉及統(tǒng)計模式識別。
統(tǒng)計模式識別按其實現(xiàn)方式又分為有監(jiān)督學習的模式識別和無監(jiān)督學習的模式識別。前者是在已知類別標簽的特征集(即訓練集)基礎上進行分類器構建;后者也稱為聚類,該方法不需要已知類別的訓練集,分類器直接根據(jù)特征向量之間的相似性,將待分類的特征向量集合分為若干個子集。
2.4.1有監(jiān)督學習的模式識別
監(jiān)督模式識別主要有基于概率統(tǒng)計的分類器、線性分類器、人工神經(jīng)網(wǎng)絡分類器和支持向量機等。
1)基于概率統(tǒng)計的分類器?;诟怕式y(tǒng)計的分類方法主要有基于最小錯誤率的貝葉斯決策、基于最小風險的貝葉斯決策。使用貝葉斯決策首先需要得到有關樣品的總體分布知識,包括各類先驗概率及類條件概率密度函數(shù),計算出樣品的后驗概率,并以此作為判別函數(shù)的必要數(shù)據(jù),設計出相應的判別函數(shù)及決策面。貝葉斯分類器可給出數(shù)學上的嚴格證明,在給出某些變量的條件下使分類的平均損失最小或是分類決策風險最小。盡管貝葉斯決策規(guī)則從理論上解決了最優(yōu)分類器的設計問題,但其實施時樣本特征空間的類條件概率密度形式一般很難確定,而利用Parzen窗等非參數(shù)方法估計分布又往往需要大量的樣本,所以貝葉斯決策規(guī)則更多是具有理論上的指導意義,一般適用于有統(tǒng)計知識的場合,或是能利用訓練樣品估計出參數(shù)的場合。
張宏杰等人[111]基于貝葉斯圖像模式識別技術的點焊質量評估,利用主成分分析消除圖像特征間的互相關性,建立了基于最小風險貝葉斯圖像識別技術的焊點質量分類器,有效地評判焊點質量;蘇芳等人[112]通過貝葉斯理論進行多通道SAR圖像測量級數(shù)據(jù)融合,充分利用像素的從屬信息并獲得單通道分類無法獲取的分類結果,有效保留各通道有用信息并抑制圖像中的斑點噪聲。
2)線性分類器。在實際應用中,往往不去求類條件概率密度,而是利用樣本集直接設計分類器,即給定某個判別函數(shù),利用樣本集確定判別函數(shù)中的未知參數(shù),即判別函數(shù)分類法。判別函數(shù)分類方法按其判別函數(shù)的形式可分為線性分類法和非線性分類法。前者主要有Fisher分類算法、感知算法LMSE分類算法等;后者主要有分段線性判別函數(shù)法(如近鄰分類法、最小距離法)、基于核的Fisher分類算法、勢函數(shù)法和支持向量機方法等。線性分類器算法簡單,在計算機上實現(xiàn)容易,在模式識別中得到了廣泛應用;對于模式識別的非線性問題,則用非線性分類器。
K最近鄰(KNN)分類算法是最簡單的機器學習算法之一,其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。Lopez等人[113]使用KNN分類方法提取各通道的顏色特征進行瓷磚表面質量的分類;Mandriota等人[114]采用KNN算法結合和小波系數(shù)對軌道表面質量進行檢測;Wiltschi等人[115]則基本最小距離分類方法對鋼板圖像進行表面質量檢測;Pernkopf等人[116]采用耦合隱馬爾可夫隨機場合進行似然計算,結合貝葉斯網(wǎng)絡分類器進行了鋼坯表面缺陷檢測。
3)人工神經(jīng)網(wǎng)絡。人工神經(jīng)網(wǎng)絡(ANN)是一種應用類似于大腦神經(jīng)突觸聯(lián)接的結構進行信息處理的數(shù)學模型,是在現(xiàn)代神經(jīng)科學研究成果的基礎上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡處理、記憶信息的方式進行信息處理。
ANN是由大量處理單元互聯(lián)組成的非線性、自適應信息處理系統(tǒng)。1943年,心理學家McCulloch和數(shù)理邏輯學家Pitts建立了神經(jīng)網(wǎng)絡和數(shù)學模型,稱為MP模型。60年代,人工神經(jīng)網(wǎng)絡得到了進一步發(fā)展,更完善的神經(jīng)網(wǎng)絡模型被提出,其中包括感知器和自適應線性元件等。20世紀80年代,美國加州工學院物理學家Hopfield提出了Hopfield神經(jīng)網(wǎng)絡模型,為神經(jīng)計算機的研究做了開拓性的工作。不久,Rumelhart,Hinton,Williams發(fā)展了BP算法,迄今,BP算法已被用于解決大量實際問題。繼而,Broomhead和Lowe用徑向基函數(shù)(RBF)提出分層網(wǎng)絡的設計方法。20世紀90年代初,Vapnik等提出了支持向量機(SVM)和VC(Vapnik-Chervonenkis)維數(shù)的概念。目前,已有近40種神經(jīng)網(wǎng)絡模型。
人工神經(jīng)網(wǎng)絡具有非線性、自適應、自組織、自學習能力、非局限性、非凸性和容錯性等一系列特點,故在信息處理、模式識別和智能控制等領域有著廣泛的應用前景。與其他技術的結合取長補短,以及由此而來的混合方法和混合系統(tǒng),已成為一大研究熱點。目前這方面工作有神經(jīng)網(wǎng)絡與模糊邏輯、專家系統(tǒng)、遺傳算法、小波分析、混沌、粗糙集理論、分形理論、證據(jù)理論和灰色系統(tǒng)等的融合,并取得了一定的成果。
4)支持向量機。人工神經(jīng)網(wǎng)絡方法具有一系列的優(yōu)點,但有時也存在泛化能力不強、算法耗時較多、往往需要有較多訓練樣本等問題。支持向量機(SVM)是Vapnik根據(jù)統(tǒng)計學習理論于1995年提出的,它采用結構風險最小化(SRM)而非經(jīng)驗風險最小化(ERM)原理,通過將樣本點所在的輸入空間映射到高維的特征空間,以達到線性可分或者線性近似可分的目的。
所謂支持向量是指那些在間隔區(qū)邊緣的訓練樣本點,支持向量機與神經(jīng)網(wǎng)絡類似,都是學習型的機制,但與神經(jīng)網(wǎng)絡不同的是SVM使用的是數(shù)學方法和優(yōu)化技術,而且在傳統(tǒng)的最優(yōu)化問題中提出了對偶理論,主要有最大最小對偶及拉格朗日對偶。
支持向量機是一種有堅實理論基礎的小樣本學習方法,其最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復雜性取決于支持向量的數(shù)目而不是樣本空間的維數(shù)。SVM的關鍵在于核函數(shù),低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間,只要選用適當?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),這在某種意義上避免了“維數(shù)災難”;而且少數(shù)支持向量決定了最終結果,這樣可以剔除大量冗余樣本,所以算法簡單而且具有較好的魯棒性。支持向量機理論在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,在表面檢測、模式識別、故障診斷等方面有成功的應用,并表現(xiàn)出很高的有效性和魯棒性。
2.4.2無監(jiān)督學習的模式識別
無監(jiān)督學習的模式識別的訓練樣本沒有類別標簽,主要以聚類分組來揭示模式結構,也稱聚類。聚類是一個將數(shù)據(jù)集劃分為若干組或簇的過程,使得同一類的數(shù)據(jù)對象之間的相似度較高,而不同類的數(shù)據(jù)對象之間的相似度較低。
目前出現(xiàn)了大量的聚類算法,其選擇取決于數(shù)據(jù)的類型、聚類的目的。主要的聚類算法可以劃分為如下幾類:劃分方法、層次方法、密度方法、網(wǎng)格方法以及模型方法。
1)劃分方法。劃分法(partitioningmethods)是聚類分析中最為常見的一種方法,其目的是將給定的數(shù)據(jù)對象集通過劃分操作分成若干分組,每一個分組表示一個聚類。劃分時需要預先指定聚類數(shù)目或聚類中心,通過反復迭代運算,逐步降低目標函數(shù)的誤差值,當目標函數(shù)值收斂時,得到最終聚類結果。常用的劃分法有:K-means、K-medoids、CLARA、CLARANS、K-prototypes等。
K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。將K-means方法與其他技術結合可以提高K-means方法的聚類能力,文獻[117]結合遺傳算法一定程度上解決了全局最優(yōu)或近似最優(yōu)解的問題;文獻[118]將免疫算法與K-means聚類相結合,提出了基于免疫規(guī)劃的K-means聚類分析方法;文獻[119]利用用窗口技術提高了K-means方法的聚類分析能力;文獻[120]在聚類分類數(shù)據(jù)中應用禁忌搜索技術;此外,文獻[121]提出了一種模糊K-prototypes算法,該算法融合了K-means和K-modes對數(shù)值型和分類型數(shù)據(jù)的處理方法,能夠處理混合類型的數(shù)據(jù);文獻[122]中將模糊數(shù)學理論與K-means算法融合,對K-means算法進行了有效改進。
2)層次方法。層次法(HierarchicalMethods)也稱為樹聚類算法,層次聚類是將數(shù)據(jù)對象集分解成幾級逐級進行聚類,遞歸地對給定的數(shù)據(jù)對象集進行合并或分解,直到滿足限制條件為止,其聚類結果最終以類別樹的形式顯示。層次方法根據(jù)分解方式的不同可以分為凝聚式(agglomerative)和分裂式(division)。層次算法不需要預先指定聚類的數(shù)目,但是在凝聚或分裂的層次聚類算法中,用戶可以預先定義希望得到的聚類數(shù)目作為算法的結束條件,當該條件達到滿足時,算法將終止。其代表算法有:BIRCH、CURE、CHAMELEON、ROCK、SBAC和BUBBLE等。
層次聚類的優(yōu)點體現(xiàn)在算法能得到不同粒度的多層次聚類結構,缺陷在于沒有全局優(yōu)化的目標函數(shù),合并或分裂點的選擇比較困難,對噪聲、孤立點數(shù)據(jù)比較敏感,不適于非凸型分布的數(shù)據(jù)對象集等。為此,研究者們給出了一些改進算法,如將層次聚類和其他的聚類分析技術進行集成,形成多階段聚類等。
3)密度方法。密度方法(density-basedmethods)的指導思想是,只要一個區(qū)域中的點的密度大于某個閾值,就把它加到與之相近的聚類中去,即通過數(shù)據(jù)密度(單位區(qū)域內的實例數(shù))來發(fā)現(xiàn)任意形狀的類簇。該方法與其他方法的一個根本區(qū)別是:它不是基于距離的,而是基于密度的,這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。其代表算法有:DBSCAN、OPTICS、DENCLUE、GDBSCAN、FDC算法等。
基于密度的聚類算法的優(yōu)點是一遍掃描,并可以很好的過濾噪聲和孤立點數(shù)據(jù),發(fā)現(xiàn)任意形狀、不定個數(shù)的類;其缺點是算法復雜度較高,對于密度分布不均的數(shù)據(jù)集聚類效果不佳。
4)網(wǎng)格方法?;诰W(wǎng)格的方法采用一個網(wǎng)格數(shù)據(jù)結構,該結構具有多分辨率,通過這個數(shù)據(jù)結構可以將對數(shù)據(jù)對象的處理轉化為對網(wǎng)格空間的處理。這種方法首先將數(shù)據(jù)空間劃分成為有限個單元的網(wǎng)格結構,然后通過算法對網(wǎng)格空間進行分割進而實現(xiàn)聚類的目的。此聚類算法常常與其他方法相結合,特別是與基于密度的聚類方法相結合。其代表算法有:在高維數(shù)據(jù)空間中基于網(wǎng)格和密度相結合的聚類方法(CLIQUE算法),基于小波變換的聚類方法(Wave-Cluster算法),利用存儲在網(wǎng)格中的統(tǒng)計信息的STING算法。
基于網(wǎng)格的方法的主要優(yōu)點是執(zhí)行速度快,它的時間復雜度僅依賴于量化空間中每一維上的單元數(shù)目;但該算法因網(wǎng)格單元的數(shù)目隨著維數(shù)的增加而呈指數(shù)的增長故不適于高維數(shù)據(jù),而且高效率以聚類結果的精確性為代價。
5)圖論算法。圖論分裂聚類算法的主要思想是:構造一棵關于數(shù)據(jù)的最小生成樹,通過刪除最小生成樹的最長邊來形成類.基于圖論的聚類算法主要包括RANDOMWALK、CHAMELEON、AUTOCLUST等。
6)模型算法。基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其他。該方法基于目標數(shù)據(jù)集由一系列的概率分布所決定這一假設,通過構造反映數(shù)據(jù)對象空間分布的密度函數(shù)來進行聚類。該算法通常分為兩種:基于統(tǒng)計學的方法和基于神經(jīng)網(wǎng)絡的方法。前者主要有以分類樹的形式創(chuàng)建層次聚類的COBWEB算法及其擴展COBWEB算法;后者主要有競爭學習型和自組織特征映射型(SOM)等[123]。
以上傳統(tǒng)的聚類方法都具有各自的優(yōu)點,在各自的適用領域取得了較大的成功。但是,這些聚類方法也存在以下問題:在進行聚類之前都需要事先確定要得到的聚類的數(shù)目,然而在現(xiàn)實數(shù)據(jù)中,聚類的數(shù)目往往是未知的;處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)的能力、計算效率、有效的消除噪聲的影響等方面都有待于提高;此外,有的聚類算法對輸入?yún)?shù)的取值十分敏感,而且參數(shù)的取值沒有成熟的理論依據(jù),只能依靠用戶的經(jīng)驗來確定。除上述聚類方法外,學者們還研究了其他大量的聚類方法,下面列出了幾類:
1)模糊聚類方法。1969年,Ruspini首次提出了模糊聚類算法(FCM)。FCM是一種以隸屬度來確定每個數(shù)據(jù)點屬于某個聚類程度的算法,能保留初始圖像的更多信息。然而,F(xiàn)CM沒有考慮圖像上下文中的空間信息,對噪聲較敏感。學者們圍繞FCM算法開展了大量研究,比如,李潔等人[124]采用ReliefF算法[125]確定各維特征的權重,提出了基于特征加權的模糊聚類新算法NFWFCA;Cai等人[126]結合局部空間和灰度信息,提出快速通用FCM聚類算法FGFCM,該算法計算簡單,適合大幅灰度圖像和有噪聲和無噪聲的多種類型圖像;唐利明等人[127]結合變分水平集方法和模糊聚類,提出了一個基于變分水平集的圖像聚類分割模型,該模型引入了一個基于圖像局部信息的外部模糊聚類能量和一個新的關于零水平集的正則化能量,使得該模型對噪聲圖像的聚類分割更具魯棒性;王雪等人[128]提出一種多相水平集模型協(xié)同空間模糊C-均值聚類(SFCM)的圖像多目標分割算法,即SFCM-MLS算法,用空間模糊聚類獲取圖像多目標粗分割結果,然后用粗分割結果定義多相水平集模型的初始水平集函數(shù)對圖像做精分割,SFCM-MLS算法對初始位置不敏感,提高了圖像多目標分割的準確性。
2)迭代自組織數(shù)據(jù)分析算法。迭代自組織數(shù)據(jù)分析算法(ISODATA)的主要思想是首先根據(jù)最小距離準則獲得初始聚類,再判斷初始聚類結果是否符合要求。若不符合,則將聚類集進行分裂和合并處理,得到新的聚類中心,再判斷聚類結果是否符合要求。如此反復迭代直到完成聚類操作。ISODATA與K-MEANS一樣,聚類中心的位置通過樣本均值的迭代運算決定,但ISODATA聚類中心數(shù)目不是固定的,而且反復修正,在迭代過程中可將一類一分為二,也可以兩類合并,即“自組織”。ISODATA具有啟發(fā)性、計算并不復雜,適用于識別致密聚類。時靜潔等人[129]將ISODATA與蟻群算法(ACO)算法相結合,建立相關模型對有機化合物的黏度進行QSPR研究,解決了小樣本、非線性和維數(shù)災難等問題。
3)模擬退火聚類算法。模擬退火算法(SA)最初由Metropolis等人于20世紀80年代初提出,其思想源于物理中固體物質退火過程與一般組合優(yōu)化問題之間的相似性,通過模擬高溫物體退火過程的方法來找到優(yōu)化問題的全局最優(yōu)或近似全局最優(yōu)解。SA是一種啟發(fā)式隨機搜索算法,具有并行性和漸近收斂性,目前已廣泛應用于圖像識別、機器學習、神經(jīng)網(wǎng)絡等優(yōu)化問題。如張引、潘云鶴[130]采用模擬退火技術求解最大似然聚類用于圖像分割,解決了用迭代方法求解最大似然聚類只能得到局部最優(yōu)解的問題.獲得的圖像分割效果優(yōu)于迭代方法和著名的Otsu方法;Neethirajan等人[131]基于模擬退火算法對儲糧害蟲進行了識別分類。
4)粗糙集方法。粗糙集理論是波蘭科學家Pawlak提出的,它是一種新型的處理模糊和不確定知識的數(shù)學工具,揭示潛在的規(guī)律能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并能從中發(fā)現(xiàn)隱含的知識和揭示潛在的規(guī)律[132-133]。它提供了一套比較完備的從小樣本數(shù)據(jù)中尋找規(guī)律的系統(tǒng)方法,用其可找到描述正常模型的最小預測規(guī)則集,其不僅有利于提高檢測速度,而且可應用于系統(tǒng)的實時檢測。
目前,粗糙集理論已經(jīng)在數(shù)據(jù)的決策和分析、模式識別、機器學習等方面有著成功的應用,已成為信息科學最活躍的研究領域之一。如文獻[134]基于RS理論對帶鋼表面缺陷圖像進行了識別分類,并同BP算法進行了對比,驗證了基于粗糙集的分類識別算法的有效性。
此外,蟻群聚類算法、粒子群聚類算法、基于遺傳算法的聚類方法、基于核的聚類算法等得到應用,廣大學者們正致力于具有聚類能力強、自適應、效率高等特點的聚類算法研究,并注重將不同的聚類思想進行融合以形成新的聚類等新算法。如,王孫安等人[135]提出一種混沌免疫模糊聚類算法,該算法把混沌變量加載于免疫算法的變量群體中,利用混沌搜索的特點對群體進行微小擾動并逐步調整擾動幅度,提高了基于人工免疫進化算法的模糊聚類算法的搜索效率;吳一全等人[136]提出了一種利用核模糊C均值聚類和正則化的圖像稀疏去噪方法,更有效地去除圖像噪音,保留圖像細節(jié),改善圖像視覺效果;Nunes應用一種人工免疫進化網(wǎng)絡用于聚類[137]。
3主要問題和發(fā)展趨勢
基于機器視覺的表面缺陷檢測將是未來研究和發(fā)展的主要方向,目前,基于機器視覺的表面缺陷檢測理論研究和實際應用等環(huán)節(jié)均有可喜的成果,但仍存在下面主要的問題和難點:
1)受環(huán)境、光照、生產工藝和噪聲等多重因素影響,檢測系統(tǒng)的信噪比一般較低,微弱信號難以檢出或不能與噪聲有效區(qū)分。如何構建穩(wěn)定、可靠、魯棒的檢測系統(tǒng),以適應光照變化、噪聲以及其他外界不良環(huán)境的干擾,是要解決的問題之一。
2)由于檢測對象多樣、表面缺陷種類繁多、形態(tài)多樣、復雜背景,對于眾多缺陷類型產生的機理以及其外在表現(xiàn)形式之間的關系尚不明確,致使對缺陷的描述不充分,缺陷的特征提取有效性不高,缺陷目標分割困難;同時,很難找到“標準”圖像作為參照,這給缺陷的檢測和分類帶來困難,造成識別率尚有待提高。
3)機器視覺表面缺陷檢測,特別是在線檢測,其特點是數(shù)據(jù)量龐大、冗余信息多、特征空間維度高,同時考慮到真正的機器視覺面對的對象和問題的多樣性,從海量數(shù)據(jù)中提取有限缺陷信息的算法能力不足,實時性不高。
4)與機器視覺表面檢測密切相關的人工智能理論雖然得到了很大的發(fā)展,但如何模擬人類大腦的信息處理功能去構建智能機器視覺系統(tǒng)還需要理論上的進一步研究,如何更好的基于生物視覺認識、指導機器視覺得檢測也是研究人員的難點之一。
5)從機器視覺表面檢測的準確性方面來看,盡管一系列優(yōu)秀的算法不斷出現(xiàn),但在實際應用中準確率仍然與滿足實際應用的需求尚有一定差距,如何解決準確識別與模糊特征之間、實時性與準確性之間的矛盾仍然是目前的難點。
隨著計算機技術、信息技術、電子技術、傳感器技術和仿生技術等的發(fā)展,機器視覺檢測方法也必將得到迅速的發(fā)展。技術和市場需求等因素決定了機器視覺表面缺陷檢測的發(fā)展趨勢為:
1)MARR理論對計算機視覺發(fā)揮了巨大作用,其核心是將視覺理解為3D重建的過程。但是,從3D場景到2D圖像是一個多對一的映射,在映射的過程中損失了深度信息;灰度是對場景的惟一的測量值,諸如光照、材料特性、朝向和距離等信息都無法反映;成像中由于噪聲及環(huán)境等因素的干擾,都會使圖像產生失真。為此,需要研究視覺檢測新理論和新方法,如發(fā)展主動視覺、增強視覺系統(tǒng)的智能學習能力等。
2)從生物視覺得到啟發(fā),吸收來自心理學、生理學等其他學科中生物視覺的最新研究成果,基于生物視覺機制為視覺檢測提供研究新思路,模仿生物視覺多尺度、層次性的視覺特點,結合視覺任務,引入先驗高級知識的指導,同時將機器視覺、機器聽覺、機器嗅覺、機器觸覺等多信息相互融合,突破單一視覺信息的局限性,也將成為機器視覺檢測的發(fā)展方向之一。
3)研究更具魯棒性的圖像處理和分析算法,提高圖像處理的有效性和和執(zhí)行效率,降低算法的復雜度,提高識別的準確性。在在線檢測系統(tǒng)中,要特別注重實時性,視覺本身具有內在的并行性,為此,還在要理論、算法和技術等多方面研究視覺并行計算,提高視覺計算的速度。同時,進一步研究算法性能的評價方法,以對算法的效率和性能作了科學、準確的刻化和評價。
4)研究完整3維場景重建方法。現(xiàn)有3維場景重建理論和算法基本都局限于對目標“可視”部分的重構,如果用Marr視覺計算理論來說,還主要停留在2.5維表達上,這種表達僅提供了物體可見輪廓以內的3維信息。如何恢復物體完整表面的信息,即包括物體表面不可見部分,是一個復雜但也亟待解決的問題。
5)采用統(tǒng)一而開放的標準,構建標準化、一體化和通用化的解決方案,標準化與個性化的進一步統(tǒng)一,研發(fā)可靠性高、維護性好、便于不斷完善和升級換代、網(wǎng)絡化、自動化和智能化更高的機器視覺系統(tǒng)是今后的發(fā)展趨勢。
4結論
機器視覺系統(tǒng)的研究和應用范圍涵蓋了工業(yè)、農業(yè)、醫(yī)藥、軍事、交通和安全等國民經(jīng)濟的各個領域,基于機器視覺的產品表面質量檢測在現(xiàn)代自動化生產中得到了越來越多的重視和應用。
機器視覺表面缺陷檢測系統(tǒng)中,圖像處理和分析算法是重要的內容,通常的流程包括圖像的預處理、目標區(qū)域的分割、特征提取和選擇及缺陷的識別分類。每個處理流程都出現(xiàn)了大量的算法,這些算法各有優(yōu)缺點和其適應范圍。如何提高算法的準確性、執(zhí)行效率、實時性和魯棒性,一直是研究者們努力的方向。
中國是一個制造大國,每天都要生產大量的工業(yè)產品。用戶和生產企業(yè)對產品質量的要求越來越高,除要求滿足使用性能外,還要有良好的外觀,即良好的表面質量。但是,在制造產品的過程中,表面缺陷的產生往往是不可避免的。不同產品的表面缺陷有著不同的定義和類型,一般而言表面缺陷是產品表面局部物理或化學性質不均勻的區(qū)域,如金屬表面的劃痕、斑點、孔洞,紙張表面的色差、壓痕,玻璃等非金屬表面的夾雜、破損、污點,等等。表面缺陷不僅影響產品的美觀和舒適度,而且一般也會對其使用性能帶來不良影響,所以生產企業(yè)對產品的表面缺陷檢測非常重視,以便及時發(fā)現(xiàn),從而有效控制產品質量,還可以根據(jù)檢測結果分析生產工藝中存在的某些問題,從而杜絕或減少缺陷品的產生,同時防止?jié)撛诘馁Q易糾份,維護企業(yè)榮譽。
人工檢測是產品表面缺陷的傳統(tǒng)檢測方法,該方法抽檢率低、準確性不高、實時性差、效率低、勞動強度大、受人工經(jīng)驗和主觀因素的影響大,而基于機器視覺的檢測方法可以很大程度上克服上述弊端。
美國機器人工業(yè)協(xié)會(RIA)對機器視覺下的定義為:“機器視覺是通過光學的裝置和非接觸的傳感器自動地接收和處理一個真實物體的圖像,以獲得所需信息或用于控制機器人運動的裝置”[1]。
機器視覺是一種無接觸、無損傷的自動檢測技術,是實現(xiàn)設備自動化、智能化和精密控制的有效手段,具有安全可靠、光譜響應范圍寬、可在惡劣環(huán)境下長時間工作和生產效率高等突出優(yōu)點。機器視覺檢測系統(tǒng)通過適當?shù)墓庠春蛨D像傳感器(CCD攝像機)獲取產品的表面圖像,利用相應的圖像處理算法提取圖像的特征信息,然后根據(jù)特征信息進行表面缺陷的定位、識別、分級等判別和統(tǒng)計、存儲、查詢等操作;
視覺表面缺陷檢測系統(tǒng)基本組成主要包括圖像獲取模塊、圖像處理模塊、圖像分析模塊、數(shù)據(jù)管理及人機接口模塊。
圖像獲取模塊由CCD攝像機、光學鏡頭、光源及其夾持裝置等組成,其功能是完成產品表面圖像的采集。在光源的照明下,通過光學鏡頭將產品表面成像于相機傳感器上,光信號先轉換成電信號,進而轉換成計算機能處理的數(shù)字信號。目前工業(yè)用相機主要基于CCD或CMOS(complementarymetaloxidesemiconductor)芯片的相機。CCD是目前機器視覺最為常用的圖像傳感器。
光源直接影響到圖像的質量,其作用是克服環(huán)境光干擾,保證圖像的穩(wěn)定性,獲得對比度盡可能高的圖像。目前常用的光源有鹵素燈、熒光燈和發(fā)光二級管(LED)。LED光源以體積小、功耗低、響應速度快、發(fā)光單色性好、可靠性高、光均勻穩(wěn)定、易集成等優(yōu)點獲得了廣泛的應用。
由光源構成的照明系統(tǒng)按其照射方法可分為明場照明與暗場照明、結構光照明與頻閃光照明。明場與暗場主要描述相機與光源的位置關系,明場照明指相機直接接收光源在目標上的反射光,一般相機與光源異側分布,這種方式便于安裝;暗場照明指相機間接接收光源在目標上的散射光,一般相機與光源同側分布,它的優(yōu)點是能獲得高對比度的圖像。結構光照明是將光柵或線光源等投射到被測物上,根據(jù)它們產生的畸變,解調出被測物的3維信息。頻閃光照明是將高頻率的光脈沖照射到物體上,攝像機拍攝要求與光源同步。
圖像處理模塊主要涉及圖像去噪、圖像增強與復原、缺陷的檢測和目標分割。
由于現(xiàn)場環(huán)境、CCD圖像光電轉換、傳輸電路及電子元件都會使圖像產生噪聲,這些噪聲降低了圖像的質量從而對圖像的處理和分析帶來不良影響,所以要對圖像進行預處理以去噪。圖像增強目是針對給定圖像的應用場合,有目的地強調圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強調某些感興趣的特征,擴大圖像中不同物體特征之間的差別,抑制不感興趣的特征,使之改善圖像質量、豐富信息量,加強圖像判讀和識別效果的圖像處理方法。圖像復原是通過計算機處理,對質量下降的圖像加以重建或復原的處理過程。圖像復原很多時候采用與圖像增強同樣的方法,但圖像增強的結果還需要下一階段來驗證;而圖像復原試圖利用退化過程的先驗知識,來恢復已被退化圖像的本來面目,如加性噪聲的消除、運動模糊的復原等。圖像分割的目的是把圖像中目標區(qū)域分割出來,以便進行下一步的處理。
圖像分析模塊主要涉及特征提取、特征選擇和圖像識別。
特征提取的作用是從圖像像素中提取可以描述目標特性的表達量,把不同目標間的差異映射到低維的特征空間,從而有利于壓縮數(shù)據(jù)量、提高識別率。表面缺陷檢測通常提取的特征有紋理特征、幾何形狀特征、顏色特征、變換系數(shù)特征等,用這些多信息融合的特征向量來區(qū)可靠地區(qū)分不同類型的缺陷;這些特征之間一般存在冗余信息,即并不能保證特征集是最優(yōu)的,好的特征集應具備簡約性和魯棒性,為此,還需要進一步從特征集中選擇更有利于分類的特征,即特征的選擇。圖像識別主要根據(jù)提取的特征集來訓練分類器,使其對表面缺陷類型進行正確的分類識別。
數(shù)據(jù)管理及人機接口模塊可在顯示器上立即顯示缺陷類型、位置、形狀、大小,對圖像進行存儲、查詢、統(tǒng)計等。
機器視覺表面缺陷檢測主要包括2維檢測和3維檢測,前者是當前的主要表面缺陷檢測方式,也是本文的著重論述之處。
機器視覺在工業(yè)檢測、包裝印刷、食品工業(yè)、航空航天、生物醫(yī)學工程、軍事科技、智能交通、文字識別等領域得到了廣泛的應用。工業(yè)檢測領域是機器視覺應用中比重最大的領域,主要用于產品質量檢測、產品分類、產品包裝等,如:零件裝配完整性檢測,裝配尺寸精度檢測,位置/角度測量,零件識別,PCB板檢測,印刷品檢測,瓶蓋檢測,玻璃、煙草、棉花檢測,以及指紋、汽車牌照、人臉、條碼等識別。表面質量檢測系統(tǒng)是工業(yè)檢測的極其重要的組成部分,機器視覺表面缺陷檢測在許多行業(yè)開始應用,涉及鋼板[2-4]、玻璃[5-6]、印刷[7-9]、電子[10]、紡織品[11]、零件[12-13]、水果[14]、木材[15-16]、瓷磚[17-19]、鋼軌[20]等多種關系國計民生的行業(yè)和產品。
1研究現(xiàn)狀、視覺軟件系統(tǒng)和研究平臺
1.1研究現(xiàn)狀
機器視覺在金屬(特別是鋼板)表面、紙張等印刷品、紡織品、磁磚、玻璃、木材等表面缺陷檢測國內外有較多的研究成果,不乏成功應用系統(tǒng)和案例。
在鋼板表面缺陷檢測領域,美國Westinghouse公司采用線陣CCD攝像機和高強度的線光源檢測鋼板表面缺陷,并提出了將明域、暗域及微光域3種照明光路形式組合應用于檢測系統(tǒng)的思路[21]。這些系統(tǒng)可識別的缺陷種類相對較少,并且不具備對周期性缺陷的識別能力。美國Cognex公司研制成功了iS-2000自動檢測系統(tǒng)和iLearn自學習分類器軟件系統(tǒng)[22]。這兩套系統(tǒng)配合有效改善了傳統(tǒng)自學習分類方法在算法執(zhí)行速度、數(shù)據(jù)實時吞吐量、樣本訓練集規(guī)模及模式特征自動選擇等方面的不足;Parsytec公司為韓國浦項制鐵公司研制了冷軋鋼板表面缺陷檢測系統(tǒng)HTS,該系統(tǒng)能對高速運動的熱軋鋼板表面缺陷進行在線自動檢測和分級的系統(tǒng),在連軋機和CSP生產線上取得了良好的效果[23];英國EuropeanElectronicSystem公司研制的EES系統(tǒng)也成功地應用于熱連軋環(huán)境下的鋼板質量自動檢測[24]。EES系統(tǒng)實時地提供高清晰度、高可靠性的鋼板上下表面的缺陷圖像,最終交由操作員進行缺陷類型的分類判別。國內北京科技大學的高效軋制國家工程研究中心也在進行鋼板表面質量檢測系統(tǒng)的研制,對其常見缺陷類型進行了檢測與識別,取得了一定的研究成果[25],東北大學、上海寶鋼集團公司、武漢科技大學等科研院所研究了冷軋鋼板表面缺陷的檢測系統(tǒng)[26-28],重慶大學對高溫連鑄坯表面缺陷進行了研究[29]。
在其他領域,視覺表面缺陷檢測也得到了廣泛的研究和應用。文獻[30]對規(guī)則紋理表面(天然木材、機械加工表面、紡織面料)的表面缺陷采用傅里葉變換進行圖像的復原,高頻的傅里葉分量對應表面紋理線型,而低頻的傅里葉分量對應表面缺陷區(qū)域。文獻[31]研究了鋁帶連鑄生產中的表面缺陷檢測,通過紅外檢測提供鋁帶表面溫度的分布情況以評估鋁帶質量,采集鋁帶圖像,進行表面缺陷檢測和分類。文獻[32]將機器視覺應用于集成電路晶片表面缺陷檢測,使用模糊邏輯對表面凹坑缺陷的不同形狀進行分析處理。文獻[33]利用圖像對鐵軌的表面質量進行自動檢測,車載檢測系統(tǒng)對鐵軌的表面質量進行實時檢測和分類。文獻[34]基于機器視覺系統(tǒng)對雞肉包裝前的質量檢測,根據(jù)雞肉圖像的顏色信息,采用數(shù)學形態(tài)學方法對潛在的問題區(qū)域進行特征提取,然后按預定義的質量問題列表進行分類。文獻[35]針對隨機紋理的彩色圖像提出了一種利于分水嶺變換的顏色相似性度量,提取了圖像的顏色和紋理特征,實現(xiàn)了隨機紋理表面缺陷的自動分割和檢測。文獻[36]采用雙目立體視覺,基于特征立體匹配算法對掃描電鏡圖像研究了物體的表面深度信息。文獻[37]介紹了一種皮革表面缺陷檢測的方法,采用OTSU方法進行缺陷分割,利用歐式距離聚類法進行缺陷分類,在分類聚類時使用形態(tài)學算子進行腐蝕運算,實驗結果表明了該方法的有效性。文獻[38]對玻璃缺陷進行了識別,把采集到的缺陷圖像縮放到10×10的大小,然后把這個100個像素值作為特征向量,分別運用徑向基(RBF)神經(jīng)網(wǎng)絡和決策樹進行識別;該方法的缺點是不同缺陷縮放后造成部分信息的丟失。文獻[39]研究了一種玻璃缺陷識別的專家系統(tǒng)(ES),首先需要電子顯微技術和等離子射線獲得缺陷信息作為知識庫,對未知的玻璃缺陷通過搜索知識庫對缺陷信息進行匹配,選擇最相近的類別作為輸出;該方法的缺點是分類采用貪婪搜索法,匹配速度慢。文獻[40]針對機器視覺在產品表面粗糙度的檢測方法作了描述,首先建立粗糙度的模型,然后以表面的累加偏差作為特征通過神經(jīng)網(wǎng)絡(ANN)進行等級劃分,并闡述了不同的ANN模型對識別結果的影響。
1.2視覺軟件系統(tǒng)
機器視覺軟件系統(tǒng)除具有圖像處理和分析功能外,還應具有界面友好、操作簡單、擴展性好、與圖像處理專用硬件兼容等優(yōu)點。國外視覺檢測技術研究開展的較早,已涌現(xiàn)了許多較為成熟的商業(yè)化軟件,應該比較多的有HALCON、HexSight、VisionPro、LEADTOOLS等[41]。
HALCON是德國MVtec公司開發(fā)的一套完善的標準的機器視覺算法包,擁有應用廣泛的機器視覺集成開發(fā)環(huán)境維視圖像開發(fā)定制軟件,在歐洲以及日本的工業(yè)界已經(jīng)是公認具有最佳效能的MachineVision軟件。HALCON的imageprocessinglibrary,由一千多個各自獨立的函數(shù)和底層的數(shù)據(jù)管理核心構成,其函數(shù)庫可以用C,C++,C#,Visualbasic和Delphi等多種普通編程語言訪問。HALCON百余種工業(yè)相機和圖像采集卡提供接口,包括GenlCam,GigE和IIDC1394。HALCO還具有強大的3維視覺處理能力,另外,自動算子并行處理(AOP)技術是HALCON的一個獨特性能。HALCON應用范圍涵蓋自動化檢測、醫(yī)學和生命科學,遙感探測,通訊和監(jiān)控等眾多領域。
Adept公司出品的HexSight是一款高性能的、綜合性的視覺軟件開發(fā)包,它提供了穩(wěn)定、可靠及準確定位和檢測零件的機器視覺底層函數(shù)。HexSight的定位工具是根據(jù)幾何特征、采用輪廓檢測技術來識別對象和模式。在圖像凌亂、亮度波動、圖像模糊和對象重疊等方面有顯著效果。HexSight能處理自由形狀的對象,并具有功能強大的去模糊算法。HexSight軟件包含一個完整的底層機器視覺函數(shù)庫,可用來建構完整的高性能2D機器視覺系統(tǒng),可利用VisualBasic、VisualC++或BorlandDephi平臺方便地進行二次開發(fā)。其運算速度快,在一臺2GHz的處理器上尋找和定位一般的零部件不超過10ms;具有1/40亞像素平移重復精度和0.05度旋轉重復精度。此外,內置的標定模塊能矯正畸變、投影誤差和X-Y像素比誤差,完整的檢測工具包含硬件接口、圖像采集、圖像標定、圖像預處理、幾何定位、顏色檢測、幾何測量、Blob分析、清晰度評價(自動對焦)、模式匹配、邊緣探測等多種多樣,開放式體系結構,支持DirectShow、DCam,GigEvision等多種通用協(xié)議,幾乎與市面上所有商業(yè)圖像采集卡,以及各種USB、1394以及GigE接口的攝像機兼容。
Cognex公司的VisionPro是一套基于.Net的視覺工具,適用于包括FireWire和CameraLink在內的所有硬件平臺,利用ActiveX控制可快速完成視覺應用項目程序的原模型開發(fā),可使用相應的VisualBasic、VB.Net、C#或C++搭建出更具個性化的應用程序。
LEADTOOLS在數(shù)碼圖像開發(fā)工具領域中已成為全球領導者之一,是目前功能強大的優(yōu)秀的圖形、圖像處理開發(fā)包,它可以處理各種格式的文件,并包含所有圖形、圖像的處理和轉換功能,支持圖形、圖像、多媒體、條形碼、OCR、Internet、DICOM等等,具有各種軟硬件平臺下的開發(fā)包。
此外,還有Dalsa公司的Sherlock檢測軟件,日本的OMRON和Keyence,德國SIEMENS等,這些機器視覺軟件都能提供完整的表面缺陷檢測方法。
國內機器視覺檢測系統(tǒng)開發(fā)較晚,相關的企業(yè)主要是代理國外同類產品,提供視覺檢測方案和系統(tǒng)集成,其中具有代表性的企業(yè)有凌華科技、大恒圖像、視覺龍、凌云光子、康視達、OPT、三姆森和微視圖像等。
1.3視覺硬件平臺
機器視覺表面質量檢測,特別是實時檢測,圖像采集的數(shù)據(jù)量大,所以如何提高圖像處理速度顯得十分重要。提高圖像處理速度主要有兩種手段,一是改善和優(yōu)化圖像處理算法,算法既要簡單快速,又要兼顧實際效果;二是改善和優(yōu)化實現(xiàn)算法的手段。目前,實時圖像處理采集方案主要為下面幾個方面[42]。
1)通用計算機網(wǎng)絡并行處理。這種處理結構采用“多客戶機+服務器”的方式,一個圖像傳感器對應一臺客戶機,服務器實現(xiàn)信息的合成,圖像處理的大部分工作由軟件來完成。該結構雖然比較龐大,但升級維護方便、實時性較好。
2)數(shù)字信號處理器(DSP)。DSP是一種獨特的微處理器,是以數(shù)字信號來處理大量信息的器件。其工作原理是將接收到的模擬信號轉換為“0”或“1”的數(shù)字信號,再對數(shù)字信號進行修改、刪除和強化,并在其他系統(tǒng)芯片中把數(shù)字數(shù)據(jù)解譯回模擬數(shù)據(jù)或實際環(huán)境格式,其實時運行速度遠遠超過通用微處理器。但是,DSP的體系仍是串行指令執(zhí)行系統(tǒng),而且只是對某些固定的運算進行硬件優(yōu)化,故不能滿足眾多的算法要求。
3)專用集成電路(ASIC)。ASIC是針對于某一固定算法或應用而專門設計的硬件芯片,有很強的實時性。但在實際應用中存在開發(fā)周期相對較長、成本高、適應性和靈活性差等缺點。
4)現(xiàn)場可編程門陣列(FPGA)。FPGA由多個可編程的基本邏輯單元組成的一個2維矩陣,邏輯單元之間以及邏輯單元與I/O單元之間通過可編程連線進行連接。FPGA能在設計上具有很強的靈活性,集成度、工作速度也在不斷提高,可實現(xiàn)的功能也越來越強;同時其開發(fā)周期短,系統(tǒng)易于維護和擴展,能夠大大地提高圖像數(shù)據(jù)的處理速度。
實時圖像處理系統(tǒng)中,底層的信號數(shù)據(jù)量大,對處理速度的要求高,但運算結構相對比較簡單,適合采用FPGA以硬件方式來實現(xiàn);高層處理算法的特點是處理的數(shù)據(jù)量相對較少,但算法和控制結構復雜,可使用DSP來實現(xiàn)。所以,可以把二者的優(yōu)點結合在一起以兼顧實時性和靈活性。
USB、串口、并口是計算機和外設進行通訊的常用接口,但對于數(shù)據(jù)量大的圖像來說,串行RS-232協(xié)議難于達到圖像采集實時性要求。USB口即使能滿足所需速度,但要求外設必須支持USB協(xié)議,而USB協(xié)議與常用工程軟件的接口還不普及。IEEE-1394接口具有廉價,速度快,支持熱拔插,數(shù)據(jù)傳輸速率可擴展,標準開放等特點,在眾多領域得到了廣泛的應用。但隨著數(shù)字圖像采集速度的提高、數(shù)據(jù)量的增大,原有的標準漸難以滿足需求。為了簡化數(shù)據(jù)的連接,實現(xiàn)高速、高精度、靈活、簡單的連接,在NationalSemiconductor公司等多家相機制造商共同制定推出了CameraLink標準。CameraLink是專門為數(shù)字攝像機的數(shù)據(jù)傳輸提出的接口標準,專為數(shù)字相機制定的一種圖像數(shù)據(jù)、視頻數(shù)據(jù)控制信號及相機控制信號傳輸?shù)目偩€接口,其最主要特點是采用了低壓差分信號(LVDS)技術,使攝像機的數(shù)據(jù)傳輸速率大大提高。
2表面缺陷檢測圖像處理和分析算法
2.1圖像預處理算法
工業(yè)現(xiàn)場采集的圖像通常包含噪聲,圖像預處理主要目的是減少噪聲,改善圖像的質量,使之更適合人眼的觀察或機器的處理。圖像的預處理通常包括空域方法和頻域方法,其算法有灰度變換、直方圖均衡、基于空域和頻域的各種濾波算法等,其中直觀的方法是根據(jù)噪聲能量一般集中于高頻,而圖像頻譜則分布于一個有限區(qū)間的這一特點,采用低通濾波方式進行去噪,例如滑動平均窗濾波器、Wiener線性濾噪器等。上述各種濾波方法中,頻域變換復雜,運算代價較高;空域濾波算法采用各種模板對圖像進行卷積運算。直接灰度變換法通過對圖像每一個像素按照某種函數(shù)進行變換后得到增強圖像,變換函數(shù)一般多采用線性函數(shù)、分段線性函數(shù)、指數(shù)函數(shù)、對數(shù)函數(shù)等,運算簡單,在滿足處理功能的前提下實時性也較高。近年來,數(shù)學形態(tài)學方法[43-44]、小波方法[45-47]用于圖像的去噪,取得了較好的效果。
2.2圖像分割算法
圖像的分割是把圖像陣列分解成若干個互不交迭的區(qū)域,每一個區(qū)域內部的某種特性或特征相同或接近,而不同區(qū)域間的圖像特征則有明顯差別。它是由圖像處理到圖像分析的關鍵步驟?,F(xiàn)有的圖像分割方法主要分為基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。近年來,研究者不斷改進原有的圖像分割方法并把其他學科的一些新理論和新方法用于圖像分割,提出了不少新的分割方法。圖像分割后提取出的目標可以用于圖像語義識別、圖像搜索等領域。
2.2.1基于區(qū)域的分割算法
基于區(qū)域的分割算法包括閾值分割法、區(qū)域生長法和聚類分割法等。
閾值分割法是一種傳統(tǒng)的圖像分割方法,其基本原理是:通過設定不同的灰度閾值,把圖像像素點分為若干類。因其實現(xiàn)簡單、計算量小、性能較穩(wěn)定而成為圖像分割中最基本和應用最廣泛的分割方法,其中閾值的選取是圖像閾值分割方法中的關鍵。
關于閾值的確定方法,目前比較常用的有固定閾值法、自適應閾值法、多區(qū)域閾值法等。固定閾值分割算法實時性強,適用于圖像背景和目標灰度值區(qū)別明顯的情況;自適應閾值分割算法,適用于目標與背景的灰度值區(qū)別不明顯的情況;多區(qū)域閾值法,適用于目標與背景在不同區(qū)域區(qū)別較大的情況。
Otsu提出了動態(tài)門限方法[48],它以目標和背景之間的方差最大來動態(tài)地確定圖像分割門限值,但當目標的相對面積較小時,此方法性能不佳。Pun和Kapur等人提出了利用最大先驗熵選取閾值的方法[49-50],從信息論的角度選擇閾值,在一定程度上克服了上述算法的缺點,但當圖像背景復雜時分割時容易喪失部分信息,且計算量較大。
Yen等人提出了利用最大相關性原則取代常用的最大熵原則來選取閾值的方法[51],以及基于一維或2維直方圖的閾值方法[52-54]、最小誤判概率準則下的最佳閾值方法[55]在其后也被提出。
區(qū)域生長法的基本思想是依據(jù)一定的生長準則,將若干個“相似”子區(qū)域聚合成較大的區(qū)域。它首先對每個需要分割的區(qū)域找到一個種子像素作為生長的起點,再將種子像素鄰域中與其具有相同或相似性質的像素根據(jù)某種事先確定的準則合并到種子像素所在的區(qū)域中;將這些新像素當作新的種子像素繼續(xù)像上面的操作,直到再沒有滿足條件的像素可包括進來。此法原理簡單,對于較均勻的連通目標有較好的分割效果;缺點是依賴于初始條件的選取,計算量較大,不適用于實時檢測。
分裂—合并法也是一種基于區(qū)域的分割算法,其基本思想是:根據(jù)圖像和各區(qū)域的不均勻性,將圖像或區(qū)域分裂成新的子區(qū)域,再將包含相同內容的區(qū)域合并成新的較大區(qū)域,最后得到分割圖像。四叉樹分解是一種常用的分裂—合并法,其具體過程是:將圖像分成4塊大小相等的方塊,判斷每個小塊是否滿足一致性標準(如兩區(qū)域參數(shù)統(tǒng)計特征結果相同,等等)。若滿足,則不再分解;若不滿足,則再細分成四塊,再用細分塊進行一致性標準檢查,直到滿足一致性標準,結果可能包含大小不同的塊。
聚類法進行圖像分割是根據(jù)圖像在特征空間的聚集對特征空間進行分割,再映射到原圖像空間得到分割結果,K均值聚類算法、模糊C均值聚類(FCM)算法[56-57]是常用的聚類算法。
2.2.2基于邊緣的分割方法
基于邊緣的分割方法其實就是根據(jù)圖像中局部特性的不連續(xù)性而采用某種算法來提取出圖像中的對象與背景間的交界線。
邊緣處像素的灰度值不連續(xù),這種不連續(xù)性可通過求導來檢測。經(jīng)典的邊緣檢測算法一般采用微分的方法進行計算,常用的一階微分邊緣檢測算子有Robert算子、Sobel算子、Prewitt算子、Kirsch算子等幾種。一階微分算子方法計算簡便、速度快,但定位不準確。二階微分算子主要有Canny算子、Log算子、Laplacian算子,這類算子基于一階導數(shù)的局部最大值對應二階導數(shù)的零交叉點這一性質,通過尋找圖像灰度的二階導數(shù)的零交叉點從而定位邊緣。二階微分算子方法邊緣定位準確,但對噪聲敏感。對于噪聲污染的圖像,在進行微分算子邊緣檢測前一般先要濾波,但濾波的同時也使圖像邊緣產生一定程度的模糊。Marr算子將噪聲濾波與邊緣提取相結合,但當模板較小時抗噪性能不良,模板較大時計算費時。
2.2.3基于特定理論的分割方法
隨著數(shù)學和人工智能的發(fā)展,出現(xiàn)了一些新的邊緣檢測方法,如數(shù)學形態(tài)學法、小波變換法、人工神經(jīng)網(wǎng)絡法、遺傳算法、基于模糊理論的算法等。
20世紀90年代初,Mallat在圖像多分辨分析理論的基礎上,提出了小波變換局部模極大值邊緣檢測方法[58-59],在噪聲圖像中取得了較好的邊緣檢測效果。后來,人們在Mallat理論框架下,提出了多尺度邊緣檢測方法[60]。多尺度邊緣檢測方法主要思想在較大的尺度下能對邊緣精確檢測,而在較小的尺度下能對邊緣點精確定位。小波變換的突出優(yōu)點是其多分辨率,圖像的每個尺度的小波變換都提供了一定的邊緣信息。小波分析在時域和頻域都具有良好的局部化性質,可聚焦到對象的任意細節(jié),是圖像處理領域的熱點。雖然人們提出了多種的邊緣檢測方法[61-62],但邊緣檢測時抗噪性和檢測精度的矛盾仍然是要研究的重點內容之一。
基于數(shù)學形態(tài)學邊緣檢測方法[63-64]的基本思想是用具有一定形態(tài)的結構元素提取圖像中的對應形狀,以達到對圖像分析和識別的目的。采用多結構元素的數(shù)學形態(tài)學算法,既能提取細小邊緣,又能很好的抑制噪聲,結構元素選取靈活,但在靈活的同時也導致算法的適應性變差。
近年來有一些新的研究手段如神經(jīng)網(wǎng)絡、遺傳算法和小波方法等被引入到圖像分割的閾值選取中[65-69],其效果仍在探索之中。
雖然有許多圖像分割的方法,這些算法的共性問題在于分割精度與抗噪性的矛盾,同時,高實時性處理算法的研究遠遠滯后于通用圖像處理算法的研究,應用于實際生產中的一些算法在準確性、實時性和可操作性上也還存在較大的困難。至今,圖像分割算法大都是針對具體問題所提出的,雖然每年都有新的圖像分割算法提出,但是并沒有一種通用的算法能適用于所有的圖像分割處理。
2.3特征提取及其選擇算法
圖像的特征提取可理解為從高維圖像空間到低維特征空間的映射,是基于機器視覺的表面缺陷檢測的重要一環(huán),其有效性對后續(xù)缺陷目標識別精度、計算復雜度、魯棒性等均有重大影響。特征提取的基本思想是使目標在得到的子空間中具有較小的類內聚散度和較大的類間聚散度。目前常用的圖像特征主要有紋理特征、顏色特征、形狀特征等。
2.3.1紋理特征提取
紋理是表達圖像的一種重要特征,它不依賴于顏色或亮度而反映圖像的同質現(xiàn)象,反映了表面結構組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系。與顏色特征和灰度特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算,即局部性;同時,局部紋理信息也存在不同程度的重復性,即全局性。紋理特征常具有旋轉不變性,并且對于噪聲有較強的抵抗能力。
根據(jù)Tuceryan和Jain的分類,基于的紋理特征提取方法有統(tǒng)計法、信號分析法、模型法、結構法和幾何法。
1)統(tǒng)計法。統(tǒng)計方法將紋理看用隨機現(xiàn)象,從統(tǒng)計學的角度來分析隨機變量的分布,從而實現(xiàn)對圖像紋理的描述。直方圖特征是最簡單的統(tǒng)計特征,但它只反映了圖像灰度出現(xiàn)的概率,沒有反映像素的空間分布信息;灰度共生矩(GLCM)是基于像素的空間分布信息的常用統(tǒng)計方法;局部二值模式(LBP)具有旋轉不變性和多尺度性、計算簡單;此外,還有行程長度統(tǒng)計法、灰度差分統(tǒng)計法等,因計算量大、效果不突出而限制了其應用。
(1)直方圖特征。圖像的直方圖提供了圖像的許多信息和特征,常用的直方圖特征有最大值、最小值、均值、中值、值域、熵、方差和熵等。此外,直方圖對比統(tǒng)計特征,如L1范數(shù)、L2范數(shù)、Bhattacharyya距離、Matusita距離、歸一化相關系統(tǒng)等,亦常用作統(tǒng)計特征[70]。
直方圖特征方法計算簡單、具有平移和旋轉不變性、對顏色像素的精確空間分布不敏感等,所以在表面檢測、缺陷識別得到不少應用。
(2)灰度共生矩。Haralick等人[71]提出的灰度共生矩是一種廣泛應用的使用統(tǒng)計特征來描述紋理的方法?;叶裙采仃嚲褪菑膱D像灰度級為的像素出發(fā),統(tǒng)計與其距離為、灰度級為的像素同時出現(xiàn)的概率。一般取0°、45°、90°和135°這4個方向?;叶裙采仃嚪从沉藞D像灰度關于方向、相鄰間隔、變化幅度的綜合信息,所以可以作為分析圖像基元和排列結構的信息。
GLCM共有14種紋理特征,文獻[72-74]研究了GLCM統(tǒng)計量的相關性并提出了更有效的紋理特征量,但是文獻[75]認為僅有4個特征,即對比度、相關性、能量(和同質性是不相關的,所以,為減少計算量,提高特征分類精度,常取這4個特征作為GLCM特征。GLCM在圖像的紋理分析中占有重要的地位,在特征提取和缺陷檢測等方面有著廣泛的應用。
(3)局部二值模式(LBP)。局部二值模式最早由Ojala提出,它引入了紋理基元的思想,是一個簡單但非常有效的紋理運算符。LBP將各個像素與其附近的像素進行比較,并把結果保存為二進制數(shù),即它用二進制位表達局部鄰域點與中心點的關系,所有鄰域點的二進制位用來描述局部結構信息的模式。
LBP對諸如光照變化等造成的圖像灰度變化具有較強的魯棒性,所以局部二值模式算法已廣泛應用于表面缺陷檢測,同時,在指紋識別、光學字符識別、人臉識別及車牌識別等領域也有應用。由于LBP計算簡單,也可以用于實時檢測。
目前出現(xiàn)了一些改進的LBP算法。Tan等人[76]提出了局部三值模式(LTP),即通過設定閾值將鄰域與中心相似的狀態(tài)作為中間狀態(tài),從而將擴展局部鄰域關系為三種狀態(tài)。在此基礎上,Nanni等人[77]將局部關系擴展到四種狀態(tài)。也有學者將LBP由傳統(tǒng)的2維特征改進到3維特征主要用于視頻分析[78-80]。此外,有學者將LBP表達的局部信息與其他信息或算法結合構成聯(lián)合特征量,如Tan等人[81]聯(lián)合LBP特征和Gabor小波特征進行人臉的識別,Huang等人[82]將LBP和SIFT算法結合用于人臉的3維識別。賀永剛[83]提出了一種多結構的局部二值模式,該算法結合各向同性采樣和各向異性采樣對局部二值模式進行擴展,利用圖像金字塔提取紋理圖像的微結構和宏結構信息。
(4)自相關函數(shù)法。自相關函數(shù)法從圖像的自相關函數(shù)提取紋理特征,即通過對圖像的能量譜函數(shù)的計算,提取紋理的粗細度及方向性等特征參數(shù)。對于規(guī)則紋理圖像,因其自相關函數(shù)具有波峰和波谷,故可用其進行表面檢測,但自相關函數(shù)法不適用于不規(guī)則紋理圖像。
2)信號處理法。將圖像當作2維分布的信號,從而可從信號濾波器設計的角度對紋理進行分析。信號處理方法也稱濾波方法,即用某種線性變換、濾波器(組)將紋理轉到變換域,然后應用相應的能量準則提取紋理特征?;谛盘柼幚淼姆椒ㄖ饕懈道锶~變換、Gabor濾波器、小波變換、Laws紋理、LBP紋理等。
(1)傅里葉變換方法。傅里葉變換是基于頻率的分析方法,20世紀70年代以來,有學者提出通過傅里葉濾波器來描述紋理。傅里葉變換將圖像變換到頻率域上使用頻譜能量或頻譜熵等特征來表達紋理。Rao和Lohse開展了基于人的感知的紋理研究,指出周期性、方向性以及隨機性是表征紋理的3個重要因素[84]。紋理圖像在空間分布上具有一定的周期性,其功率譜具有離散性和規(guī)律性;對于方向性紋理,方向性會在傅里葉頻譜中很好的保持;對于隨機性紋理,頻譜的響應分布并不限制到某些特定的方向。
根據(jù)相對于頻率中心位置距離的頻譜分布情況,可以大致判斷紋理圖像的相對粗糙程度。對于粗糙紋理,其紋理基元尺寸較大,圖像的低頻信號較多,功率譜的能量主要集中在離頻率中心位置較近的低頻區(qū)域;相反,對于基元尺寸較小的細致紋理,圖像含有的高頻信息較多,功率譜的能量分布較為分散,主要集中在距離頻率中心位置較遠的高頻區(qū)域。但是,傅里葉變換作為一種全局性的變化,仍有一定的局限性,如不具備局部化分析能力、不能分析非平穩(wěn)信號等。
(2)Gabor濾波方法。盡管傅里葉變換在信號頻域分析中有著重要作用,但它只能對整個時間段的信號的頻率進行分析,沒有信號的空間局部信息的刻畫能力,如當需要對局部的圖像紋理細節(jié)進行分析時,傅里葉變換無能為力。為克服傅里葉變換不能局部化分析的缺點,短時窗口傅里葉變換(STFT)被提出,它通過在變換時增加一個窗函數(shù)來實現(xiàn),當窗函數(shù)是Gaussian函數(shù)時,即得到Gabor變換。
Gabor濾波方法模擬了人類視覺感覺特性,具有很好的頻率選擇性和方位選擇性。使用Gabor濾波器提取紋理特征的主要過程是:先設計濾波器,再從其輸出結果中提取特征。濾波器設計包括單個濾波器參數(shù)的設計和濾波器組的布局。濾波器的輸出結果可作為紋理特征,但維數(shù)較高,為此,常采用斯平滑處理、Gabor能量特征、復矩特征、獨立成分分析等后處理方法以降低特征集的數(shù)據(jù)量[85]。對于2維數(shù)字圖像,研究者們提出了2維Gabor函數(shù)形成的2維Gabor濾波器。
自從Clark等人[86]首次將Gabor濾波方法用于紋理分析以來,很多研究人員開始用Gabor濾波器進行紋理特征提取,進行表面缺陷的檢測[87-91]。國內叢家慧等人[92]利用Gabor濾波器具有頻率選擇和方向選擇的特性,有效提取了帶鋼表面缺陷的紋理特征,為確定最佳濾波器參數(shù),引入的評價函數(shù)使缺陷圖像和無缺陷圖像能量響應差別最大化。張學武等人[93]使用Gaussian金字塔分解和Gabor濾波器提取缺陷圖像特征,合成特征顯著圖基于視覺仿生機理進行銅帶表面缺陷檢測,實現(xiàn)缺陷的正確分類。
因窗函數(shù)決定空域的局部性,且Gaussian函數(shù)經(jīng)傅里葉變換后仍為Gaussian函數(shù),故Gabor變換在頻域上也是局部的。Gabor濾波器在紋理描述方面有著良好的效果,但存在計算量大的問題[94]。
(3)小波變換方法。傅里葉變換沒有局部分析能力,STFT雖然在一定程度上改善了這種局限性,但采用的的滑動窗函數(shù)一經(jīng)選定就固定不變,故決定了其時頻分辨率固定不變,不具備自適應能力,而小波分析很好的解決了這個問題。小波變換(WT)是法國地質物理學家Morlet于1984年提出的,通過伸縮和平移等運算功能對函數(shù)或信號進行多尺度細化分析,達到高頻處時間細分,低頻處頻率細分,能自動適應時頻信號分析的要求,從而可聚焦到信號的任意細節(jié)。
圖像紋理往往表現(xiàn)為多尺度特征,對圖像進行小波分解后,得到不同分辨率的一系列圖像;不同分辨率的圖像由代表不同方向信息的一系列高頻子帶圖像構成,高頻子帶圖像反映了圖像的紋理特征。
傳統(tǒng)的金字塔小波變換僅對低頻部分進行了分解,而紋理圖像的高頻部分可能也含有重要的特征信息,小波包分解或是樹結構小波分解則可克服這一缺點。小波變換方法提取圖像特征以進行表面缺陷檢測已有大量的應用[95-98]。
(4)Laws紋理。Laws模板的紋理描述方法通過使用簡單模板處理紋理圖像,從而對紋理圖像的特征進行描述。它使用一組小的模板對紋理圖像卷積,對卷積后的圖像的每一個像素的鄰域進行統(tǒng)計計算,將統(tǒng)計量作為對應像素的紋理特征。
3)結構法。結構法是建立在紋理基元理論基礎上的,認為復雜的紋理是由一些在空間中重復出現(xiàn)的最小模式即紋理基元執(zhí)照一定的規(guī)律排列組成。結構方法主要有兩個重要問題:一是紋理基元的確定;二是紋理基元排列規(guī)律的提取。最簡單的紋理基元是單個的像素,也可以是圖像的灰度均質區(qū)域,此外,Vilnrotter等人[99]采用邊緣重復數(shù)組來提取基元,Hsu等人[100]利用自相關函數(shù)和小波變換系數(shù)提取基元,等等。確定基元后需要提取基元的特征參數(shù)和紋理結構參數(shù)作為描述圖像紋理的特征?;奶卣鲄?shù)有面積、周長、離心率、矩量等,結構參數(shù)則由基元之間的排列規(guī)律確定;基元的排列規(guī)則是基元的中心坐標及基元之間的空間拓撲關系,可從基元之間的模型幾何中得到,也可以通過基元之間的相位、距離等統(tǒng)計特征中得到,較復雜的情況可以用句法分析、數(shù)學形態(tài)學等方法。
采用結構方法提取圖像紋理特征以進行表面缺陷檢測的研究并不少見,Wen等人[101]利用結構法提取圖像的邊緣特征進行了皮革表面缺陷檢測,Goswami等人[102]基于激光檢測和形態(tài)學對織物疵點進行了檢測,或采用數(shù)學形態(tài)學操作對鋼板表面缺陷進行了檢測[103]。但是,結構法只適合于紋理基元較大且排列規(guī)則的圖像;對于一般的自然紋理,因其隨機性較強、結構變化大,難以用該方法來準確描述,此時一般要與其他方法聯(lián)合使用。
4)模型法。模型法以圖像的構造模型為基礎,采用模型參數(shù)的統(tǒng)計量作為紋理特征,不同的紋理在某種假設下表現(xiàn)為模型參數(shù)取值的不同,如何采用優(yōu)化參數(shù)估計的方法進行參數(shù)估計是模型法研究的主要內容。典型的模型法有馬爾可夫隨機場(MRF)模型、分形模型和自回歸模型等。
(1)MRF模型。隨機場模型法試圖以概率模型來描述紋理的隨機過程,實質上是描述圖像像素對其鄰域像素的統(tǒng)計依賴關系,常見的隨機場模型有Markov模型、Gibbs模型等。
MRF模型將紋理圖像看用是一個隨機2維圖像場,并且假設像素的灰度級僅與鄰域內像素的灰度級有關,使用局部鄰域的條件分布描述作為對應隨機場的局部特征。MRF模型的優(yōu)點是能將局部特性與全局特性聯(lián)系起來,且有較好的抗噪性能。但基于Markov隨機場模型僅通過局部特征很難得到全局的聯(lián)合分布,Cohen[104]將Markov與高斯分布聯(lián)系起來,提出了使用高斯—馬爾可夫模型(GMRF,在檢驗過程中,被視為假設檢驗的問題源自高斯—馬爾可夫模型。
(2)分形模型。分形的概念是美籍數(shù)學家Mandelbrot首先提出的。很多自然圖像(如海岸線)其特征是極不規(guī)則、極不光滑的,但所有海岸線在形貌上卻是自相似的,即局部形態(tài)和整體形態(tài)的相似。具有自相似性的形態(tài)廣泛存在于自然界中,Mandelbrot把這些部分與整體以某種方式相似的形體稱為分形。1975年,Mandelbrot創(chuàng)立了分形幾何學。在此基礎上,形成了研究分形性質及其應用的科學,稱為分形理論。
Pentland[105]首次用分形有來描述紋理,認為自然界中的分形與圖像的灰度表示之間存在著一定的對應關系,指出分形維數(shù)是描述紋理的一個重要特征。分形模型中如何確定分數(shù)維是描述紋理的重要問題,常用的算法有Keller的盒維數(shù)、Sarkar等人提出的差分計盒法等。分形模型主要適用于具有自相似性的自然紋理。
徐科等人[106]將分形維數(shù)作為特征量,利用Peleg毯覆蓋法計算圖像在不同尺度下的分形維數(shù),通過尺度—分形維數(shù)曲線圖估計最優(yōu)尺度,用于對熱軋帶鋼表面缺陷的自動識別,取得了良好的效果。李慶中等人[107]基于分形特征進行水果缺陷快速識別研究,通過該方法提取的紋理特征不受光照強度變化的影響,且具有平移、旋轉和縮放不變性。
5)紋理特征提取算法比較。上述紋理特征提取方法各有其優(yōu)缺點,總的看來,可以從以下幾個角度來估計其優(yōu)勢和不足:計算的復雜度,是否利用了全局信息,是否具有多分辨特征及是否與人類視覺感受一致。
統(tǒng)計法方法簡單、易于實現(xiàn),特別是GLCM方法具有較強的適應性和魯棒性;但缺少圖像的全局信息,紋理尺度間像素的依賴關系難于發(fā)現(xiàn),沒有聯(lián)系人類的視覺模型。模型方法既考慮了紋理局部的隨機性,又考慮了紋理整體的規(guī)律性,靈活性較大,而且也研究了紋理的多分辨性;但模型的參數(shù)估計有一定的難度,而且計算量較大。信號方法能對紋理進行多分辨描述,能將空域和頻域相結合對紋理進行研究,也符合人類的視覺持征;但正交小波變換對高頻部分沒有進一步分解,而小波包對非規(guī)則紋理圖像的處理效果不佳,且計算量大。結構法只適合于紋理基元較大且排列規(guī)則的圖像;對于一般的自然紋理,因其隨機性較強、結構變化大,難以用該方法來準確描述。上述方法各有利弊,研究人員正試圖將不同的方法結合對紋理特征進行比較研究和融合提取。
2.3.2形狀特征提取
形狀特征人類視覺進行物體識別時所需要的關鍵信息之一,它不隨周圍的環(huán)境如亮度等因素的變化而變化,是一種穩(wěn)定信息;相對于紋理和顏色等底層特征而言,形狀特征屬于圖像的中間層特征。在2維圖像中,形狀通常被認為是一條封閉的輪廓曲線所包圍的區(qū)域。
對形狀特征的描述主要可以分為基于輪廓形狀與基于區(qū)域形狀兩類,區(qū)分方法在于形狀特征僅從輪廓中提取還是從整個形狀區(qū)域中提取。
1)基于區(qū)域的形狀特征?;趨^(qū)域的形狀特征是利用區(qū)域內的所有像素集合起來獲得用以描述目標輪廓所包圍的區(qū)域性質的參數(shù)。這些參數(shù)既可以是幾何參數(shù),也可以是密度參數(shù),還可以是區(qū)域2維變換系數(shù)或傅里葉變換的能量譜。基于區(qū)域的形狀特征主要有幾何特征、拓撲結構特征、矩特征等。
幾何特征包括區(qū)域簡單特征描述,如面積、周長、質心、分散度、矩形度、長寬比、方向等;還包括基于形狀相似性的特征,如區(qū)域的矩形度、圓形度、球形度、偏心率、面積周長比、細度,還有基于直方圖、基于飽和度、基于形態(tài)曲率和多邊形描述的形狀特征等。
拓撲結構特征不受圖像幾何畸變的影響,是一種不依賴于距離變化的全局特征。常用的拓撲結構特征是歐拉數(shù),即圖像目標區(qū)域連通組元的個數(shù)與目標區(qū)域的孔數(shù)之差,它表明圖像的連通性。
矩特征利用目標所占區(qū)域的矩作為形狀描述參數(shù),其計算要用到目標區(qū)域中所有相關的像素點,因此從全局描述了對象的整體特性。特征矩也可理解為將圖像目標函數(shù)投影到一組基函數(shù)上,根據(jù)基函數(shù)的特征,可將矩分為非正交矩和正交矩。非正交矩主要有幾何矩、復數(shù)矩、旋轉矩等。歸一化的中心矩對目標圖像平移、尺度變換具有不變性。Hu基于上述矩組合而成了7個經(jīng)典不變量,被稱為Hu不變矩[108],具有平移、旋轉和比例不變性。正交矩又分為連續(xù)正交矩和離散正交矩。連續(xù)正交矩主要有Zernike矩、偽Zernike矩、Legendre矩、正交Fourier-Mellin矩,離散正交矩主要有Chebyshev矩、Krawtchouk矩[109]。
2)基于輪廓的形狀特征?;谳喞男螤蠲枋龇菍Π鼑繕藚^(qū)域的輪廓的描述,主要有邊界特征法(邊界形狀數(shù)、邊界矩等)、簡單幾何特征(如周長、半徑、曲率、邊緣夾角)、基于變換域(如傅里葉描述符、小波描述符)、曲率尺度空間(CSS)、數(shù)學形態(tài)學、霍夫變換、小波描述符等方法。
基于輪廓的特征有如下優(yōu)點:輪廓更能反映人類區(qū)分事物的形狀差異,且輪廓特征所包含的信息較多,能減少計算的復雜度;但是,輪廓特征對于噪聲和形變比較敏感,有些形狀應用中無法提取輪廓信息。
2.3.3顏色特征提取
顏色特征是人類感知和區(qū)分不同物體的一種基本視覺特征,是一種全局特征,描述了圖像或圖像區(qū)域所對應的景物的表面性質。顏色特征對于圖像的旋轉、平移、尺度變化都不敏感,表現(xiàn)出較強的魯棒性。顏色模型主要有HSV、RGB、HSI、CHL、LAB、CMY等。常用的特征提取與匹配方法如下:
1)顏色直方圖。顏色直方圖(colorhistogram)是最常用的表達顏色特征的方法,它能簡單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,特別適用于描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像,且計算簡單,對圖像中的對象的平移和旋轉變化不敏感;但它無法描述圖像中顏色的局部分布及每種色彩所處的空間位置。
當顏色特征并不能取遍所有取值時,在統(tǒng)計顏色直方圖時會出現(xiàn)一些零值,這些零值對計算直方圖的相交帶來很大影響,使得計算的結果不能正確反映兩幅圖像之間的顏色差別。為解決上述問題,可利用累積直方圖法。
2)顏色集。顏色直方圖法是一種全局顏色特征提取與匹配方法,無法區(qū)分局部顏色信息。顏色集是對顏色直方圖的一種近似,首先將圖像從RGB顏色空間轉化成視覺均衡的顏色空間(如HSV空間),并將顏色空間量化成若干個柄(bin)。然后,用色彩自動分割技術將圖像分為若干區(qū)域,每個區(qū)域用量化顏色空間的某個顏色分量來索引,從而將圖像表達為一個二進制的顏色索引集。在圖像匹配中,比較不同圖像顏色集之間的距離和色彩區(qū)域的空間關系。因為顏色集表達為二進制的特征向量,可經(jīng)構造二分查找樹來加快檢索速度,這對于大規(guī)模的圖像集合十分有利。
3)顏色矩。顏色矩(colormoments)是另一種簡單而有效的顏色特征提取與匹配方法。該方法的數(shù)學基礎在于:圖像中任何的顏色分布均可以用它的矩來表示。由于顏色分布信息主要集中在低階顏色矩中,因此僅采用顏色的一階中心矩、二階中心矩和三階中心矩就可以表達圖像的顏色特征,它們分別表示圖像的平均顏色、標準方差和三次根非對稱性。該方法的另一個優(yōu)點是它無需對顏色特征進行向量化。但因為沒有考慮像素的空間位置,該方法仍存在精確度和準確度不足的缺點。
4)顏色聚合向量。其核心思想是:將屬于直方圖每一個柄的像素分成兩部分,如果該柄內的某些像素所占據(jù)的連續(xù)區(qū)域的面積大于給定的閾值,則該區(qū)域內的像素作為聚合像素,否則作為非聚合像素。
在目前圖像處理的硬件條件下,直接對彩色圖像的處理與分析是復雜而又耗時的,因此對彩色圖像的處理通常都是先轉化為灰度圖像,然后再按照灰度圖像處理方法進行處理。
2.3.4特征的選擇
圖像的特征提取及其選擇的目的是為了提高后續(xù)圖像識別的準確性和魯棒性。圖像的特征提取實現(xiàn)了從圖像空間到特征空間的轉換,但是并非所有的特征都對后續(xù)的圖像識別和分類有作用。如果特征提取的數(shù)量多,使得特征向量有較高的維數(shù),這些高維特征中很可能存在冗余信息,從而導致圖像處理結果的精確度下降;圖像特征維度過高,還會使圖像處理算法的復雜度高導致“維度災難”。因此,對于高維圖像特征,為了降低所提取圖像特征維數(shù)之間的相關性,需要消除圖像特征之間的依賴性,即降維處理,也就是從圖像原始特征中找出真正有用的特征,以降低圖像處理算法的復雜度,并提高處理速度和結果的精確度,這個處理過程就是特征的選擇。
很多特征選擇問題被認為是NP問題,因此,人們一般只能尋找特定問題的評價標準來保證所選擇的特征是最優(yōu)的,這也就造成了目前特征選擇方法眾多。目前,特征選擇的方法包括:主成分分析法(PCA)、獨立成分分析法(ICA)、Fisher分析法(FDA)、相關分析法(CFS)、自組織映射法(SOM)、Relief法、遺傳算法、模擬退火法、Tabu搜索法及基于流行的非線性降維方法等。
PCA由Pearson首先引入,后來由Hotelling進行了發(fā)展。PCA是一種數(shù)學降維方法,其基本原理通過研究指標參數(shù)之間的相關性,尋求幾個綜合指標來代替原來眾多的指標,使這些綜合指標彼此之間互不相關且能盡可能地代表原來的信息量,并具有最大的方差;通過壓縮變量個數(shù),用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息,即將許多相關性很高的變量轉化成個數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨立的幾個新變量,即所謂的主成分。
PCA設法將原來眾多具有一定相關性個指標,重新組合成一組新的互相無關的綜合指標來代替原來的指標。將選取的第一個線性組合即第一個綜合變量方差最大、信息最多,稱為第一主成分;如果第一主成分不足以代表原來個變量的信息,再選取第二個線性組合即第二主成分,依此類推。
PCA是一種線性組合方法,它能在盡可能好的代表原始數(shù)據(jù)的前提下,能過線性變換將高維空間的樣本數(shù)據(jù)投影到低維空間,因其計算簡單且便于分析而應用廣泛。
如果基于最小MSE來降低特征向量的維數(shù),則PCA的結果是最優(yōu)的,但因PCA所獲得的特征向量的各分量之間是不相關的,故PCA無法滿足特征向量的各分量之間是統(tǒng)計獨立的。獨立成分分析(ICA),最早應用于盲源信號分離(BBS)。ICA方法最早是由法國的Herault和Jutten于80年代中期提出來的,ICA理論的基本思想是從一組混合的觀測信號中分離出獨立信號,或者盡可能獨立的信號對其他信號進行表征。
ICA的主要任務是給定一個維特征向量,確定一個×的變換矩陣(分離矩陣),使得變換后的向量的各分量滿足互相統(tǒng)計獨立的特性。ICA方法的關鍵是如何快速求取最優(yōu)的分離矩陣,根據(jù)求取分離矩陣的方法,ICA算法有Infomax算法、峰度估計法、快速ICA算法等。
PCA和ICA所形成的新特征各分量之間是互不相關或是統(tǒng)計獨立的,從理論上等價于使得二階或高階交叉累積量最小。如果根據(jù)二階或高階交叉累積量構造一個準則函數(shù),則特征優(yōu)化問題可理解為基于準則函數(shù)進行特征的優(yōu)化,即通過最小化的準則函數(shù),在概率意義上計算出問題的全局最優(yōu)解,基于組合優(yōu)化的特征選擇就是基于上述原理的,常用的組合優(yōu)化算法有遺傳算法、模擬退火算法和Tabu搜索算法等。
遺傳算法(GA)是由美國Michigan大學的Holland教授根據(jù)Darwin的生物進化論和Mendel的遺傳變異理論提出的一種基于種群搜索的優(yōu)化算法。其思想是隨機產生初始種群,通過選擇(reproduction)、交叉(crossover)和變異(mutation)等遺傳算子的共同作用使種群不斷進化,最終得到最優(yōu)解。
基于遺傳算法的缺陷特征優(yōu)化的基本思想是:先對待尋優(yōu)的缺陷特征參數(shù)進行編碼,按一定規(guī)模初始化種群,種群中的每一個體就代表了一個可能的解;然后根據(jù)適應度值函數(shù)計算每一個體的適應度值并依此決定遺傳操作,再按一定的概率對種群進行交叉、變異,直至滿足終止條件結束。
模擬退火算法是一種求解在規(guī)模組合優(yōu)化問題的隨機性方法,它以優(yōu)化問題的求解與物理系統(tǒng)退火過程的相似性為基礎,利用metropolis算法并適當控制溫度的下降過程實現(xiàn)模擬退火,從而得到全局最優(yōu)解。文獻[110]提出了一種基于自適應模擬退火算法的特征選擇方法,該方法將模擬退火算法嵌入到自適應遺傳算法的循環(huán)體中,避免陷入局部最優(yōu)解。
Tabu搜索法最早由美國Glover教授提出,它是對局部領域搜索的一種擴展,是一種全局逐步尋優(yōu)算法。Tabu搜索法從一個初始可行解出發(fā),選擇一系列的特定搜索方向作為試探,選擇實現(xiàn)讓特定的目標函數(shù)值變化最多的搜索。為了避免陷入局部最優(yōu)解,采用了一種靈活的“記憶”技術,對已經(jīng)進行的優(yōu)化過程進行記錄和選擇,指導下一步的搜索方向。為了能夠逃出局部極值和避免循環(huán),算法中設置了禁止表,當搜索的解在禁止表中時,則放棄該解。Tabu搜索法可以靈活地使用禁止表記錄搜索過程,從而使搜索既能找到局部最優(yōu)解,同時又能越過局部極值得到更優(yōu)的解。
PCA和ICA等線性降維方法簡潔直觀、數(shù)學推導嚴謹,可較好的發(fā)現(xiàn)高維向量空間的線性子空間上的數(shù)據(jù)集的內部幾何結構,具有廣泛的應用。但線性降維方法難以解決高維空間的非線性流形學習問題。為此,基于流行學習的非線性降維方法也受到了科研者們的廣泛關注,主要有局部線性嵌入(LLE)方法、局部保持映射法(LPP)、Isomap方法等。這些算法首先根據(jù)給定的樣本數(shù)據(jù)集,定義一個描述成數(shù)據(jù)點相似度的關系矩陣,然后計算這個矩陣的特征值和特征向量,選擇合適的特征向量投影到低維空間,從而得到低維嵌入向量。因所構建的關系矩陣不同,故有不同的算法。
2.4表面缺陷目標識別算法
統(tǒng)計模式識別(statisticalpatternrecognition)和句法(結構)模式識別(syntacticpatternrecognition)是兩種基本的模式識別方法。前者是模式的統(tǒng)計分類方法,即結合統(tǒng)計概率的貝葉斯決策系統(tǒng)進行模型識別的技術,又稱為決策理論識別方法;后者的基本思想是把一個模式描述為較簡單的子模式的組合,子模式又可進一步描述為更簡單的子模式的組合,最終得到一個樹狀結構描述,利用模式與子模式分層結構的樹狀信息完成模式識別任務。數(shù)字圖像的識別問題通常適用于統(tǒng)計模式識別,而句法模式識別主要用于遙感圖像識別、文字識別等,目前,基于機器視覺的表面缺陷識別主要涉及統(tǒng)計模式識別。
統(tǒng)計模式識別按其實現(xiàn)方式又分為有監(jiān)督學習的模式識別和無監(jiān)督學習的模式識別。前者是在已知類別標簽的特征集(即訓練集)基礎上進行分類器構建;后者也稱為聚類,該方法不需要已知類別的訓練集,分類器直接根據(jù)特征向量之間的相似性,將待分類的特征向量集合分為若干個子集。
2.4.1有監(jiān)督學習的模式識別
監(jiān)督模式識別主要有基于概率統(tǒng)計的分類器、線性分類器、人工神經(jīng)網(wǎng)絡分類器和支持向量機等。
1)基于概率統(tǒng)計的分類器?;诟怕式y(tǒng)計的分類方法主要有基于最小錯誤率的貝葉斯決策、基于最小風險的貝葉斯決策。使用貝葉斯決策首先需要得到有關樣品的總體分布知識,包括各類先驗概率及類條件概率密度函數(shù),計算出樣品的后驗概率,并以此作為判別函數(shù)的必要數(shù)據(jù),設計出相應的判別函數(shù)及決策面。貝葉斯分類器可給出數(shù)學上的嚴格證明,在給出某些變量的條件下使分類的平均損失最小或是分類決策風險最小。盡管貝葉斯決策規(guī)則從理論上解決了最優(yōu)分類器的設計問題,但其實施時樣本特征空間的類條件概率密度形式一般很難確定,而利用Parzen窗等非參數(shù)方法估計分布又往往需要大量的樣本,所以貝葉斯決策規(guī)則更多是具有理論上的指導意義,一般適用于有統(tǒng)計知識的場合,或是能利用訓練樣品估計出參數(shù)的場合。
張宏杰等人[111]基于貝葉斯圖像模式識別技術的點焊質量評估,利用主成分分析消除圖像特征間的互相關性,建立了基于最小風險貝葉斯圖像識別技術的焊點質量分類器,有效地評判焊點質量;蘇芳等人[112]通過貝葉斯理論進行多通道SAR圖像測量級數(shù)據(jù)融合,充分利用像素的從屬信息并獲得單通道分類無法獲取的分類結果,有效保留各通道有用信息并抑制圖像中的斑點噪聲。
2)線性分類器。在實際應用中,往往不去求類條件概率密度,而是利用樣本集直接設計分類器,即給定某個判別函數(shù),利用樣本集確定判別函數(shù)中的未知參數(shù),即判別函數(shù)分類法。判別函數(shù)分類方法按其判別函數(shù)的形式可分為線性分類法和非線性分類法。前者主要有Fisher分類算法、感知算法LMSE分類算法等;后者主要有分段線性判別函數(shù)法(如近鄰分類法、最小距離法)、基于核的Fisher分類算法、勢函數(shù)法和支持向量機方法等。線性分類器算法簡單,在計算機上實現(xiàn)容易,在模式識別中得到了廣泛應用;對于模式識別的非線性問題,則用非線性分類器。
K最近鄰(KNN)分類算法是最簡單的機器學習算法之一,其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。Lopez等人[113]使用KNN分類方法提取各通道的顏色特征進行瓷磚表面質量的分類;Mandriota等人[114]采用KNN算法結合和小波系數(shù)對軌道表面質量進行檢測;Wiltschi等人[115]則基本最小距離分類方法對鋼板圖像進行表面質量檢測;Pernkopf等人[116]采用耦合隱馬爾可夫隨機場合進行似然計算,結合貝葉斯網(wǎng)絡分類器進行了鋼坯表面缺陷檢測。
3)人工神經(jīng)網(wǎng)絡。人工神經(jīng)網(wǎng)絡(ANN)是一種應用類似于大腦神經(jīng)突觸聯(lián)接的結構進行信息處理的數(shù)學模型,是在現(xiàn)代神經(jīng)科學研究成果的基礎上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡處理、記憶信息的方式進行信息處理。
ANN是由大量處理單元互聯(lián)組成的非線性、自適應信息處理系統(tǒng)。1943年,心理學家McCulloch和數(shù)理邏輯學家Pitts建立了神經(jīng)網(wǎng)絡和數(shù)學模型,稱為MP模型。60年代,人工神經(jīng)網(wǎng)絡得到了進一步發(fā)展,更完善的神經(jīng)網(wǎng)絡模型被提出,其中包括感知器和自適應線性元件等。20世紀80年代,美國加州工學院物理學家Hopfield提出了Hopfield神經(jīng)網(wǎng)絡模型,為神經(jīng)計算機的研究做了開拓性的工作。不久,Rumelhart,Hinton,Williams發(fā)展了BP算法,迄今,BP算法已被用于解決大量實際問題。繼而,Broomhead和Lowe用徑向基函數(shù)(RBF)提出分層網(wǎng)絡的設計方法。20世紀90年代初,Vapnik等提出了支持向量機(SVM)和VC(Vapnik-Chervonenkis)維數(shù)的概念。目前,已有近40種神經(jīng)網(wǎng)絡模型。
人工神經(jīng)網(wǎng)絡具有非線性、自適應、自組織、自學習能力、非局限性、非凸性和容錯性等一系列特點,故在信息處理、模式識別和智能控制等領域有著廣泛的應用前景。與其他技術的結合取長補短,以及由此而來的混合方法和混合系統(tǒng),已成為一大研究熱點。目前這方面工作有神經(jīng)網(wǎng)絡與模糊邏輯、專家系統(tǒng)、遺傳算法、小波分析、混沌、粗糙集理論、分形理論、證據(jù)理論和灰色系統(tǒng)等的融合,并取得了一定的成果。
4)支持向量機。人工神經(jīng)網(wǎng)絡方法具有一系列的優(yōu)點,但有時也存在泛化能力不強、算法耗時較多、往往需要有較多訓練樣本等問題。支持向量機(SVM)是Vapnik根據(jù)統(tǒng)計學習理論于1995年提出的,它采用結構風險最小化(SRM)而非經(jīng)驗風險最小化(ERM)原理,通過將樣本點所在的輸入空間映射到高維的特征空間,以達到線性可分或者線性近似可分的目的。
所謂支持向量是指那些在間隔區(qū)邊緣的訓練樣本點,支持向量機與神經(jīng)網(wǎng)絡類似,都是學習型的機制,但與神經(jīng)網(wǎng)絡不同的是SVM使用的是數(shù)學方法和優(yōu)化技術,而且在傳統(tǒng)的最優(yōu)化問題中提出了對偶理論,主要有最大最小對偶及拉格朗日對偶。
支持向量機是一種有堅實理論基礎的小樣本學習方法,其最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復雜性取決于支持向量的數(shù)目而不是樣本空間的維數(shù)。SVM的關鍵在于核函數(shù),低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間,只要選用適當?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),這在某種意義上避免了“維數(shù)災難”;而且少數(shù)支持向量決定了最終結果,這樣可以剔除大量冗余樣本,所以算法簡單而且具有較好的魯棒性。支持向量機理論在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,在表面檢測、模式識別、故障診斷等方面有成功的應用,并表現(xiàn)出很高的有效性和魯棒性。
2.4.2無監(jiān)督學習的模式識別
無監(jiān)督學習的模式識別的訓練樣本沒有類別標簽,主要以聚類分組來揭示模式結構,也稱聚類。聚類是一個將數(shù)據(jù)集劃分為若干組或簇的過程,使得同一類的數(shù)據(jù)對象之間的相似度較高,而不同類的數(shù)據(jù)對象之間的相似度較低。
目前出現(xiàn)了大量的聚類算法,其選擇取決于數(shù)據(jù)的類型、聚類的目的。主要的聚類算法可以劃分為如下幾類:劃分方法、層次方法、密度方法、網(wǎng)格方法以及模型方法。
1)劃分方法。劃分法(partitioningmethods)是聚類分析中最為常見的一種方法,其目的是將給定的數(shù)據(jù)對象集通過劃分操作分成若干分組,每一個分組表示一個聚類。劃分時需要預先指定聚類數(shù)目或聚類中心,通過反復迭代運算,逐步降低目標函數(shù)的誤差值,當目標函數(shù)值收斂時,得到最終聚類結果。常用的劃分法有:K-means、K-medoids、CLARA、CLARANS、K-prototypes等。
K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。將K-means方法與其他技術結合可以提高K-means方法的聚類能力,文獻[117]結合遺傳算法一定程度上解決了全局最優(yōu)或近似最優(yōu)解的問題;文獻[118]將免疫算法與K-means聚類相結合,提出了基于免疫規(guī)劃的K-means聚類分析方法;文獻[119]利用用窗口技術提高了K-means方法的聚類分析能力;文獻[120]在聚類分類數(shù)據(jù)中應用禁忌搜索技術;此外,文獻[121]提出了一種模糊K-prototypes算法,該算法融合了K-means和K-modes對數(shù)值型和分類型數(shù)據(jù)的處理方法,能夠處理混合類型的數(shù)據(jù);文獻[122]中將模糊數(shù)學理論與K-means算法融合,對K-means算法進行了有效改進。
2)層次方法。層次法(HierarchicalMethods)也稱為樹聚類算法,層次聚類是將數(shù)據(jù)對象集分解成幾級逐級進行聚類,遞歸地對給定的數(shù)據(jù)對象集進行合并或分解,直到滿足限制條件為止,其聚類結果最終以類別樹的形式顯示。層次方法根據(jù)分解方式的不同可以分為凝聚式(agglomerative)和分裂式(division)。層次算法不需要預先指定聚類的數(shù)目,但是在凝聚或分裂的層次聚類算法中,用戶可以預先定義希望得到的聚類數(shù)目作為算法的結束條件,當該條件達到滿足時,算法將終止。其代表算法有:BIRCH、CURE、CHAMELEON、ROCK、SBAC和BUBBLE等。
層次聚類的優(yōu)點體現(xiàn)在算法能得到不同粒度的多層次聚類結構,缺陷在于沒有全局優(yōu)化的目標函數(shù),合并或分裂點的選擇比較困難,對噪聲、孤立點數(shù)據(jù)比較敏感,不適于非凸型分布的數(shù)據(jù)對象集等。為此,研究者們給出了一些改進算法,如將層次聚類和其他的聚類分析技術進行集成,形成多階段聚類等。
3)密度方法。密度方法(density-basedmethods)的指導思想是,只要一個區(qū)域中的點的密度大于某個閾值,就把它加到與之相近的聚類中去,即通過數(shù)據(jù)密度(單位區(qū)域內的實例數(shù))來發(fā)現(xiàn)任意形狀的類簇。該方法與其他方法的一個根本區(qū)別是:它不是基于距離的,而是基于密度的,這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。其代表算法有:DBSCAN、OPTICS、DENCLUE、GDBSCAN、FDC算法等。
基于密度的聚類算法的優(yōu)點是一遍掃描,并可以很好的過濾噪聲和孤立點數(shù)據(jù),發(fā)現(xiàn)任意形狀、不定個數(shù)的類;其缺點是算法復雜度較高,對于密度分布不均的數(shù)據(jù)集聚類效果不佳。
4)網(wǎng)格方法。基于網(wǎng)格的方法采用一個網(wǎng)格數(shù)據(jù)結構,該結構具有多分辨率,通過這個數(shù)據(jù)結構可以將對數(shù)據(jù)對象的處理轉化為對網(wǎng)格空間的處理。這種方法首先將數(shù)據(jù)空間劃分成為有限個單元的網(wǎng)格結構,然后通過算法對網(wǎng)格空間進行分割進而實現(xiàn)聚類的目的。此聚類算法常常與其他方法相結合,特別是與基于密度的聚類方法相結合。其代表算法有:在高維數(shù)據(jù)空間中基于網(wǎng)格和密度相結合的聚類方法(CLIQUE算法),基于小波變換的聚類方法(Wave-Cluster算法),利用存儲在網(wǎng)格中的統(tǒng)計信息的STING算法。
基于網(wǎng)格的方法的主要優(yōu)點是執(zhí)行速度快,它的時間復雜度僅依賴于量化空間中每一維上的單元數(shù)目;但該算法因網(wǎng)格單元的數(shù)目隨著維數(shù)的增加而呈指數(shù)的增長故不適于高維數(shù)據(jù),而且高效率以聚類結果的精確性為代價。
5)圖論算法。圖論分裂聚類算法的主要思想是:構造一棵關于數(shù)據(jù)的最小生成樹,通過刪除最小生成樹的最長邊來形成類.基于圖論的聚類算法主要包括RANDOMWALK、CHAMELEON、AUTOCLUST等。
6)模型算法?;谀P偷姆椒ńo每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其他。該方法基于目標數(shù)據(jù)集由一系列的概率分布所決定這一假設,通過構造反映數(shù)據(jù)對象空間分布的密度函數(shù)來進行聚類。該算法通常分為兩種:基于統(tǒng)計學的方法和基于神經(jīng)網(wǎng)絡的方法。前者主要有以分類樹的形式創(chuàng)建層次聚類的COBWEB算法及其擴展COBWEB算法;后者主要有競爭學習型和自組織特征映射型(SOM)等[123]。
以上傳統(tǒng)的聚類方法都具有各自的優(yōu)點,在各自的適用領域取得了較大的成功。但是,這些聚類方法也存在以下問題:在進行聚類之前都需要事先確定要得到的聚類的數(shù)目,然而在現(xiàn)實數(shù)據(jù)中,聚類的數(shù)目往往是未知的;處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)的能力、計算效率、有效的消除噪聲的影響等方面都有待于提高;此外,有的聚類算法對輸入?yún)?shù)的取值十分敏感,而且參數(shù)的取值沒有成熟的理論依據(jù),只能依靠用戶的經(jīng)驗來確定。除上述聚類方法外,學者們還研究了其他大量的聚類方法,下面列出了幾類:
1)模糊聚類方法。1969年,Ruspini首次提出了模糊聚類算法(FCM)。FCM是一種以隸屬度來確定每個數(shù)據(jù)點屬于某個聚類程度的算法,能保留初始圖像的更多信息。然而,F(xiàn)CM沒有考慮圖像上下文中的空間信息,對噪聲較敏感。學者們圍繞FCM算法開展了大量研究,比如,李潔等人[124]采用ReliefF算法[125]確定各維特征的權重,提出了基于特征加權的模糊聚類新算法NFWFCA;Cai等人[126]結合局部空間和灰度信息,提出快速通用FCM聚類算法FGFCM,該算法計算簡單,適合大幅灰度圖像和有噪聲和無噪聲的多種類型圖像;唐利明等人[127]結合變分水平集方法和模糊聚類,提出了一個基于變分水平集的圖像聚類分割模型,該模型引入了一個基于圖像局部信息的外部模糊聚類能量和一個新的關于零水平集的正則化能量,使得該模型對噪聲圖像的聚類分割更具魯棒性;王雪等人[128]提出一種多相水平集模型協(xié)同空間模糊C-均值聚類(SFCM)的圖像多目標分割算法,即SFCM-MLS算法,用空間模糊聚類獲取圖像多目標粗分割結果,然后用粗分割結果定義多相水平集模型的初始水平集函數(shù)對圖像做精分割,SFCM-MLS算法對初始位置不敏感,提高了圖像多目標分割的準確性。
2)迭代自組織數(shù)據(jù)分析算法。迭代自組織數(shù)據(jù)分析算法(ISODATA)的主要思想是首先根據(jù)最小距離準則獲得初始聚類,再判斷初始聚類結果是否符合要求。若不符合,則將聚類集進行分裂和合并處理,得到新的聚類中心,再判斷聚類結果是否符合要求。如此反復迭代直到完成聚類操作。ISODATA與K-MEANS一樣,聚類中心的位置通過樣本均值的迭代運算決定,但ISODATA聚類中心數(shù)目不是固定的,而且反復修正,在迭代過程中可將一類一分為二,也可以兩類合并,即“自組織”。ISODATA具有啟發(fā)性、計算并不復雜,適用于識別致密聚類。時靜潔等人[129]將ISODATA與蟻群算法(ACO)算法相結合,建立相關模型對有機化合物的黏度進行QSPR研究,解決了小樣本、非線性和維數(shù)災難等問題。
3)模擬退火聚類算法。模擬退火算法(SA)最初由Metropolis等人于20世紀80年代初提出,其思想源于物理中固體物質退火過程與一般組合優(yōu)化問題之間的相似性,通過模擬高溫物體退火過程的方法來找到優(yōu)化問題的全局最優(yōu)或近似全局最優(yōu)解。SA是一種啟發(fā)式隨機搜索算法,具有并行性和漸近收斂性,目前已廣泛應用于圖像識別、機器學習、神經(jīng)網(wǎng)絡等優(yōu)化問題。如張引、潘云鶴[130]采用模擬退火技術求解最大似然聚類用于圖像分割,解決了用迭代方法求解最大似然聚類只能得到局部最優(yōu)解的問題.獲得的圖像分割效果優(yōu)于迭代方法和著名的Otsu方法;Neethirajan等人[131]基于模擬退火算法對儲糧害蟲進行了識別分類。
4)粗糙集方法。粗糙集理論是波蘭科學家Pawlak提出的,它是一種新型的處理模糊和不確定知識的數(shù)學工具,揭示潛在的規(guī)律能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并能從中發(fā)現(xiàn)隱含的知識和揭示潛在的規(guī)律[132-133]。它提供了一套比較完備的從小樣本數(shù)據(jù)中尋找規(guī)律的系統(tǒng)方法,用其可找到描述正常模型的最小預測規(guī)則集,其不僅有利于提高檢測速度,而且可應用于系統(tǒng)的實時檢測。
目前,粗糙集理論已經(jīng)在數(shù)據(jù)的決策和分析、模式識別、機器學習等方面有著成功的應用,已成為信息科學最活躍的研究領域之一。如文獻[134]基于RS理論對帶鋼表面缺陷圖像進行了識別分類,并同BP算法進行了對比,驗證了基于粗糙集的分類識別算法的有效性。
此外,蟻群聚類算法、粒子群聚類算法、基于遺傳算法的聚類方法、基于核的聚類算法等得到應用,廣大學者們正致力于具有聚類能力強、自適應、效率高等特點的聚類算法研究,并注重將不同的聚類思想進行融合以形成新的聚類等新算法。如,王孫安等人[135]提出一種混沌免疫模糊聚類算法,該算法把混沌變量加載于免疫算法的變量群體中,利用混沌搜索的特點對群體進行微小擾動并逐步調整擾動幅度,提高了基于人工免疫進化算法的模糊聚類算法的搜索效率;吳一全等人[136]提出了一種利用核模糊C均值聚類和正則化的圖像稀疏去噪方法,更有效地去除圖像噪音,保留圖像細節(jié),改善圖像視覺效果;Nunes應用一種人工免疫進化網(wǎng)絡用于聚類[137]。
3主要問題和發(fā)展趨勢
基于機器視覺的表面缺陷檢測將是未來研究和發(fā)展的主要方向,目前,基于機器視覺的表面缺陷檢測理論研究和實際應用等環(huán)節(jié)均有可喜的成果,但仍存在下面主要的問題和難點:
1)受環(huán)境、光照、生產工藝和噪聲等多重因素影響,檢測系統(tǒng)的信噪比一般較低,微弱信號難以檢出或不能與噪聲有效區(qū)分。如何構建穩(wěn)定、可靠、魯棒的檢測系統(tǒng),以適應光照變化、噪聲以及其他外界不良環(huán)境的干擾,是要解決的問題之一。
2)由于檢測對象多樣、表面缺陷種類繁多、形態(tài)多樣、復雜背景,對于眾多缺陷類型產生的機理以及其外在表現(xiàn)形式之間的關系尚不明確,致使對缺陷的描述不充分,缺陷的特征提取有效性不高,缺陷目標分割困難;同時,很難找到“標準”圖像作為參照,這給缺陷的檢測和分類帶來困難,造成識別率尚有待提高。
3)機器視覺表面缺陷檢測,特別是在線檢測,其特點是數(shù)據(jù)量龐大、冗余信息多、特征空間維度高,同時考慮到真正的機器視覺面對的對象和問題的多樣性,從海量數(shù)據(jù)中提取有限缺陷信息的算法能力不足,實時性不高。
4)與機器視覺表面檢測密切相關的人工智能理論雖然得到了很大的發(fā)展,但如何模擬人類大腦的信息處理功能去構建智能機器視覺系統(tǒng)還需要理論上的進一步研究,如何更好的基于生物視覺認識、指導機器視覺得檢測也是研究人員的難點之一。
5)從機器視覺表面檢測的準確性方面來看,盡管一系列優(yōu)秀的算法不斷出現(xiàn),但在實際應用中準確率仍然與滿足實際應用的需求尚有一定差距,如何解決準確識別與模糊特征之間、實時性與準確性之間的矛盾仍然是目前的難點。
隨著計算機技術、信息技術、電子技術、傳感器技術和仿生技術等的發(fā)展,機器視覺檢測方法也必將得到迅速的發(fā)展。技術和市場需求等因素決定了機器視覺表面缺陷檢測的發(fā)展趨勢為:
1)MARR理論對計算機視覺發(fā)揮了巨大作用,其核心是將視覺理解為3D重建的過程。但是,從3D場景到2D圖像是一個多對一的映射,在映射的過程中損失了深度信息;灰度是對場景的惟一的測量值,諸如光照、材料特性、朝向和距離等信息都無法反映;成像中由于噪聲及環(huán)境等因素的干擾,都會使圖像產生失真。為此,需要研究視覺檢測新理論和新方法,如發(fā)展主動視覺、增強視覺系統(tǒng)的智能學習能力等。
2)從生物視覺得到啟發(fā),吸收來自心理學、生理學等其他學科中生物視覺的最新研究成果,基于生物視覺機制為視覺檢測提供研究新思路,模仿生物視覺多尺度、層次性的視覺特點,結合視覺任務,引入先驗高級知識的指導,同時將機器視覺、機器聽覺、機器嗅覺、機器觸覺等多信息相互融合,突破單一視覺信息的局限性,也將成為機器視覺檢測的發(fā)展方向之一。
3)研究更具魯棒性的圖像處理和分析算法,提高圖像處理的有效性和和執(zhí)行效率,降低算法的復雜度,提高識別的準確性。在在線檢測系統(tǒng)中,要特別注重實時性,視覺本身具有內在的并行性,為此,還在要理論、算法和技術等多方面研究視覺并行計算,提高視覺計算的速度。同時,進一步研究算法性能的評價方法,以對算法的效率和性能作了科學、準確的刻化和評價。
4)研究完整3維場景重建方法?,F(xiàn)有3維場景重建理論和算法基本都局限于對目標“可視”部分的重構,如果用Marr視覺計算理論來說,還主要停留在2.5維表達上,這種表達僅提供了物體可見輪廓以內的3維信息。如何恢復物體完整表面的信息,即包括物體表面不可見部分,是一個復雜但也亟待解決的問題。
5)采用統(tǒng)一而開放的標準,構建標準化、一體化和通用化的解決方案,標準化與個性化的進一步統(tǒng)一,研發(fā)可靠性高、維護性好、便于不斷完善和升級換代、網(wǎng)絡化、自動化和智能化更高的機器視覺系統(tǒng)是今后的發(fā)展趨勢。
4結論
機器視覺系統(tǒng)的研究和應用范圍涵蓋了工業(yè)、農業(yè)、醫(yī)藥、軍事、交通和安全等國民經(jīng)濟的各個領域,基于機器視覺的產品表面質量檢測在現(xiàn)代自動化生產中得到了越來越多的重視和應用。
機器視覺表面缺陷檢測系統(tǒng)中,圖像處理和分析算法是重要的內容,通常的流程包括圖像的預處理、目標區(qū)域的分割、特征提取和選擇及缺陷的識別分類。每個處理流程都出現(xiàn)了大量的算法,這些算法各有優(yōu)缺點和其適應范圍。如何提高算法的準確性、執(zhí)行效率、實時性和魯棒性,一直是研究者們努力的方向。
機器視覺表面檢測比較復雜,涉及眾多學科和理論,機器視覺是對人類視覺的模擬,但是目前對人的視覺機制尚不清楚,盡管每一個正常人都是“視覺專家”,但難以用計算機表達自己的視覺過程,因此構建機器視覺檢測系統(tǒng)還要進一步通過研究生物視覺機理來完善,使檢測進一步向自動化和智能化方向發(fā)展。
機器視覺表面檢測比較復雜,涉及眾多學科和理論,機器視覺是對人類視覺的模擬,但是目前對人的視覺機制尚不清楚,盡管每一個正常人都是“視覺專家”,但難以用計算機表達自己的視覺過程,因此構建機器視覺檢測系統(tǒng)還要進一步通過研究生物視覺機理來完善,使檢測進一步向自動化和智能化方向發(fā)展。