卷積神經網絡的優化范文
時間:2024-04-08 18:05:46
導語:如何才能寫好一篇卷積神經網絡的優化,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
1概述
深度學習(Deep Learning)是人工智能、圖像建模、模式識別、神經網絡、最優化理論和信號處理等領域的交叉學科,主要構建和模擬人腦進行分析學習,它屬于機器學習的新興領域。
2大數據與深度學習
目前,光學檢測、互聯網、用戶數據、互聯網、金融公司等許多領域都出現了海量數據,采用BP算法對于訓練神經網絡出現了梯度越來越稀疏、收斂到局部最小值只能用有標簽的數據來訓練等缺點。Hinton于2006年提出了深度學習的概念,Lecun等人提出了卷積神經網絡,卷積神經網絡利用空間關系減少參數數目以提高訓練性能。
CPU和GPU計算能力大幅提升,為深度學習提供了硬件平臺和技術手段,在海量大數據處理技術上解決了早期神經網絡訓練不足出現的過擬合、泛化能力差等問題。
大數據和深度學習必將互相支撐,推動科技發展。
3深度學習模型
深度學習模型實際上是一個包含多個隱藏層的神經網絡,目前主要有卷積神經網絡,深深度置信神經網絡,循環神經網絡。
1)卷積神經網絡
在機器學習領域,卷積神經網絡屬于前饋神經網絡的一種,神經元不再是全連接的模式,而是應用了局部感受區域的策略。然而傳統的神經網絡使用神經元間全連接的網絡結構來處理圖像任務,因此,出現了很多缺陷,導致模型⑹急劇增加,及其容易過擬合。
在卷積神經網絡中,網絡中的神經元只與前一層的部分神經元連接,利用圖像數據的空間結構,鄰近像素間具有更強的相關性,單個神經元僅對局部信息進行響應,相鄰神經元感受區域存在重疊,因此,綜合所有神經元可以得到全局信息的感知。
另外,一個卷積層中的所有神經元均由同一個卷積核對不同區域數據響應而得到,即共享同一個卷積核,使得卷積層訓練參數的數量急劇減少,提高了網絡的泛化能力。
一般在卷積層后面會進行降采樣操作,對卷積層提取的特征進行聚合統計。降采樣區域一般不存在重疊現象。降采樣簡化了卷積層的輸出信息,進一步減少了訓練參數的數量,增強了網絡的泛化能力。
卷積神經網絡實現了局部特征的自動提取,使得特征提取與模式分類同步進行,適用于處理高分辨率的圖像數據。目前,卷積神經網絡在圖像分類、自然語言處理等領域得到廣泛應用。
2)深度置信網絡
深度置信網絡是一種生成模型,網絡中有若干隱藏層,同一隱藏層內的神經元沒有連接,隱藏層間的神經元全連接。神經網絡經過“反向運行”得到輸入數據。
深度置信網絡可以用做生成模型,通過前期的逐層無監督學習,神經網絡可以較好的對輸入數據進行描述,然后把訓練好的神經網絡看作深度神經網絡,最后得到分類任務的深度神經網絡。
深度置信網絡可以用于圖像識別、圖像生成等領域,深度置信網絡可以進行無監督或半監督的學習,利用無標記數據進行預訓練,提高神經網絡性能。但近幾年由于卷積神經網絡的飛速發展,深度置信網絡已經很少被提及。
3)循環神經網絡
循環神經網絡是一種專門用于處理時序數據的神經網絡,它與典型的前饋型神經網絡最大區別在于網絡中存在環形結構,隱藏層內部的神經元是互相連接的,可以存儲網絡的內部狀態,其中包含序列輸入的歷史信息,實現了對時序動態行為的描述。這里的時序并非僅僅指代時間概念上的順序,也可以理解為序列化數據間的相對位置。如語音中的發音順序,某個英語單詞的拼寫順序等。序列化輸入的任務都可以用循環神經網絡來處理。如語音、視頻、文本等。對于序列化數據,每次處理時輸入為序列中的一個元素,比如單個字符、單詞、音節,期望輸出為該輸入在序列數據中的后續元素。循環神經網絡可以處理任意長度的序列化數據。
循環神經網絡可以用于機器翻譯、連寫字識別、語音識別等。循環神經網絡和卷積網絡結合,將卷積神經網絡用于檢測并識別圖像中的物體,循環神經網絡用于識別出物體的名稱為輸入,生成合理的語句,從而實現對圖像內容的描述。
4深度學習應用
1)語音識別
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。其應用領域主要有語音輸入系統、語音控制系統和智能對話查詢系統,語音識別極大地推動了人工智能的快速發展。1952年Davis等人研究了世界上第一個能識別10個英文數字發音的實驗系統。大規模的語音識別研究是在20世紀70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。2012年,微軟研究院使用深度神經網絡應用在語音識別上將識別錯誤率降低了20%,取得了突破性的進展。2015年11月17日,浪潮集團聯合全球可編程芯片巨頭Altera,以及中國最大的智能語音技術提供商科大訊飛,共同了一套DNN語音識別方案。
2)圖像分析
圖像是深度學習最早嘗試的應用領域。1989年,LeCun和他的同事們就發表了卷積神經網絡的工作。2012年10月,Hinton和他的兩個學生用更深的CNN在ImageNet挑戰上獲得了第一名,使圖像識別向前躍進了一大步。
自2012年以來,深度學習應用于圖像識別使得準確率大大上升,避免了消耗人工特征抽取的時間,極大地提升了效率,目前逐漸成為主流的圖像識別與檢測方法。
篇2
關鍵詞:智能消防;火焰識別;卷積神經網絡
一、智能裝備簡介
若想提高消防救援隊伍的滅火救援效能,提高裝備的智能化水平是必不可少的一步。消防裝備的配備情況影響著戰術和戰術效果,甚至是直接影響救援成功率的重要因素。因此,提升裝備的智能化水平、改善裝備結構從而提升消防救援隊伍的作戰能力是關系廣大人民群眾生命以及財產安全的重要手段。消防裝備智能化的研究工作任重而道遠。本文著眼于圖像法火焰識別技術,通過研究新技術,探討將其應用于智能消防裝備之中的可行性。
二、卷積神經網絡的簡介
(一)網絡結構。卷積神經網絡功能繁多,其中多層檢測學習神經網是一種多層次的神經監測網絡。其中心模塊為卷積層,主要由隱藏層與最大池采樣層組成,主要功能是特征提取。其中,連接層與傳統多層感應器的隱藏層、邏輯歸類器相對應。卷積神經網絡的輸入特征來源使卷積濾波器,而該神經網絡的每一層都有多個理論上的神經元以及特征圖。在給一個來自卷積和子采樣層的輸入統計濾波后,系統就提取了圖像局部的特征,就可以確定它與其他特征之間的相對方位,上一層的輸出值直接輸入至下一層。通常情況下,我們可以通過特征層來得到卷積層(特征層是指:輸入到隱藏層之間的映射)。(二)局部感受野與權值共享。局部感受野:由于圖像空間的連接是局部性的,因此每個神經元都不需要感測全部圖像,而只需感覺到局部的特征。然后,通過對較高級別感測量的局部神經元進行集成,可以得到整體的信息,并且減少了連接數量。權重分享:不同神經元之間的參數分享可通過降低求解參數,并通過放大器對圖像的放大積獲得多種特征圖。實際上,權重共享圖像上的第一隱藏層的所有神經元由于是在同一卷積上確認的,所以均能在圖像的任意一個位置檢測到毫無差別的特性。他的最主要的功能是能夠通過適應小范圍的圖像和平移從而達到檢測不同位置的目的,也就是良好的不變性平移。(三)卷積層、下采樣層。卷積層:通過去卷積來提取圖像特征,用來強化初始信號原屬性,從而減少噪音。下采樣層:由于研究人員發現圖像下采樣過程中,它能在保留信息的同時降低數據處理量,因此在發現某一特定的特征后,由于這個位置并不重要,所以樣本會擾亂特定的位置。我們只需要知道這個特征與其他特點之間的空間相對方位,就可以處理類似的物體由變形和變型而產生的變化。(四)卷積神經網絡的不足。如果網絡層需要加深,每一個網絡層增加的神經元數量會大幅增加,從而使模型復雜化,增大了調整參數的難度,也增大了過度擬合的風險。此外,在反向傳播過程中,連續迭代會使梯度不斷減小,而梯度一旦歸零,權值便無法更新,導致神經元失效。(五)展望與總結隨著研究人員對卷積神經網絡相關的研究不斷推進,其性能日益強大,復雜度也日益提升。目前,卷積神經網絡的相關研究已經取得了顯著成效。然而,一些人工擾動(如向原圖片中鍵入噪點)仍然會導致圖像的錯誤分類。如何解決這一問題,是今后研究的重點。此外,卷積神經網絡的結構升級仍有很大空間,通過提升網絡結構設計的合理性,可以完善量化分析能力。
三、圖像分割
圖像中包含很多數據,需要分割圖像。然而,精確區分干擾是對整個系統亮度的精確分類和準確劃類的前提。圖像的分析技術是計算機視覺技術的基礎。通過圖像分割、提取特征參量等方法可以將原本的圖像抽象化,從而便于分析和處理。多年以來,圖像的分割技術研究一直是重中之重,研究人員給出了多種分割方法。一般而言,圖像分割是將圖像劃分為不同的區域,給不同的區域賦予不同的權重,從而獲取重要對象的一種技術。特征可能是灰度、顏色、紋理等,目標可能對應一個區或多個地方,這與特殊目的應用程序和特殊目的服務請求程序有關。一般而言,圖像取值分割分析算法大致來說可以再細分為圖形圖像取值分割、邊緣圖像分割、區域分割和重復圖像分析四大個門類。
四、火焰色彩虛擬模型的特征
(一)火焰色彩顏色類型特征。火焰色彩模型一般來說是基于某種火焰色彩類型模式,通過在圖像閾值控制范圍內通過設置某種色彩模型圖像閾值來降噪提取火焰顏色特征圖像。可以用任何提取靜態火焰的特殊像素或者圖案方式來精確描述一個靜態火焰特征。然而,單純地依靠顏色模型來進行火焰識別會導致嚴重的誤判。火焰的顏色范圍是非常大的,所以它很可能與其他物體顏色相近,導致模型將其混為一談。(二)降噪在。火焰發展的初期過程中,是不斷處于移動變化的。又一方面,火焰的全部運動都不會跳躍,也就是火焰滿足相對穩定性。所謂燃燒火災的相對穩定性,是指在火災發生后,燃燒范圍的空間會成一個相對穩定的擴增趨勢擴增。通過分析火災的相對穩定性,可以消滅許多虛假信號。(三)靜態模型。在基于單幀圖像識別的算法中,由于只使用了幾個以火焰為基準的單一形狀特征,因此算法復雜、誤判率很高。因此,一個能夠自主優化識別的模型就顯得十分重要,圖像靜態特征提取的方法如下:由于曲率在人的視覺系統中往往是觀測場景的重要參數,因此提取幾何圖像曲率等參數,并以此描繪火焰圖像;根據測得的數據,描繪連續零曲率以及局部最大曲率、最高曲率正負值等集合特點。(四)動態模型在動態燃燒過程中,產生的火焰具有持續性。此外,根據火焰自身的特性和各種原因,火焰還會不斷發生變化。然而,這種變化并不在單個幀圖像中反映出來,而是在連續的多幀圖像中只反映。因此,提取火焰的動態特征就是分析處理連續多幀圖像。近年來,隨著火災科學的發展,從火焰的隨機狀態中發現了其規則性:1.火焰的面積增長性;2.火焰的形狀相似性;3.火焰的整體移動。基于圖像的火焰識別算法可劃分為動態識別和靜態識別。若將這兩種算法同步進行應用,則定能增加工作效率。火焰形成的重要特點之一便是火焰形狀。對于采集到的ccd火焰圖像,首先進行兩個連續的圖像差分操作,然后通過分割方法獲得連續幀的變化區域,使用掃描窗口得到的像素點數來記述連續幀變化區域。變化區域是指:圖像處理中,在獲得閾值之后,通過對高光度進行科學計算、實驗分析,最終得到的區域。當其他高溫物體移動到相機或離開視野時,所檢測到的目標區域會逐漸擴大,并容易引起干擾,從而造成系統錯誤的報告。因此,需要將數據和其他圖像的關鍵性特征進行一個高強度的結合,再深度進行挖掘。火焰的形狀相似性:圖像之間的類似性通常依賴于已知描述特點之間的差異度。該方法能夠在任意復雜程度上建立相應的類似性量。我們可以對兩個相似的元素進行比較,也可以對兩個相似的場面進行比較,圖像之間的相似性通常意義上是指場景以及結構上的相似性。在一般情況下,圖像的結構相似度往往并不高,因此,我們傾向于選擇更加典型的結構特點進行描述,如區域面積、區域亮度、線段長度等參數。雖然火焰的圖像序列中火焰的邊緣往往是很不穩定的,但圖像的總體變化會被限制在一定范圍內,而且一般的干擾信號模式包含了固定點或者光照變化,因此,在火焰識別的過程中,可以用初始火焰形狀的變化規則與其進行對照。盡管火焰的變化通常呈現出不規則的特性,然而這種不規則在形態、空間分布等方面往往具有某種相似之處,因此,我們可以用連續圖像的結構相似性來進行解析。
五、結語
各種高新技術不斷飛躍式發展,這為我國消防智能化技術的開發以及與外國新型消防設備之間的碰撞提供了一個良好的契機,而消防裝備的智能化已成為一個必然的趨勢。自改革開放至今,我國所研究的有關裝備智能化領域內取得的成果,已經為我們打下了堅實的發展基礎,因此我們更應該加快消防智能化的進程,綜合現有所具備的技術,取其精華去其糟粕,適而用之。由于研究條件和專業方向的局限,本文對智能消防裝備中的火焰識別技術仍然存在不足。此次智能消防裝備的研究方向主要是火焰識別領域,以建立模型的方法進行測算與研究,而對于理論性知識方面的探討仍存在很大的不足。之后的研究可以從其他方面進行深入的探討,探究其對系統化建模會產生哪些方面的影響。
參考文獻:
[1]喻麗春,劉金清.基于改進MaskR-CNN的火焰圖像識別算法[J].計算機工程與應用,2020,964(21):200-204.
[2]肖堃.多層卷積神經網絡深度學習算法可移植性分析[J].哈爾濱工程大學學報,2020,41(03):420-424.
[3]郭昆.基于卷積神經網絡的建筑風格圖像分類的研究[D].武漢理工大學,2017.
[4]徐曉煜.極化合成孔徑雷達艦船檢測方法研究[D].西安電子科技大學,2017.
[5]黃憶旻.基于圖像檢索的導游系統的設計與實現[D].蘇州大學,2016.
[6]宋戈.火災自動檢測技術在無人值守變電站中的應用[D].沈陽理工大學,2010.
[7]葛勇.基于視頻的火災檢測方法研究及實現[D].湖南大學,2009.
篇3
關鍵詞:ROS;表面缺陷;圖像采集;神經網絡;模型訓練
飛機蒙皮是包圍在飛機骨架結構外且用粘接劑或鉚釘固定于骨架上,形成飛機氣動力外形的維形構件,在飛機正常工作狀態下扮演著重要的角色,一旦飛機蒙皮出現缺陷等問題,需要及時的反饋出來并且維修。傳統的飛機表面缺陷檢測方式大多數是由人工來完成,會存在效率低、成本高等缺點,甚至會出現檢測失誤的情況。本文就針對鋁合金表面缺陷檢測方面,提出一種基于ROS的飛機表面缺陷檢測系統,采用移動機器人底盤定位和導航技術,結合深度學習、圖像處理等技術檢測出存在缺陷的位置并標記出來,通過機器代替傳統人工的方式,旨在提高檢測效率和檢測精度,為飛機表面缺陷檢測提供一種方式。
1系統的總體設計
飛機表面缺陷檢測系統主要由檢測模塊、ROS機器人模塊、圖像處理模塊三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:在某一區域范圍內,檢測模塊以樹莓派為核心控制器,通過檢測模塊中的圖像采集系統對鋁合金材料表面進行圖像采集,將采集到的圖像通過TCP通信傳輸到圖像處理模塊上[4]。圖像處理模塊利用深度學習中設計的卷積神經網絡進行數據訓練,得到檢測模型,將檢測模型應用到圖像預處理上。此時,OpenCV對檢測模塊得到的圖像進行圖像處理[5],最終得到缺陷出現的位置。當前區域檢測完畢后,通過ROS機器人模塊的定位和導航功能,驅動運動執行機構工作,并移動到相鄰下一塊檢測區域,直到所有位置都檢測完畢。上述工作原理可實現飛機表面缺陷檢測系統,下文將對其包括的三大模塊進行說明介紹。
2檢測模塊設計
如圖2所示,系統的檢測模塊主要是包括樹莓派和攝像頭,其中樹莓派作為檢測模塊的處理器,搭建的有Ubuntu系統,是系統實現的重要組成部分。樹莓派可以提供普通計算機的功能,并且功耗低。可直接在樹莓派上安裝Keil進行開發,具有很好的開發效果,運行穩定。本次飛機表面缺陷檢測系統實現了樹莓派將攝像頭拍攝的圖片發送到圖像處理模塊上,同時也搭載ROS系統實現了移動底盤的定位和導航功能。
3ROS機器人模塊設計
ROS隨著機器人技術發展愈發受到關注,采用分布式框架結構來處理文件,這種方式允許開發者單獨設計和開發可執行文件。ROS還以功能包的形式封裝功能模塊,方便移植和用戶之間的共享。下面將介紹其建圖和導航功能的實現。
3.1建圖設計
本文在ROS系統中使用Gmapping算法軟件包實現建圖[7],在ROS系統中設計了建圖過程中各節點及節點間的話題訂閱/的關系如圖3所示。在圖3建圖節點話題關系圖上,其中橢圓形里代表節點,矩形基于ROS的飛機表面缺陷檢測系統胡浩鵬(紐約大學NewYorkUniversity紐約10003)框里代表的是主題,節點指向主題代表著該節點了主題消息,主題指向節點代表著該節點訂閱了主題消息。在建圖過程中,主要涉及激光雷達節點、鍵盤控制節點、底盤節點、Gmapping節點和地圖服務節點。
3.2導航設計
ROS提供的Navigation導航框架結構如圖4所示,顯然MOVE_BASE導航功能包中包括全局路徑規劃和局部路徑規劃兩部分,即在已構建好的地圖的基礎上,通過配置全局和局部代價地圖,從而支持和引導路徑規劃的實施。為了保證導航效果的準確,通過AMCL定位功能包進行護理床的位置定位[8]。獲取目標點的位置后,MOVE_BASE功能包結合傳感器信息,在路徑規劃的作用下,控制指令,控制護理床完成相應的運動。
4圖像處理模塊設計
圖像處理模塊設計主要分為圖像預處理、模型訓練和卷積神經網絡三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對卷積神經網絡部分進行介紹。
4.1卷積神經網絡訓練流程
通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測飛機表面缺陷的關鍵一步,然后對訓練樣本進行訓練,具體步驟如下所示。(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:將得到的測試結果與設定的故障分類結果進行誤差對比,不斷優化訓練集,最終得到理想的訓練數據。
4.2缺陷檢測流程
缺陷檢測流程如圖5所示,首先輸入缺陷原始圖像,通過特征提取網絡,將處理后的圖像使用檢測器進行檢測,其中檢測器里為卷積神經網絡訓練后得到的模型,最終缺陷檢測后得到的識別后的圖像,并反饋出來。
4.3實驗測試
鋁合金表面缺陷主要有碰傷、刮花、凸粉、臟點等常見的缺陷,下面將以這四種為主要對象進行檢測訓練,各自訓練集數量為1000張。通過卷積神經網絡對缺陷的特征進行提取和分類,最終實現了缺陷的檢測。本次實驗測試的樣本為200張,每種缺陷50張,均采集自鋁合金材料表面且與訓練樣本一致,實驗結果如表1所示。由表1可知,檢測臟點的準確率高達98%,刮花和凸粉的準確率也達到94%,但碰傷的準確率相對較低,只有88%。可能造成的原因是:①硬件原因導致采集的圖像清晰度比較低;②碰傷缺陷不明顯,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但最后結果是滿足了設計需求,還需進一步改進。
5總結與展望
篇4
關鍵詞:人機大戰;人工智能;發展前景
中圖分類號:TP391 文獻標識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰”終于落下帷幕,最終Google公司開發的“AlphaGo”以4∶1戰勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認為,人工智能已經上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍”戰勝國際象棋世界冠軍卡斯帕羅不同。主要表現在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數據庫取勝,而是AlphaGo已經擁有了深度學習的能力,能夠學習已經對弈過的棋盤,并在練習和實戰中不斷學習和積累經驗。
(2)圍棋比國際象棋更加復雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局數的所有可能性是冪為171的指數,這樣的計算量相當巨大。英國圍棋聯盟裁判托比表示:“圍棋是世界上最為復雜的智力游戲,它簡單的規則加深了棋局的復雜性”。因此,進入圍棋領域一直被認為是目前人工智能的最大挑戰。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學習”能力。深度學習是源于人工神經網絡的研究,得益于大數據和互聯網技術。本文就從人工智能的發展歷程與現狀入手,在此基礎上分析了人工智能的未來發展前景。
1.人工智能的發展歷程
AlphaGo的勝利表明,人工智能發展到今天,已經取得了很多卓越的成果。但是,其發展不是一帆風順的,人工智能是一個不斷進步,并且至今仍在取得不斷突破的學科。回顧人工智能的發展歷程,可大致分為孕育、形成、暗淡、知識應用和集成發展五大時期。
孕育期:1956年以前,數學、邏輯、計算機等理論和技術方面的研究為人工智能的出現奠定了基礎。德國數學家和哲學家萊布尼茨把形式邏輯符號化,奠定了數理邏輯的基礎。英國數學家圖靈在1936年創立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”。總之,這些人為人工智能的孕育和產生做出了巨大的貢獻。
形成期:1956年夏季,在美國達特茅斯大學舉辦了長達2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術語。這是人類歷史上第一次人工智能研討會,標志著人工智能學科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學家的努力下,人工智能取得了矚目的突破,也在當時形成了廣泛的樂觀思潮。
暗淡期:20世紀70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復雜的問題。隨著AI遭遇批評,對AI提供資助的機構也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應用期:在80年代,“專家系統”(Expect System)成為了人工智能中一個非常主流的分支。“專家系統”是一種程序,為計算機提供特定領域的專門知識和經驗,計算機就能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。不同領域的專家系統基本都是由知識庫、數據庫、推理機、解釋機制、知識獲取等部分組成。
集成發展期:得益于互聯網的蓬勃發展、計算機性能的突飛猛進、分布式系統的廣泛應用以及人工智能多分支的協同發展,人工智能在這一階段飛速發展。尤其是隨著深度學習和人工神經網絡研究的不斷深入,人工智能在近幾十年中取得了長足的進步,取得了令人矚目的成就。
人工智能發展到今天,出現了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當前人工智能的研究熱點主要集中在自然語言處理、機器學習、人工神經網絡等領域。
2.人工智能l展現狀與前景
人工智能當前有很多重要的研究領域和分支。目前,越來越多的AI項目依賴于分布式系統,而當前研究的普遍熱點則集中于自然語言處理、機器學習和人工神經網絡等領域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學與人工智能的交叉學科,其主要功能就是實現讓機器明白人類的語言,這需要將人類的自然語言轉化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結構、語法進行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態度。
當前自然語言的處理主要有兩大方向。一種是基于句法-語義規則的理性主義理論,該理論認為需要為計算機制定一系列的規則,計算機在規則下進行推理與判斷。因此其技術路線是一系列的人為的語料建設與規則制定。第二種是基于統計學習的經驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學習并進行統計推斷的方式不停地從數據中“學習”語言,試圖刻畫真實世界的語言現象,從數據中統計語言的規律。
機器學習:機器學習(Machine Learning)是近20年來興起的人工智能一大重要領域。其主要是指通過讓計算機在數據中自動分析獲得規律,從而獲取“自我學習”的能力,并利用規律對未知數據進行判斷和預測的方法。
機器學致可以分為有監督的學習和無監督的學習。有監督的學習是從給定的訓練數據集中練出一個函數和目標,當有新的數據到來時,可以由訓練得到函數預測目標。有監督的學習要求訓練集同時有輸入和輸出,也就是所謂的特征和目標。而依據預測的結果是離散的還是連續的,將有監督的學習分為兩大問題,即統計分類問題和回歸分析問題。統計分類的預測結果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標是連續的,如天氣、股價等的預測。
無監督學習的訓練集則沒有人為標注的結果,這就需要計算機去發現數據間的聯系并用來分類等。一種常見的無監督學習是聚類分析(Cluster Analysis),它是將相似的對象通過靜態分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數據對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數據對象進行分類。
機器學習還包括如半監督學習和增強學習等類別。總而言之,機器學習是研究如何使用機器來模擬人類學習活動的一門學科,而其應用隨著人工智能研究領域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領域越來越廣泛地應用到了機器學習中。
人工神經網絡:在腦神經科學領域,人們認為人類的意識及智能行為,都是通過巨大的神經網絡傳遞的,每個神經細胞通過突出與其他神經細胞連接,當通過突觸的信號強度超過某個閾值時,神經細胞便會進入激活狀態,向所連接的神經細胞一層層傳遞信號。于1943年提出的基于生物神經元的M-P模型的主要思想就是將神經元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數f對輸入x1,x2…,xn進行處理并模擬神經細胞的激活模式。主要的傳遞函數有階躍型、線性型和S型。
在此基礎上,對神經網絡算法的研究又有諸多進展。日本的福島教授于1983年基于視覺認知模型提出了卷積神經網絡計算模型。通過學習訓練獲取到卷積運算中所使用的卷積系數,并通過不同層次與自由度的變化,可以得到較為優化的計算結果。而AlphaGo也正是采用了這種深度卷積神經網絡(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發展前景
總體來看,人工智能的應用經歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領域中,既是縱向發展的過程,也是橫向不斷改進的過程。
人工智能在博弈階段,主要是實現邏輯推理等功能,隨著計算機處理能力的進步以及深度學習等算法的改進,機器擁有了越來越強的邏輯與對弈能力。在感知領域,隨著自然語言處理的進步,機器已經基本能對人類的語音與語言進行感知,并且能夠已經對現實世界進行視覺上的感知。基于大數據的處理和機器學習的發展,機器已經能夠對周圍的環境進行認知,例如微軟的Kinect就能夠準確的對人的肢體動作進行判斷。該領域的主要實現還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環境進行感知并處理人類的語言等指令,利用所收集的信息進行最后的決策,比如操作方向盤、剎車等。
人工智能已經滲透到生活中的各個領域。機器已經能識別語音、人臉以及視頻內容等,從而實現各種人際交互的場景。在醫學領域,人工智能可以實現自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領域,機器也承擔了越來越多的輔助教育,智能交互的功能。在交通領域,一方面無人車的發展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領域也有非常廣闊的發展前景。總之,人工智能在一些具有重復性的和具備簡單決策的領域已經是一種非常重要的工具,用來幫助人們解決問題,創造價值。
參考文獻
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經濟導刊,2016 (6):69-74.
篇5
計算機視覺的第一步是特征提取,即檢測圖像中的關鍵點并獲取有關這些關鍵點的有意義信息。特征提取過程本身包含4個基本階段:圖像準備、關鍵點檢測、描述符生成和分類。實際上,這個過程會檢查每個像素,以查看是否有特征存在干該像素中。
特征提取算法將圖像描述為指向圖像中的關鍵元素的一組特征向量。本文將回顧一系列的特征檢測算法,在這個過程中,看看一般目標識別和具體特征識別在這些年經歷了怎樣的發展。
早期特征檢測器
Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技術的早期實現。但這些屬于計算密集型算法,涉及到大量的浮點運算,所以它們不適合實時嵌入式平臺。
以SIFT為例,這種高精度的算法,在許多情況下都能產生不錯的結果。它會查找具有子像素精度的特征,但只保留類似于角落的特征。而且,盡管SIFT非常準確,但要實時實現也很復雜,并且通常使用較低的輸入圖像分辨率。
因此,SIFT在目前并不常用,它主要是用作一個參考基準來衡量新算法的質量。因為需要降低計算復雜度,所以最終導致要開發一套更容易實現的新型特征提取算法。
二代算法
Speeded Up Robust Features(SURF)是最早考慮實現效率的特征檢測器之一。它使用不同矩形尺寸中的一系列加法和減法取代了SIFT中浩繁的運算。而且,這些運算容易矢量化,需要的內存較少。
接下來,HOG(Histograms ofOriented Gradients)這種在汽車行業中常用的熱門行人檢測算法可以變動,采用不同的尺度來檢測不同大小的對象,并使用塊之間的重疊量來提高檢測質量,而不增加計算量。它可以利用并行存儲器訪問,而不像傳統存儲系統那樣每次只處理一個查找表,因此根據內存的并行程度加快了查找速度。
然后,ORB(Oriented FASTand Rotated BRIEF)這種用來替代SIFT的高效算法將使用二進制描述符來提取特征。ORB將方向的增加與FAST角點檢測器相結合,并旋轉BRIEF描述符,使其與角方向對齊。二進制描述符與FAST和HarrisCorner等輕量級函數相結合產生了一個計算效率非常高而且相當準確的描述圖。
CNN:嵌入式平臺目標識別的下一個前沿領域
配有攝像頭的智能手機、平板電腦、可穿戴設備、監控系統和汽車系統采用智能視覺功能將這個行業帶到了一個十字路口,需要更先進的算法來實現計算密集型應用,從而提供更能根據周邊環境智能調整的用戶體驗。因此,需要再一次降低計算復雜度來適應這些移動和嵌入式設備中使用的強大算法的嚴苛要求。
不可避免地,對更高精度和更靈活算法的需求會催生出矢量加速深度學習算法,如卷積神經網絡(CNN),用于分類、定位和檢測圖像中的目標。例如,在使用交通標志識別的情況下,基于CNN的算法在識別準確度上勝過目前所有的目標檢測算法。除了質量高之外,CNN與傳統目標檢測算法相比的主要優點是,CNN的自適應能力非常強。它可以在不改變算法代碼的情況下快速地被重新“訓練(tuning)”以適應新的目標。因此,CNN和其他深度學習算法在不久的將來就會成為主流目標檢測方法。
CNN對移動和嵌入式設備有非常苛刻的計算要求。卷積是CNN計算的主要部分。CNN的二維卷積層允許用戶利用重疊卷積,通過對同一輸入同時執行一個或多個過濾器來提高處理效率。所以,對于嵌入式平臺,設計師應該能夠非常高效地執行卷積,以充分利用CNN流。
事實上,CNN嚴格來說并不是一種算法,而是一種實現框架。它允許用戶優化基本構件塊,并建立一個高效的神經網絡檢測應用,因為CNN框架是對每個像素逐一計算,而且逐像素計算是一種要求非常苛刻的運算,所以它需要更多的計算量。
不懈改進視覺處理器
篇6
【關鍵詞】神經網絡;故障測距;小波包;相對誤差
0 引言
我國礦井配電網多為6kV單側電源供電系統,采取中性點非有效接地方式,屬于小電流接地系統(NUGS)。饋電回路選用多段短電纜徑向延伸為各種井下高低壓電機、電氣設備、照明及各種通信、自動化裝置和儀表、儀器提供電能。由于井下工作環境惡劣,供電電纜經常發生接地、斷線、短路等故障,據電力部門統計,其中單相接地故障的發生率最高。盡管發生單相接地故障時,線電壓仍然對稱,暫時不影響對負荷的連續供電,但就礦井這類危險易爆場所而言,當發生單相接地故障時,應盡快跳閘斷電以確保安全。為此,必須及時對故障點進行定位、排除故障、加快恢復線路供電。
NUGS饋線的故障定位問題一直以來未得到滿意的解決,這與其自身的特點有關。由于電網變壓器中性點不直接接地,造成單相接地電流無法形成小阻抗回路,故障電流主要由線路對地電容電流提供,其數值較小,且基波分量幅值故障前后變化不大,使得定位保護裝置很難準確進行故障選線和定位。考慮到井下環境條件和負荷的特殊性,礦井配電網與傳統意義上的NUGS存在一定的差異:單相接地產生的暫態分量較穩態分量大得多,暫態波形畸變嚴重,應研究利用暫態電氣量進行故障測距的可行性;饋電線路分支少、長度短,對測距精度要求高[1]。
鑒于上述原因,本文就井下配電網故障測距問題進行研究,以期提高故障測距的精度和可靠性。
1 BP網絡的結構和算法
BP網絡結構上類似于多層感知器,是一種多層前饋神經網絡,網絡權值的訓練算法為誤差反向傳播(BP)學習算法。如圖1所示為一典型3層BP網絡模型。
圖1 3層BP網絡模型
以圖示BP網絡模型為例說明網絡的學習過程:
(1)初始化。為每個連接權值wij、wjt、閥值θj、θt賦予(-1,1)區間的隨機值。
(2)給定輸入輸出目標樣本。給定輸入向量Xp=(x1,x2,...,xn)和期望目標向量Tp=(t1,t2,...,tm),p∈1,2,...,P。
(3)計算網絡各層的輸出。由輸入樣本、連接權值、閥值及各層神經元傳遞函數計算隱含層和輸出層的輸出。
(4)計算網絡實際輸出與期望輸出的一般化誤差。系統的目標函數為:
E=■■■(t■-y■)2=■E■(1)
網絡通過調整權值和閥值使滿足預先設定的一個極小值。
(5) 利用目標函數調整網絡的權值和閥值。BP算法按照目標函數梯度的反方向對網絡參數進行調整,使目標函數收斂,即實際輸出接近目標輸出。對于第p個輸入樣本的權值、閥值,按下式修正,式中?濁為學習速率。
?駐w=-?濁■, ?駐θ=-?濁■(2)
對應的權值、閥值按下式調整,式中為迭代步數。
w(k+1)=w(k)+?駐wθ(k+1)=θ(k)+?駐θ(3)
(6)隨機選擇下一組學習樣本向量進行訓練,直到P個樣本對訓練完畢。
(7)重新從P個學習樣本中隨機選取一組輸入、目標樣本對,返回步驟(3),直到目標函數E收斂于給定值,若訓練次數大于設定的最大訓練次數,則網絡不收斂。
由于BP算法學習速率為固定值,收斂速度較慢,且可能會產生多個局部極小值,另外網絡的隱含層層數和神經元數目的選擇尚無理論指導,因此網絡具有較大的冗余性。為了克服以上不足,提出了許多改進算法,從改進途徑上分為兩類:
一類為啟發式學習算法,如動量BP算法、彈性算法、學習率可變的BP算法等;另一類為快速優化算法,如擬牛頓算法、LM算法等。
2 基于BP小波神經網絡的故障測距
小波包具有正交特性、信號分解后的信息量是完整的,因此利用小波包算法分析信號頻率的分布情況,能夠有效提取信號的暫態特征。對于電纜線路而言,其暫態零序電流的自由振蕩頻率一般在1500~3000Hz之間[2-3]。本文利用小波包提取該頻段的暫態零序電流信號模極大值作為神經網絡模型的輸入,以期實現高精度的故障測距。
2.1 小波基的選擇
在利用小波包提取模極大值時,小波基的選擇十分重要,選擇不同的小波基對信號進行分解,可以突出不同特點的信號特征。Daubechies小波系是信號分析處理中常用的一類小波,具有緊支性、正交性,滿足精確重構條件,但由于其不具有對稱性,因而其邊界效應會隨尺度的增加而擴大,引起分解誤差;Morlet小波常用于信號表示、圖像特征的提取和識別;Mexican hat小波則用于系統辨識。
3次B樣條小波是一種具有線性相位的緊支對稱小波,分頻能力強,頻帶相干小,由于具有對稱性,只要采取合理的延拓方式,其邊界效應引起的誤差可忽略不計。
B樣條基函數的遞推公式如下:
N■(x)=1,x■≤x≤x■0,x?埸x■,x■N■(x)=■N■(x)+■N■(x)(4)
3次B樣條基函數N■(x)在xi,xi+4上具有局部支集性,表達式如(5)所示。
(5)若取參數x■=i(i=0,1,...,n)為節點即為均勻B樣條基,再對均勻B樣條基作參數變換,在每個子區間內以參數代換,在每個子區間的值均為u0,1。3次B樣條基函數的表達式如式6所示。
由于二進小波包變換具有平移不變性,不會引起正交小波包變換在所分析信號不連續處產生的偽吉布斯現象[4]。故本文利用3次B樣條小波包對短路故障電流進行卷積型二進小波包分解,以期獲得更顯著的故障特征信息。
N■(x)=■,x■≤x≤x■■+■,x■≤x≤x■■+■,x■≤x≤x■■,x■≤x≤x■0,x?埸x,x■
(5)
N■(u)=■u3■(-3u3+3u2+3u+1)■(3u3-6u2+4)■(-u3+3u2-3u+1) 0≤u≤1(6)
2.2 分解尺度的選擇
如何選擇分解尺度對于零序電流暫態分量的模極大值提取至關重要,尺度取得越大,信號與噪聲的表現差異越明顯,越有利于兩者的分離。但分解尺度取得越大,則對應的頻帶寬度越窄,采樣點數過小,不利于下一步的信號分析[5-7]。
由于本文仿真的采樣頻率取1MHz,則Nyquist頻率為5kHz,為提取暫態零序電流1500~3000Hz頻率段分量,小波包分解層數為3,考慮小波包頻帶劃分規則,取(3,3)、(3,7)頻帶的零序電流暫態分量即可滿足要求。
2.3 BP網絡結構參數的選擇
欲利用BP小波神經網絡計算井下配電網故障測距,必須首先確定BP網絡的結構和參數,如各層的初始權值、閥值,學習速率,各層節點數、傳遞函數等,只有確定了網絡的最佳配置,才能有效解決所提出的問題[8]。
(1)網絡層數的確定。Hecht-Nielsen已經證明,在不限制隱層節點數的情況下,含有一個隱層的BP網絡能夠實現任意非線性映射。Cybenko指出,當隱層傳遞函數選用S型傳遞函數時,單隱層足以滿足解決任意判決分類問題的需要,兩個隱層則能夠實現輸入圖形的映射。增加隱層數可以進一步提高精度,但同時會增加網絡權值的訓練時間。另外,增加隱層神經元個數也能降低誤差,訓練效果也更易觀察,因此,應優先考慮增加隱含層神經元的個數。對于本文研究的故障測距問題,網絡需要較快的收斂速度,因此采用單隱層網絡。
(2)各層節點數目的確定。網絡輸入層節點數等于輸入向量的維數。由于井下電網大多數實時運行參數如負荷、系統等效阻抗可由監控終端獲得,其它隨機性因素如發生故障線路、故障時刻可由故障后可測信息準確識別,不可知變化因素僅包括接地過渡電阻及故障點位置,并且神經網絡的內插性能優于外推性能,故輸入向量維數等于3,分別為(3,3)、(3,7)頻帶零序電流暫態分量的模極大值和故障點過渡電阻值。輸出層節點數為1,表示故障點位置。隱含層節點數的選擇比較復雜,需要依據經驗和經過多次實驗確定,選取過多將導致學習時間過長,過少將引起容錯性差,對未經學習的樣本識別能力低。根據Hebe準則可以確定最佳隱含層節點數的參考值。另外,也可先令隱含層節點數可變,開始時給以較小數值,學習到給定訓練次數最大值,若未達到收斂精度則再增加節點數,直至達到合理數值為止。經過多次仿真訓練,隱層節點數為11時,網絡的訓練誤差最小。
(3)初始權值的選取。初始權值的選擇對于網絡能否收斂和訓練的速度關系密切。若權值選擇過大,會使加權輸入處于激勵函數的飽和區,導致無法進行權值的調整。威得羅等人提出一種權值初定策略,選擇權值的量級為S1的r次方,其中S1為第一層神經元數目,利用此方法可以在較少的訓練次數下獲得滿意的訓練結果。本文選擇的輸入層及隱含層至輸出層的初始權值均為0.25。
(4)訓練算法的選擇。給定一個具體問題,采用何種訓練算法對于是否能夠達到目標誤差及網絡收斂速度的影響很大。就中等規模的前饋神經網絡而言,LM算法的訓練函數trainlm可以獲得比其它任何一種算法更小的均方誤差,且收斂速度最快,在精度要求較高時,該算法的優點尤其突出。本文選擇LM算法對BP網絡進行訓練。
(5)學習速率的選擇。一般情況下傾向于選擇較小的學習速率以保證訓練過程的穩定性,但是過小的學習速率會導致訓練時間過長,收斂速度很慢,無法保證網絡的誤差值跳出誤差曲面的低谷而最終趨于最小誤差,一般選擇范圍在0.01~0.9之間。
3 系統仿真及測距結果
深井供電系統仿真模型如圖2所示。各模塊參數如下:進線電纜(In line)采用YJV42,線路正序參數為:R1=0.078/km,L1=0.27mH/km,C1=0.695F/km,零序參數為:R0=0.106/km,L0=1.223mH/km,C0=0.358F/km;配電電纜(Line)采用YJV32;采區電纜(Mine line)、負荷電纜(Load line)采用UPQ,正序參數為:R1=0.024/km,L1=0.516mH/km,C1=0.308F/km,零序參數為:R0=0.196/km,L0=3.98mH/km,C0=0.203F/km;采區變壓器(MineT1)型號為KBSG-200/6/0.69kV,Ud%=4%,I0%=2.5%;隔爆移動變電站(MineT2)選用KBSGZY-315/6/1.2kV,P0=1400W,Pd=2200W。負荷變壓器采用SL7-100/6/0.4kV。線路長度分別為:進線電纜取1km;
配電電纜1、3、4取0.5km;配電電纜2取0.4km;采區電纜長度均取0.3km;負荷電纜取0.2km。電源線電壓有效值6.3kV,X/R ratio=7。
考慮配電線路1在不同故障點位置和過渡電阻下發生單相接地故障(數據窗取故障前1ms至故障后4ms共5ms)得到的暫態零序電流經小波包分析后(3,3)、(3,7)頻帶的模極大值(為防止邊界效應引起的信號值突變,取前2000個采樣值進行模極大值分析)經歸一化處理后所形成的訓練和測試樣本集,對BP網絡進行訓練,并測試網絡的測距性能。
選取的訓練樣本集如下:
(1)過渡電阻值分別為0.01、5、50、100、150、200、250、300、350、400、450、500;
(2)在靠近線路兩端發生故障時,應適當減小故障距離以提高測距精度。故障點位置分別為:0.01km、0.02km、0.025km、0.075km、0.125km、0.175km、0.225km、0.25km、0.3km、0.325km、0.375km、0.425km、0.475km、0.48km、0.49km。
組合兩因素可形成12×15=180個訓練樣本集。
訓練誤差曲線如圖3所示,經2794次迭代后誤差收斂于0.00099829,基本達到了設定的目標誤差0.001。
為檢驗訓練后BP網絡的推廣能力即測距效果,采用非訓練樣本集進行測試,選取的測試樣本集如下圖3:
圖3 BP網絡訓練誤差性能曲線
(1)過渡電阻值分別為25、75、125、175、225、275、325、375、425、475;
(2)故障點位置分別為0.015km、0.05km、0.1km、0.15km、0.2km、0.275km、0.35km、0.4km、0.45km、0.485km。
組合兩因素形成10×10=100個測試樣本集。
對于給定的測試樣本集,經BP網絡前饋運算得到的實際測距結果及相對誤差分別如表1、表2所示。
其中,L表示實際故障距離,l表示測量距離。
相對誤差e=(實際故障距離-測量距離)線路總長×100%。
由表2可知,對于測試樣本集,訓練后的BP網絡測距相對誤差隨過渡電阻值的增加有增大的趨勢,最大誤差達到了-16.56%,且出現在過渡電阻為475時,同時注意到在故障點接近線路兩端時,由于適當增加了訓練樣本,測距相對誤差明顯減小,因此,通過增加訓練樣本數量有望進一步提高測距精度。
4 結論
通過研究得出以下結論:
1)采用小波包提取故障暫態零序電流的模極大值能有效表征故障時所蘊含的物理現象,為準確進行故障測距提供了有效的數據。
2)BP神經網絡具有良好的分類及擬合功能,能在獲得大量樣本數據的基礎上,訓練出符合要求的前饋型網絡,為煤礦井下電網故障測距提供強有力的手段。從測距相對誤差結果來看,基于小波分析與BP神經網絡的故障測距方法能基本滿足測距要求。另外,本文下一步的工作將在樣本集數量、網絡結構等方面進行更為深入的研究。
【參考文獻】
[1]丁恩杰,王超楠,崔連成.礦井配電網輸電線路故障測距方法的研究[J].中國礦業大學學報,2006,35(3):311-316.
[2]竇新宇,李春明.小電流接地系統行波測距方法研究[J].電力科學與工程,2010,26(2):51-53.
[3]季濤.基于暫態行波的配電線路故障測距研究[D].濟南:山東大學,2006.
[4]姚李孝,趙化時,柯麗芳,等.基于小波相關性的配電網單相接地故障測距[J].電力自動化設備,2010,30(1):71-74.
篇7
關鍵詞:人工智能 心血管 超聲
大數據是現代醫學模式的重要特征。在這種醫療模式下,要求醫療人員在確保患者安全和健康的同時追求效率的最大化[1]。對于高分辨率的醫學影像成像,集中體現在醫務人員快速、準確、有效地解釋影像數據(包括肉眼可見和不可見),挖掘利于診斷和治療的有用信息。在此背景下,人工智能(artificial intelligence,AI)應運而生,它為促進圖像采集、測量、報告和隨后的臨床路徑以及影像和臨床數據的整合提供了有效手段[2]。心血管影像的精確性成為AI臨床應用中的主要領域之一,本文對此作一綜述。
1 人工智能及其在醫學上的應用
AI是一個廣義的術語,指的是機器或計算程序執行具有人類智能特征的任務的能力,如模式識別和解決問題的能力等。AI可以通過彌補人類智能,使現有醫療診斷和預后價值最大化,同時使醫師負擔最小化,從而顯著改善健康診療過程和結果。AI在臨床實踐中的應用預示著醫學領域一個更為劇烈變化時代的到來,在影像學方面尤其如此。一項通過分析科學網數據庫的研究[3]發現,目前AI在醫學的研究領域主要集中在大數據分析、腦卒中康復、心臟手術和醫療診斷和預后預測等方面。其中,用于醫學診斷、預后預測和分類的神經網絡和支持向量機是主要熱點,占所有文獻的26%;而未來最引人關注的研究主題是基于AI的微創手術。然而,關于AI數據管理、模型可靠性、模型臨床效用驗證等問題尚未進行廣泛研究。
2 人工智能的機器學習法
大數據是一個經常用來描述大量收集數據的術語,如來自大型生物信息庫的基因組數據、電子健康記錄檔案和大型研究隊列數據以及影像學掃描數據等。AI系統通過識別和提取一組觀測數據(數據集)的模式來自主獲取知識的過程稱為機器學習(machine learning,ML)。ML是人工智能的一個組成部分,描述為計算機從經驗中學習的過程,并在沒有事先知識的情況下執行預定的任務[4]。機器學習可以進一步分為監督學習、半監督學習和無監督學習,這取決于用于學習的樣本是否完全標記、部分標記或未標記。ML的典型例子是人工神經網絡,后者基于人類大腦的神經元及其連接,神經元之間的相互依賴關系反映出不同的權重,每個神經元接受多個輸入,所有的輸入一起決定了神經元的激活。通過樣本訓練找到這些合適權重的過程就是學習。學習過程的復雜性和所需的樣本量隨著神經元數量的增加而增加。由于計算能力和樣本大小的限制,機器學習應用程序的成功依賴于從原始樣本中手工提取特征來減少神經元的數量。為了解決這一問題,人們提出了深度學習的方法,即自動學習代表性的樣本。深度學習是指一種特別強大的ML方法,它利用卷積神經網絡模擬人類的認知,常用于影像模式識別和分類。
模型訓練是所有ML類型的共同過程,它是利用模型分析所提供的數據中的各種特性來學習如何生成輸出標簽的過程[5]。如在超聲心動圖中,一個模型可以分析各種特征,如左心室壁厚度和左心室射血分數,以確定患者是否具有特定的條件。然而,在分析中包含不相關的特征可能會導致模型過度擬合,從而在呈現新數據集時降低其準確性。這強調了擁有一個能夠代表總體的訓練數據集的重要性。數據集的質量對于最終ML模型的質量至關重要。盡管ML算法可以使用小數據集或大數據集進行訓練,但大數據集可以最大限度地提高訓練算法的內部和外部有效性,降低過度擬合的風險。正確模型的選擇通常取決于操作員的專業知識、數據集的性質和最終人工智能系統的目的。
3 人工智能在心血管超聲的應用
心血管成像領域,包括超聲心動圖、心臟計算機斷層掃描、心臟磁共振成像和核成像,具有復雜的成像技術和高容量的成像數據,處于精準心臟病學革命的前沿。然而,在基于AI的臨床轉化方法中,心血管成像一直落后于腫瘤學等其他領域。人工智能在超聲心動圖中的應用包括自動心室定量和射血分數計算、應變測量和瓣膜形態及功能評估以及ML在心臟疾病自動診斷中的應用。
3.1 心室定量和EF自動化。
自動心室量化和EF計算的算法旨在提供準確、快速和可重復的心尖視圖分類、解剖標志檢測、心室壁分割和心內膜跟蹤。有研究[6]比較了AI軟件自動測量(AutoEF)和手工追蹤雙平面Simpson法測量左室EF的準確性,并與心臟MRI進行了比較。結果表明AutoEF與手動雙平面Simpson法測得的EF相關性較好,且與MRI相關性良好,但AutoEF低估了左室舒張末期容積(EDV)和收縮期末期容積(ESV)。此外,在不同切面,測量的準確性存在差異,以胸骨旁長軸切面的準確性最高,達96%,而在心尖切面時整體精度降低(84%)。腔室定量和左室EF測量的中位數絕對偏差在15%~17%,其中ESV的絕對偏差最小;左房容積和左室EDV被高估。
3.2 心肌運動和應變測量。
Kusunose等[7]研究發現與傳統二維超聲心動圖相比,利用深度卷積神經網絡可更好的檢測區域壁運動異常并區分冠狀動脈梗死區域。Cikes等[8]利用復雜超聲心動圖數據(整個心動周期的左室容積和變形數據,而不是單個數據點)和臨床參數的ML算法識別心衰并對心臟再同步化治療的反應進行評估,證實通過整合臨床參數和全心周期成像數據,無監督的ML可以為表型異質性心力衰竭隊列提供一個有臨床意義的分類,并可能有助于優化特定治療的反應率。另有研究證實[9-10],ML算法有助于區分縮窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI軟件和手工勾畫對左室心肌的縱向應變進行了比較研究。發現AI自動測量的心肌全局縱向應變與手動應變變化最小(絕對值為1.4%~1.6%)。
3.3 心臟瓣膜評估。
有學者[12]采用AI軟件對二尖瓣幾何形狀進行測量,測量參數包括二尖瓣環面積、瓣環高度和寬度、瓣葉連合間距、前后葉長度等。發現相對于常規超聲心動圖,所有評估的成像參數均獲得了更好的觀察者間一致性,而且所花費的時間明顯較少。Prihadi等[13]研究證實,經食管超聲心動圖AI軟件能夠精確地對主動脈瓣結構以及冠狀動脈開口進行測量和定位,且與多層螺旋CT的測量結果具有良好的相關性。
4 展望
在海量醫學信息和影像數字化日益積累的現代醫學時代,AI和ML為疾病診斷和風險預測等問題提供了新的解決方案。通過AI對超聲心動圖數據進行預測、建模和精確分析,可以幫助超聲醫師快速、準確地處理大量心臟超聲影像學數據,既有利于應對當前醫療信息數量的急劇增長,又有利于提高處理數據信息的能力。未來,針對AI的研究應關注超聲圖像數據特征定義及其提取方法的標準化,以確保可推廣性和可再現性,促進AI向更加個性化的醫療模式轉變。此外,AI系統與遠程醫療等軟件的集成,將使智能心臟超聲診斷系統滲透到資源消耗負擔最繁重的地區,提高經濟效益。
參考文獻
[1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.
[2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.
[3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.
[4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.
[5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.
[6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.
[7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.
[8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.
[9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.
[10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.
[11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.
篇8
該如何審視越來越快速迭代的一個個熱點?
星瀚資本創始合伙人楊歌被業內贊譽為最懂技術的投資人之一。從清華大學物理系畢業的楊歌經歷了7次創業,在創業中磨練了多方能力,會寫代碼的同時又懂金融,善于從基礎理論上推演商業發展規律。
轉型投資人后,星瀚資本的成績單上有了鯤云科技這樣明星級的人工智能芯片企業、國內領先的農業規劃種植平臺企業甲加由,以及不久前與豆瓣音樂完成合并的流媒體原創音樂平臺V.Fine等明星項目。
面對市場熱點不斷地快速切換,楊歌認為要從底層邏輯來冷靜審視,方能不錯失真正的價值,不盲目追逐資本泡沫。
一、AI大浪潮是一條上揚價值線
“AI是個大浪潮,跟互聯網是一個級別的大趨勢。虛擬現實、智能硬件、機器人屬于其二級子行業。這個大賽道的發展一定會是長期可持續發展的。”
楊歌認為,不能把AI簡單的等同于區塊鏈、小程序或是共享單車這樣的行業熱點來放在一起看待。相對于其他熱點,AI是真正意義上繼互聯網之后的一個大趨勢,其影響的領域將層層滲透,就如互聯網對信息、游戲、購物、出行等領域的改造一樣,這是一個長期昂揚向上的價值增長趨勢。
而去年的圖像識別、語音識別,包括自動駕駛等等都是圍繞AI價值增長曲線波動的一個個熱點。自動駕駛雖然很火,但還需要在數據、場景上完成優化并找到更優解決方案,才能在市場中應用,圖像識別、語音識別則在商業化應用的初級階段,還并未找到真正突破的應用爆發場景。
今年,AI似乎被區塊鏈、小程序等熱點搶了風頭,主要源自于大眾對AI的認知還需進一步深化,在AI方向有所布局的企業預期AI的話題性和功能性能為其產生價值。結果實際應用落地并沒有市場期待的那么快。
“AI是你拿任何一個既成的模塊都沒法直接用的,需要根據場景一個個算法去運算,CNN、遺傳算法、LSTM、優化算法等你可能都要試一遍,再進行算法簡化、調優,才能有一點點效果。這個周期非常長,不像互聯網網站的建設,無論是旅游的還是賣東西的,都是前端、后端的框架搭建起來就能看到效果。”
二、不要盲目低估AI的復雜性
楊歌認為,目前市場對AI的認知相對簡單化了,好像自動駕駛的實現指日可待,期待指數過高。而實際上AI的算法變化、搭建框架、落地方向等都是非常難的。
“我認為人工智能目前所需要解決的難點有以下幾點:第一點是算法的變化特別快,組合越來越復雜。神經網絡之后有對抗神經網絡,基于神經元的卷積神經網絡之后又提出了最新的膠囊神經網絡(CapsNets),不斷有新的算法產生,有些算法甚至連TensorFlow(谷歌第二代AI學習系統)都不支持。
第二個問題是人工智能與商業需要強耦合性。即必須要非常深度地了解關于算法的特性,同時還要了解商業場景,只有把對商業場景的理解轉成算法語言,才能實現。而這并不是找到一個算法工程師就可以實現的簡單過程。
例如,用CNN來做人臉識別、圖像識別有效,但對自然語義理解就未必,實際自然語言理解中有很多上下文遠距離相關的信息,需要LSTM來訓練就更有效。”
三、AI距離C端應用還很遠,TO B的商業化才剛剛開始
鑒于AI本身的復雜性,楊歌認為AI正在處在摸索成長期,底層技術基本上已經成熟,但是商業化過程還不是非常明確。
“五年之內,我認為AI的爆發點是在To B的應用上,就是基礎層結構化數據的優化處理。”
楊歌將AI分層三層結構:底層是算法、芯片等;中間層是圖像識別、語音識別、自然語義的識別、運動機能識別等;最上面的應用層則涵蓋了自動駕駛、機器人、智能音箱、量化金融、AI教育等等。
目前,應用最廣泛的圖像識別、語音識別公司如科大訊飛、商湯科技、曠視科技、思必馳等業內領先企業,楊歌認為這些公司研發的中間層模塊,很難獨立形成商業場景,必須和應用層結合才可以。
據了解,目前這些公司在車載、音箱、安防、翻譯機等方面進行了初步的商業化落地嘗試。例如,智能音箱大多只能實現簡單的對話和語音識別調用,遠未達到無障礙的人機交互程度。
“這些場景的入口模塊都需要完整的、完全標準的算法模塊層,中間模塊層,就是說語音識別、語義識別都需要非常精準,無論是器械,還是一個機器人,都需要中間算法模塊層要非常成熟,同時需要底層芯片層也需要很成熟。
我預計大概五年之內,中間的模塊層就能基本上成熟,在這個層面上一旦技術成熟,就會促成應用層的大爆發。應用層首先爆發的就是機器人,工業機器人會形成大范圍的改造,家用機器人會高度的智能機械化。”
楊歌認為,AI的使用最重要的在于兩點,一方面是要有成熟的海量數據,另一方面是要對場景問題進行精準的模型化設計。
智能駕駛雖然具備明確的使用場景,但場景模型化的算法方案卻很復雜,另外也不具備已成型的可供訓練數據集,需要模擬真實場景長期積累數據,目前在上述的兩個必要方面都不具備優勢。
“在未來的幾年中,AI勢必會爆發在量化金融、物流倉儲大數據、有數據積累和標準的傳統產業升級、以及機器人運動行為學習等方向中。”楊歌稱,對于數據積累成熟,模型化場景清晰明確的行業,人工智能將會帶來更多創新性的顛覆,這也是星瀚資本投資的主要方向之一。
“量化金融方向已經在爆發前夕,就差臨門一腳。但這個行業大型公司主要在國外,中國在做量化金融的公司還有待壯大。”
四、如何正確看待小程序熱點?
隨著騰訊對小程序的開放進程加快,小程序近期形成了一個市場熱點,多家依托小程序生態的創業公司都先后拿到了融資。
但楊歌認為,小程序只是微信生態的一個小模塊,很難像互聯網一樣孕育百億級別的商業模式,也很難形成一個大風口。
“小程序是微信縮短流量分發步驟的嘗試。從PC互聯網到移動互聯網的經驗都是,只要縮短了流量分發的中間步驟,就會帶來流量的紅利爆發。典型是微信支付對支付寶的超越,微信支付之所以后進入,但快速爆發超越支付寶,就在于微信支付無需跳出微信就可以直接使用,縮短了用戶使用的路徑,省去了切換的步驟。
但實際上,用戶對這種通過縮短使用路徑獲取流量的邏輯已經有些疲勞了。今天很難說在微信中下拉菜單找到一個小程序定外賣與直接打開外賣軟件,哪個讓用戶覺得更方便。”
楊歌認為,舊日那套通過縮減用戶使用步驟就能獲取流量紅利贏得商業變現的邏輯已經達到頂峰,互聯網已在一個潮流褪去的通道里,區塊鏈可能是互聯網后半程最后的一次小浪潮。但目前市場上運用區塊鏈的投機行為過多,真正的商業價值還未展現。區塊鏈也將成為AI爆發前的基礎,承前啟后。
五、無人店的商業形態需要打造合理的成本模型
無人貨架、無人便利店風風火火熱鬧了一年,但隨著行業內得到資本助力的幾家企業相繼爆出裁員、業務縮水等負面消息,市場似乎對無人零售這種商業形態陷入了一種迷茫,很難看清其真實價值。
楊歌觀察了一年則明確表示無人店的商業形態需要打造更為合理的成本模型,其邏輯有兩點:
第一, 楊歌認為末端最后一公里的配送和分揀成本太高,太復雜,還是完全依賴人力。目前市場上幾乎很難看到在這一塊做到成本可以覆蓋的團隊。
篇9
Master的“過人之處”
2016年年末,圍棋界對阿爾法狗留下的心理陰影正在消散,這不單是因為在線圍棋網站上冒出了更多AI棋手―如日本的DEEPZEN、中國的“絕藝”――更重要的是,人類棋手在與之較量時互有勝負。特別是當中國第一高手柯潔曾完勝“絕藝”的升級版“刑天”(被認為棋力相當于阿爾法狗)一局并宣稱可以找到AI漏洞后,人類棋手歡欣鼓舞。
可是,Master就是在這樣的背景下登場并毫無懸念地收割勝利的。賽后,棋圣聶衛平感喟“我們無法像電腦那樣從不犯錯”,而柯潔則連連慨嘆,“人類數千年的實戰演練進化,計算機卻告訴我們全都是錯的……”那么,Master究竟強在哪里呢?阿爾法狗研發團隊的黃士杰博士表示,其“過人之處”即在于背靠多組超級計算機組成的卷積神經網絡,這使得Master不僅具備類似人腦的“策略網絡”(選擇某一手棋的最優下法),更擁有人類難以企及的“價值網絡”(判斷每一步靜態棋局的精準勝率)。與此同時,Master還可以通過每天自我對弈數十萬局來增長棋力――人類棋手一年最多下1000局。由此,Master得以拋開事倍功半的窮舉分析,并以閃電般的高效應對使人類棋手難以招架。
電腦將“學會”文化創意
對計算機而言,一切任務都是邏輯運算,而算法和算力是提升效率的主要指標。優化算法可以更輕易地解決問題,提升算力則能在單位時間內獲得更多成果。當一項活動具備邏輯運行特征時,即可交由計算機執行;其中的變化規則越多地被掌握,計算機越是容易立于不敗之地。國際象棋就是一個例子,由于棋路變化相對簡單,今天安裝在手機上的對弈程序都已經有了國際特級大師的棋力。專業級弈棋程序(如Rybka)幾乎已經算盡棋路,在與人類棋手對決時穩居上風。
常人的直覺是,計算方面輸給電腦是正常的,文化創意方面人類則是永遠的贏家。而事實上,文藝創作活動也可以通過算法轉化為邏輯運算。著名科幻作家劉慈欣就曾開發過一款寫詩軟件,設定創作一首三行詩,韻腳為a,按下“生成”就跳出結果:“伏特加,請霧化吧!懸崖,請磁化吧!我們都是嘩嘩啦啦的籌碼,我們要掙扎!”而如果在這一領域樹立一尊“圣杯”,那無疑是嘗試創造博爾赫斯筆下的“通天塔圖書館”。這座由小說家臆想出來的圖書館中,收藏著以不同字符、數字、標點符號組合而成的所有文本――既包括我們讀過的書,也包括消逝在歷史塵埃中的書,更包括尚未被寫出的書……計算機通過羅列全部組合的方式來締造這個圖書館,不斷優化的算法會通過剔除大量無意義結果來為算力減壓。
當代的計算機尚無法構建這個圖書館,正如它們還無法窮盡圍棋套路的變化那樣。但處理器性能是以指數級速度發展的,1946年人類第一臺電子計算機“埃尼阿克”的算力在今天連手持計算器都不如,我們又怎能設想一個世紀后的電腦將強大到何種程度呢?可以確定的是,一旦計算機可以“創作”,那么它也必然會攻克音樂、繪畫等人文藝術領域,人類靈感創意的專屬領地將遭遇機器邏輯的入侵。
與AI共生的未來
AI(人工智能)有強、弱之分。弱人工智能只擅長某個特定領域,比如駕駛、裝配或掃地吸塵。阿爾法狗亦屬于此,但它的本質是一種深度學習引擎,而不是只會下圍棋。按照谷歌公司的藍圖,它將被運用在協助判斷早期病癥等領域。強人工智能將擁有類似人類的語言、情感以及思維能力,它們在很多方面會超越人類本身,因此研發的意義不是為解決某種具體問題,而是用它們來開創出更多視界。
篇10
關鍵詞: 邊緣檢測; 脈沖噪聲; 均值梯度; 非極大值抑制
中圖分類號: TN91919?34; TP391.41 文獻標識碼: A 文章編號: 1004?373X(2015)06?0119?03
Mean gradient based edge detection algorithm for image with impulse noise
SHEN De?hai, HOU Jian, E Xu, ZHANG Long?chang
(College of Information Science and Technology, Bohai University, Jinzhou 121013, China)
Abstract: In order to detect the edge of image polluted by impulse noise, an image edge detection algorithm based on mean gradient is proposed. The algorithm divided the detection window into up, down, left and right areas according to the horizontal and vertical directions, which calculates the average gray value of non noise pixels in every area first, and then calculates the image gradient according to the mean difference of these values to get the gradient image. Finally, the improve non?maximum suppression method is adopted to refine the gradient image and extract the image edge. The experiment results show that the algorithm can detect the edge of image polluted by higher density impulse noise, and the edge is thinning, and the effect of the algorithm is better than the traditional Sobel algorithm.
Keywords: edge detection; impulse noise; mean gradient; non?maximum suppression
0 引 言
邊緣是圖像中目標與背景的分界線,灰度值變化最為顯著。圖像邊緣是圖像的最基本特征之一,包含了許多重要的信息,是圖像識別、圖像分割和圖像理解的重要依據[1]。邊緣檢測就是將圖像不同區域的邊界進行確定并提取出來,其效果直接影響后續圖像處理的精度和性能。由于數字圖像在獲取和傳輸過程中可能受到各種因素的影響而產生噪聲,進而影響到圖像邊緣檢測的效果,直接影響到圖像的后續處理工作。因此,在檢測圖像邊緣的同時如何有效地抑制噪聲一直是圖像處理領域研究的熱點之一。傳統的邊緣檢測算法如Roberts算子[2]、Sobel算子[3]、Prewitt算子[4]、LoG算子[5]、Canny算子[6]及Kirsch算子等,它們主要是基于圖像強度的一階或二階導數的計算,算法簡單,但對噪聲比較敏感。近年來,一些基于新理論的算法被提了出來,如數學形態學算法[7]、小波算法[8]、神經網絡算法[9]及遺傳算法[10]等,這些邊緣檢測算法在噪聲抑制性能上有了一定的提高,但也各自的存在著算法復雜、普適性差及實時性差等問題。本文借鑒傳統邊緣檢測算法的梯度計算原理,提出了一種基于均值梯度的邊緣檢測算法,并采用改進的非極大值抑制方法對梯度圖像進行細化,算法對不同程度污染的脈沖噪聲干擾圖像具有良好的抑噪性能,并能較好地檢測出圖像的邊緣。
1 基于梯度的邊緣檢測原理
傳統邊緣檢測算法都是基于梯度算子的,梯度算子就是一階導數算子。圖像的邊緣具有方向和幅度兩個基本屬性,沿著邊緣方向,像素灰度值變化平緩,而沿著垂直邊緣的方向,像素灰度值變化劇烈,在此方向上,像素點的一階導數具有最大值。當圖像噪聲污染較小時,梯度算子檢測的圖像邊緣效果良好。設f(x,y) 為連續數字圖像函數,則其梯度可以表示為如下的一個矢量。
[?fx,y=Gx GyT=?f?x ?f?yT] (1)
式中:Gx和Gy分別為x和y的一階導數,表示點(x,y)水平和垂直方向的梯度,其梯度幅值和方向分別可以通過式(2)和式(3)來計算。
[?fx,y=Gx2+Gy212=?f2?x+?f2?y12] (2)
[?x,y=arctanGxGy=arctan?f?x?f?y] (3)
為了使計算簡潔,常采用近似梯度幅值的計算方法,如式(4)所示。[?fx,y=maxfx′,fy′或?fx,y=fx′+fy′] (4)
式中[fx′=fx+1,y-fx,y,f′y=fx,y+1-fx,y]。
一階導數Gx和Gy需要針對圖像中每個像素的位置計算,實際中經常采用小窗口具有權值的模板與圖像進行卷積近似求得。Gx和Gy分別使用一個模板,它們的組合便是一個梯度算子。傳統的梯度算子有Roberts算子、Sobel算子和Prewitt算子等,它們的大小和權值都不盡相同,如圖1所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\07T1.tif>
圖1 幾種梯度算子模板
傳統的基于梯度算子邊緣檢測算法利用算子模板與圖像做卷積運算,將最大值輸出得到梯度圖像,然后再設定門限值TH,將大于等于TH的點視為圖像邊緣。梯度算子由于采用相鄰像素灰度差計算梯度,對噪聲較為敏感,當圖像受噪聲影響較為嚴重時,檢測出的邊緣圖像包括許多的噪聲邊緣,使得后續處理無法進行。
2 本文算法
針對傳統算法在邊緣檢測時對噪聲敏感問題,提出了一種基于均值梯度的邊緣檢測算法,算法采用5×5檢測窗口,將窗口按照水平方向和垂直方向分為4個區域,按照區域非噪聲點的均值差計算窗口中心點的梯度,求得梯度圖像,然后采用改進的非極大值抑制方法對梯度圖像進行細化,實驗證明,算法對脈沖噪聲抑制能力較強,邊緣細化效果較好,算法原理如下。
2.1 抑噪原理
圖像受脈沖噪聲干擾,主要表現為受污染點像素值發生突變,遠大于或遠小于周圍正常像素點,使得其與邊緣點一樣具有較大的梯度值,因此采用梯度算子進行邊緣檢測,將會使噪聲邊緣同真實邊緣一樣被檢測出來。本文算法在進行邊緣檢測時,針對脈沖噪聲的特點,采用閾值法先將檢測窗口中噪聲點檢測出來,判斷噪聲點按照式(5)方法進行。然后通過非噪聲點計算圖像梯度,不僅消除了噪聲點的邊緣,也消除了噪聲對圖像梯度計算的影響。
[fx,y=0, 0+δ≤fx,y≤255-δfx,y,others ] (5)
式(5)是對檢測窗口對噪聲點進行判斷,由于脈沖噪聲點像素值接近0或255,因此引用了調解因子δ,δ的范圍可根據具體圖像來調解。式(5)表明,如果檢測窗口內像素點為脈沖噪聲點,則將噪聲點置為零,否則保持原值不變。
2.2 分區均值計算梯度
算法采用分區均值計算圖像梯度,將5×5檢測窗口按照水平方向和垂直方向分為4個區域,如圖2所示。每個區域大小一樣,均為長方形,分布在中心點邊緣方向的上下或左右。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\07T2.tif>
圖2 檢測窗口四個分區
圖2中的(a)是檢測窗口沿中心點水平方向的上下兩個區域,用來計算中心點對應像素的垂直方向梯度;(b)是檢測窗口沿中心點垂直方向的左右兩個區域,用來計算中心點對應像素的垂直方向梯度,(x,y)為窗口中心點坐標,各區域內的灰色圓圈表示落在窗口區域內圖像的像素點。算法水平方向梯度和垂直方向梯度的計算如式(6)和式(7)所示。
[?fxx,y=1βavgAux,y-avgAdx,y] (6)
[?fyx,y=1βavgAlx,y-avgArx,y] (7)
式(6)表示采用中心點的上下兩個區域內的非噪聲像素平均值之差計算水平方向梯度,式(7)表示采用中心點的左右兩個區域內的非噪聲像素平均值之差計算垂直方向梯度,根據前面所述,區域內的噪聲點像素值均被賦0值,在計算區域均值時,不參與計算。式中的β為衰減因子,主要是防止梯度值的溢出,算法中取值為10。由于區域均值的計算去除了脈沖噪聲的干擾,采用區域均值充分利用了鄰域相關性原理,如果方向區域為邊緣方向,則該區域內的像素灰度值變化平緩,雖然缺少了一些像素點對區域均值的影響較小,利用均值差分可以較準確的表示邊緣梯度。最后將兩個方向梯度值的最大值作為輸出,即得到梯度圖像G,如式(8)所示。
[Gx,y=maxΔfxx,y,Δfyx,y] (8)
2.3 梯度邊緣細化及提取
圖像邊緣的細化是指在保持原圖像邊緣輪廓不變的情況下,盡可能地提取出單像素寬的骨架的過程。細化過程是數字圖像處理中的一個重要處理步驟,其效果直接影響圖像后續的相關處理。由于梯度圖像是通過一階微分或近似方法計算得出的,其邊緣較粗,為了只保留邊緣處梯度幅值局部變化最大的點,常采用非極大值抑制方法來細化邊緣。所謂非極大值抑制過程,就是沿著圖像邊緣的梯度方向進行檢測,將檢測方向上不具備局部極大值的像素值置為0,否則保持原像素值。
經過非極大值抑制方法處理后的梯度圖像,邊緣得到了細化,但也會產生新的非邊緣點或丟失一些邊緣點,不適合后續處理的要求。本文采用改進的非極大值抑制算法,如式(9)所示。算法采用3×3窗口,從水平和垂直兩個方向對梯度圖像G進行非極大值處理,G′為處理后的梯度圖像。
[G'(x,y)=G(x,y), if(G(x,y)≥γ.max(G(x-1,y),G(x+1,y))) 或if(G(x,y)≥γ.max(G(x,y-1),G(x,y+1)))0, others] (9)
式中:γ為細化度調解因子,根據γ可以根據需要調解細化強度。γ值減小,將減少邊緣點的丟失,γ值增大,額外的邊緣點會減少,當然邊緣點的丟失和額外邊緣點的增加是一對矛盾,可根據需要適當調解。經過多次實驗驗證,γ值在0.98~1.02之間調整,可保證邊緣寬度較細,且連續性較好。最后,選取合適閾值TH,將細化后的梯度圖像G′進行二值化處理,得到邊緣圖像。
3 驗證實驗
將標準灰度圖像cell作為實驗對象,在Matlab 實驗平臺下進行編程實驗。第一次實驗中,將cell圖像就加入密度為5%的脈沖噪聲,第二次將cell圖像加入密度為50%的脈沖噪聲,分別采用傳統Sobel 算法和本文算法對噪聲圖像進行邊緣檢測試驗。實驗結果如圖3和圖4所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\07T3.tif>
圖3 較低密度噪聲圖像檢測結果
從圖3可以看出,在噪聲密度較低時,傳統Sobel算法雖然能夠將真正的圖像邊緣檢測出來,但圖中同時含有許多噪聲邊緣,對于后續的工作將產生重大的誤差。本文算法 提取的邊緣圖像中不存在噪聲邊緣,圖像輪廓清晰,連續性較好,而且邊緣較細。從圖4可以看出,在噪聲密度達到50時,傳統Sobel算法檢測出的邊緣圖像受噪聲影響嚴重,已經模糊不清,幾乎用肉眼都無法識別出圖像輪廓;而本文算法依然能夠檢測出清晰的圖像邊緣,存在非常少的噪聲邊緣,同時邊緣較細,連續性較好。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\07T4.tif>
圖4 較高密度噪聲圖像檢測結果
4 結 論
針對含噪圖像提出一種基于均值梯度的邊緣檢測算法,算法采用分區域均值的方法計算圖像梯度,在較好地檢測出圖像邊緣的同時,對脈沖噪聲起到了良好的抑制作用。采用改進的非極大值抑制方法使得檢測出的圖像邊緣較細,而且連續性較好,具有良好的適應性和較高的應用價值。
參考文獻
[1] 鄧彩霞,王貴彬,楊鑫蕊.改進的抗噪形態學邊緣檢測[J].數據采集與處理,2013,28(6):740?744.
[2] 趙月云,王波.基于Roberts 邊緣檢測的面向對象建筑物信息提取[J].城市勘測,2012(2):120?122.
[3] 鄭英娟,張有會,王志巍,等.基于八方向Sobel算子的邊緣檢測算法[J].計算機科學,2013,40(11):354?356.
[4] 鄒柏賢,張然,苗軍.Prewitt圖像邊緣檢測方法的改進[J].微電子學與計算機,2013,30(5):23?26.
[5] 馬婭麗,熊淑華,黑建業.一種改進的LOG 邊緣算法研究[J].計算機技術與發展,2013,23(9):6?9.
[6] 許宏科,秦嚴嚴,陳會茹.一種基于改進Canny 的邊緣檢測算法[J].紅外技術,2014,36(3):210?214.
[7] 師文,朱學芳,朱光.基于形態學的MRI圖像自適應邊緣檢測算法術[J].儀器儀表學報,2013,34(2):408?413.
[8] 韓慧妍,韓燮.基于方向小波變換的邊緣檢測算法[J].微電子學與計算機,2007,29(7):55?57.
- 上一篇:集團化辦學德育工作計劃
- 下一篇:消防基礎理論知識