卷積神經網絡的改進范文
時間:2024-04-01 11:31:22
導語:如何才能寫好一篇卷積神經網絡的改進,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
【關鍵詞】深度學習 卷積神經網絡 權值共享 下采樣 R-CNN Fast-R-CNN
1 緒論
隨著電子信息技術的快速發展,芯片的設計與生產進入了納米時代,計算機的計算能力與計算速度得到了空前的提高,但是人們的需求是無限的,要求計算機能更加任性化的服務于我們的生活,這也就要求計算機本身能像人一樣識別與感知周圍的環境,并對復雜的環境做出正確的判斷。而圖片信息是我們周圍環境最直觀的,最容易獲取的信息,要求計算機能對為的環境做出識別與判斷也就要求計算機能夠智能的識別圖像信息。深度學習是機器學習中的一個新的研究領域。通過深度學習的方法構建深度網絡來抽取目標特征進而識別周圍的環境。卷積神經網絡對圖像的處理具有平移,旋轉,扭曲不變的優良特性。在處理圖像是更加快捷和便利。卷積神經網絡使得計算機在感知識別周圍環境的能力有了巨大的提升,使得計算機更加智能。卷積神經網絡擁有強大的特征提取能力,使得其在圖像分類識別,目標跟蹤等領域有著強大的運用。
1.1 國內外研究現狀
1986年,Rumelhart和Mc Celland提出BP算法。BP算法反向傳導神經網絡輸出誤差進行訓練神經網絡。通過BP算法,神經網絡能夠從大量訓練數據中的學習到相關統計信息,學習到的數據統計信息能夠反映關于輸入-輸出數據模型的函數映射關系。
自2006年以來,Geoffery Hinton教授提出深度信念網絡。從此深度學習在學術界持續升溫。深度學習不僅改變著傳統的機器學習方法,也影響著我們對人類感知的理解,迄今已在語音識別和圖像理解等應用領域引起了突破性的變革。各種相關的算法和模型都取得了重要的突破,使得深度學習在圖像分類,語音識別,自然語言處理等領域有廣泛的運用。
2013年百度成立百度深度學習研究院以來我國的人工智能領域取得了長足的進步。在人工智能專家吳恩達的帶領下,百度陸續推出一系列人工智能產品,無人駕駛技術,DuerOS語音交互計算平臺,人臉識別技術,美樂醫等優秀產品。此外Imagenet圖像識別大賽中也誕生了一系列經典的神經網絡結構,VGG,Fast-R-CNN,SPP-net等等,可以說人工智能技術在近幾年得到了空前的發展。
2 深度學習概述
深度學習是機器學習的一個新方向,通過學習樣本數據內在規律和深層特征深度,深度學習神經網絡能夠像人一樣有分析和學的能力,尤其在文字處理,圖像識別,語音等領域更加突出。能夠自主學習一些新的東西。目前深度學習使用的典型技術是通過特征表達和分類器來進行目標識別等任務的。并在語音識別、圖像處理、機器翻譯等領域取得很多成果。
深度學習不同于以往的淺層學習,淺層學習模型值包含一個隱藏層,或者不存在隱藏層,深度學習則是由很多隱藏層組成的,上一層的輸出作為下一層的輸入,實驗對輸入信息進行分級表達。目前深度學習框架主要包含三種深度學習框架,如圖1、2、3所示。
3 卷積神經網絡
卷積神經網絡的結構層次比傳統的神經網絡復雜,卷積神經網絡包含大量的隱藏層,相鄰的卷積核或者下采樣核采用局部感受野全鏈接,神經元權值共享的規則,因此卷積神經網絡訓練參數的數量遠比傳統神經網絡少,卷積神經網絡在訓練和前向測試的復雜度大幅度降低,同時也減少了神經網絡訓練參數過擬合的幾率。卷積神經網絡主要有兩部分,分別是卷積核和下采樣核。卷積核主要對上一層的圖像進行卷積運算,提取圖像特征,下采樣核則是對上層的數據進行將為處理,減少神經網絡的復雜度。
卷積神經網絡中每一個神經元的輸入與前一層的局部感受野相連,提取局部感受野的特征,比如圖像的輪廓,顏色等特征,而這些特征不僅包括傳統人類能理解的特征,也包括神經網絡自身能夠識別的特征,卷積核全職共享,因此這些特征提取與圖像的位置無關。
圖4是經典的LeNet5卷積神經網絡架構,LeNet5架構中卷積核和下采樣核交替出現,下采樣核及時的將卷積核生成的特征向量進行降維,減少神經網絡的運算量。LeNet5算法在1962年幼Hubel等人提出,在識別手寫數字mnist中有極高的準確率。
4 R-CNN、Fast-R-CNN對比分析
卷積神經網絡在對圖像進行識別具有平移,旋轉,扭曲不變的優良特性,并且能夠實現高準確率識別圖像,但是在現實生活運用中往往需要神經網絡標記出目標的相對位置,這是傳統卷積神經網絡不具備的功能。因此在前人傳統卷積神經網路基礎上對卷積神經網絡進行改進,產生了具有對圖像中目標進行識別和定位的卷積神經網絡R-CNN,Fast-R-CNN等改良算法。
4.1 R-CNN
R-CNN為Region Convoluntional Neural Network的縮寫即對圖像進行局部區域的卷積處理,其核心思想主要是利用候選區圖像對物體探測中位置信息進行精確處理和利用監督式預訓練和區域特殊化的微調方法,代替了傳統的非監督式預訓練和監督式微調。
在CNN中,全連接層輸入是固定大小的,因此R-CNN用計算機視覺算法將每一張圖片分割成1000-2000張的候選區圖片后,要將這些候選區圖片進行變換,生成固定大小的候選圖片,在訓練提取特征時一般采用經過預訓練的模型參數進行finetuning,榱嗽黽友盜費本,模型在也將生成的候選框以及標定的標簽作為訓練樣本進行訓練。R-CNN采用SVMs分類器對特征向量進行分類,在訓練SVMs時將候選框經過卷積神經網絡提取的特征和SVM標定結果輸入到SVMs分類器訓練分類器模型。而在測試時將圖像全部候選框經過卷積神經網絡提取的特征輸入到SVMs分類器中,得到每一類的評分結果。但是R-CNN在處理一張圖片是要處理需要對一張圖片1000-2000個候選區圖像進行前向運算,保存所有后選取圖片的特征值,要求計算硬件有大量的存儲空間,同時處理每一張圖片的時間也會增加。由于訓練集龐大,本文采用hard negative mining method方法提高存儲的利用率。
R-CNN的體現出了極大的優勢,其中MAP也可以大幅度提高,但是正如本文上述,R-CNN計算的時間成本很大,達不到實時的計算效果,R-CNN在對候選區進行處理時會使得圖像失真,部分信息丟失。
4.2 Fast-R-CNN
Fast-R-CNN則是再次改進的一種基于卷積神經網絡目標跟蹤定位算法。相比于R-CNN,Fast-R-CNN從單輸入變為雙輸入,在全連接層后有了兩個輸出,引入了Rol層。
Fast-R-CNN在運行的時候同樣會生成大量的候選區,同時將原始的圖片用卷積神經網絡進行特征提取,將原始圖片提取的特征與生成的候選區坐標送入Rol層為每一個候選區生成一個固定大小的特征向量。最后將Rol生成的特征向量全連接層產生最終的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式,SoftMax LOSS用于計算K+1分類的損失,K為第K個目標,1為背景;Regression LOSS計算候選區的四個角的坐標。
Fast-R-CNN在MAP上有了大幅度的提升,速度也得到了提升,但是在計算候選區是仍存在瓶頸,這也是限制Fast-R-CNN速度的因素。
5 實驗測試
對于本文提出的卷積神經網絡識別圖像定位圖像目標算法R-CNN,Fast-R-CNN,在本章給出實驗結果。實驗平臺為基于Linux系統的debian8下運行caffe進行訓練,采用顯卡K620進行實驗。
訓練模型初始化參數在是服從高斯隨機分布,R-CNN采用的網絡結構如圖7所示,Fast-R-CNN的網絡結構如圖8所示。
本次實現的訓練樣本為錄制實驗室視頻數據,將視頻數據轉換成幀圖片,對每張圖片數據進行裁剪,裁剪后圖像大小在256*256,共有500張,再將裁剪后的圖片進行旋轉,平移,扭曲,鏡像,加噪聲等處理,最后生成144萬張樣本圖片,其中136.8萬張圖片作為訓練樣本,7.2萬張作為測試樣本。
6 總結
在目標識別定位領域,卷積神經網絡具有強大的圖像處理能力,對圖像的識別定位具有很高度平移,旋轉,扭曲不變形的優良性能。卷積神經網絡架構R-CNN和Fast-R-CNN都有強大的圖像處理能力。Fast-R-CNN在識別準確率上比R-CNN高。R-CNN算法復雜,對一張圖片需要進行1000-2000次的卷積運算,特征重復提取。因此在訓練和前向測試時,R-CNN用的時間長,不能很好的適用于處理實時圖片數據,尤其視頻數據。R-CNN在對每個候選區進行特征提取之后需要將提取的特征向量存入內存,降低訓練測試時間的同時也需要耗費大量內存。因此從各方面分析可知,Fast-R-CNN性能優于R-CNN。
參考文獻
[1]謝寶劍.基于卷積神經網絡圖像分類方法研究[D].合肥工業大學,2015.
[2]鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014(02):175-184.
[3]陳先昌.基于卷積神經網絡的深度學習算法與運用研究[D].杭州:浙江工商大學,2006(04):603-617.
[4]李彥冬,郝宗波,雷航等.卷積神經網絡研究綜述[J].計算機應用,2016.
[5]Gibson.J J.The perception of the Visual World[J].Cambridge,England,1950.
[6]HORN B,SCHUNCK P.Determining optical flow[J].Artificial Intelligence, 1981,17:185-203.
[7]R.Girshick,J.Donahue,T. Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014
[8]Ross Girshick,Wicrosoft Research. Fast R-CNN,.
[9]R.Girshick.Fast R-CNN. arXiv:1504.08083,2015.
篇2
以上文章都結合卷積神經網絡模型對交通標志分類做了大量的研究,避免了復雜的人工特征提取算法的設計,研究結果具有一定的參考性。在現有卷積神經網絡模型的啟發下,以上文章都采用分類器。而訓練分類器需要大量樣本,因而在小樣本數據下,采用分類器容易造成過擬合,降低網絡的泛化性。同時,由于SVM分類器在小樣本數據集上具有出色分類性能,本文提出一種基于卷積神經網絡和多類SVM分類器[[4]的交通標志識別模型。此模型利用卷積神經網絡強大的特征提取和泛化能力,使得算法在復雜環境中依然具有可靠的識別結果。 首先,本文通過遷移學習策略「51L61對AlexNet網絡[7]特征提取部分進行微調,并將微調結果作為本文的特征提取器。然后將卷積神經網絡提取的特征作為多類SVM分類器的輸入。同時為了進一步防止過擬合現象的發生,本文在SVM分類器中加入dropout層,利用隨機置零策略進行參數選擇。最后,文章通過實驗結果證實本文提出的分類模型相比于采用softmax分類器有更好的準確率、在復雜背景中具有較高的識別率和較強的魯棒性棒。1卷積神經網絡和SVM
1.1 AlexNet網絡
AlexNet網絡是著名的卷積分類網絡,可成功實現對1000類別物體的分類。其結構可以分為特征提取器和分類器兩部分。
特征提取器主要由卷積層、池化層、激活函數組成。卷積層由大小不同的卷積核組成,卷積核類似于傳統視覺中的特征提取算子。但區別于傳統視覺算子,卷積核參數由網絡自己學習得到,可以提取圖像從底層到高層的不同特征信息。池化層常連接在卷積層之后,一般常用最大池化操作。池化層可以加強網絡對平移變化的魯棒性。激活函數為網絡引入非線性因素,使得網絡可以逼近任意函數形式。
分類層主要由全連接層和多類邏輯回歸函數組成。全連接層學習用合理的方式組合特征,可以看為函數映射。邏輯回歸函數進行類別概率判別,邏輯回歸判別見公式。同時,為了防止全連接層過擬合,AlexNet網絡引入dropout層,dropout[9]采用隨機置零的方式,防止神經元以特定的方式組合工作,從而防止深度網絡的過擬合。p}Y}}}=j1二(‘);B)=藝 e醉x})丫‘eBTx}' }e' j代表類別,二(i)為輸入,k代表類別總數,8,表示將樣本x}')映射到j類的參數,B代表er,r=i,z,~… ,,組成的矩陣,p(少‘)=j}x(仍表示x}'}屬于j類的概率。1.2標準SVM SVM是基于結構風險最小化理論的有監督學習算法,通過尋找最優分割超平面來實現分類[}10}。相比于神經網絡,SVM在小樣本數據集上也能表現出良好的分類效果,因而得到廣泛使用。標準的SVM通過尋求公式(2)的最優解來找到最優超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i個樣本標簽,x}'}代表第i個樣本特,m為訓練集大小。分類模型設計
本文提出的分類模型主要分為兩部分,特征提取部分和多類SVM分類器。整體結構如圖1所示。
圖1中,特征提取器主要對輸入圖片進行特征提取和融合,最終得到圖像的高階特征并將提取到的信息特征送入多類SVM分類器。dropout層進行參數隨機丟失步驟,此步驟通過隨機失活神經元可有效防止過擬合的發生;然后結合不加正則化項的SVM算法進行分類,得到最終輸出結果。
2.1特征提取器
篇3
過去10年,人們對機器學習的興趣激增。幾乎每天,你都可以在各種各樣的計算機科學課程、行業會議、華爾街日報等等看到有關機器學習的討論。在所有關于機器學習的討論中,許多人把機器學習能做的事情和他們希望機器學習做的事情混為一談。從根本上講,機器學習是使用算法從原始數據中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數據。
神經網絡是機器學習的一種模型,它們至少有50年歷史了。神經網絡的基本單元是節點(node),基本上是受哺乳動物大腦中的生物神經元啟發。神經元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發展的方式是為“訓練”。
在20世紀80年代中期和90年代初期,許多重要的架構進步都是在神經網絡進行的。然而,為了得到好的結果需要大量時間和數據,這阻礙了神經網絡的采用,因而人們的興趣也減少了。在21世紀初,計算能力呈指數級增長,計算技術出現了“寒武紀大爆發”。在這個10年的爆炸式的計算增長中,深度學習成為這個領域的重要的競爭者,贏得了許多重要的機器學習競賽。直到2017年,這種興趣也還沒有冷卻下來;今天,我們看到一說機器學習,就不得不提深度學習。
作者本人也注冊了Udacity的“Deep Learning”課程,這門課很好地介紹了深度學習的動機,以及從TensorFlow的復雜和/或大規模的數據集中學習的智能系統的設計。在課程項目中,我使用并開發了用于圖像識別的卷積神經網絡,用于自然語言處理的嵌入式神經網絡,以及使用循環神經網絡/長短期記憶的字符級文本生成。
本文中,作者總結了10個強大的深度學習方法,這是AI工程師可以應用于他們的機器學習問題的。首先,下面這張圖直觀地說明了人工智能、機器學習和深度學習三者之間的關系。
人工智能的領域很廣泛,深度學習是機器學習領域的一個子集,機器學習又是人工智能的一個子領域。將深度學習網絡與“經典的”前饋式多層網絡區分開來的因素如下:
比以前的網絡有更多的神經元更復雜的連接層的方法用于訓練網絡的計算機能力的“寒武紀大爆炸”自動特征提取
這里說的“更多的神經元”時,是指神經元的數量在逐年增加,以表達更復雜的模型。層(layers)也從多層網絡中的每一層都完全連接,到在卷積神經網絡中層之間連接局部的神經元,再到在循環神經網絡中與同一神經元的循環連接(recurrent connections)。
深度學習可以被定義為具有大量參數和層的神經網絡,包括以下四種基本網絡結構:
無監督預訓練網絡卷積神經網絡循環神經網絡遞歸神經網絡
在本文中,主要介紹后三種架構。基本上,卷積神經網絡(CNN)是一個標準的神經網絡,通過共享的權重在空間中擴展。CNN設計用于通過內部的卷積來識別圖像,它可以看到圖像中待識別的物體的邊緣。循環神經網絡(RNN)被設計用于識別序列,例如語音信號或文本。它的內部有循環,這意味著網絡上有短的記憶。遞歸神經網絡更像是一個層級網絡,在這個網絡中,輸入必須以一種樹的方式進行分層處理。下面的10種方法可以應用于所有這些架構。
1.反向傳播
反向傳播(Back-prop)是一種計算函數偏導數(或梯度)的方法,具有函數構成的形式(就像神經網絡中)。當使用基于梯度的方法(梯度下降只是方法之一)解決優化問題時,你需要在每次迭代中計算函數梯度。
對于神經網絡,目標函數具有組合的形式。如何計算梯度呢?有兩種常用的方法:(i)解析微分(Analytic differentiation)。你已經知道函數的形式,只需要用鏈式法則(基本微積分)來計算導數。(ii)利用有限差分進行近似微分。這種方法在計算上很昂貴,因為函數值的數量是O(N),N指代參數的數量。不過,有限差分通常用于在調試時驗證back-prop實現。
2.隨機梯度下降法
一種直觀理解梯度下降的方法是想象一條河流從山頂流下的路徑。梯度下降的目標正是河流努力達到的目標——即,到達最底端(山腳)。
現在,如果山的地形是這樣的,在到達最終目的地之前,河流不會完全停下來(這是山腳的最低點,那么這就是我們想要的理想情況。)在機器學習中,相當從初始點(山頂)開始,我們找到了解決方案的全局最小(或最佳)解。然而,可能因為地形的性質迫使河流的路徑出現幾個坑,這可能迫使河流陷入困境。在機器學習術語中,這些坑被稱為局部極小值,這是不可取的。有很多方法可以解決這個問題。
因此,梯度下降很容易被困在局部極小值,這取決于地形的性質(用ML的術語來說是函數的性質)。但是,當你有一種特殊的地形時(形狀像一個碗,用ML的術語來說,叫做凸函數),算法總是保證能找到最優解。凸函數對ML的優化來說總是好事,取決于函數的初始值,你可能會以不同的路徑結束。同樣地,取決于河流的速度(即,梯度下降算法的學習速率或步長),你可能以不同的方式到達最終目的地。這兩個標準都會影響到你是否陷入坑里(局部極小值)。
3.學習率衰減
根據隨機梯度下降的優化過程調整學習率(learning rate)可以提高性能并減少訓練時間。有時這被稱為學習率退火(learning rate annealing)或自適應學習率(adaptive learning rates)。訓練過程中最簡單,也是最常用的學習率適應是隨著時間的推移而降低學習度。在訓練過程開始時使用較大學習率具有進行大的改變的好處,然后降低學習率,使得后續對權重的訓練更新更小。這具有早期快速學習好權重,后面進行微調的效果。
兩種常用且易于使用的學習率衰減方法如下:
逐步降低學習率。在特定的時間點較大地降低學習率。
4?. Dropout
具有大量參數的深度神經網絡是非常強大的機器學習系統。然而,過擬合在這樣的網絡中是一個嚴重的問題。大型網絡的使用也很緩慢,這使得在測試時將許多不同的大型神經網絡的預測結合起來變得困難。Dropout是解決這個問題的一種方法。
Dropout的關鍵想法是在訓練過程中隨機地從神經網絡中把一些units(以及它們的連接)從神經網絡中刪除。這樣可以防止單元過度適應。在訓練過程中,從一個指數級的不同的“稀疏”網絡中刪除一些樣本。在測試時,通過簡單地使用一個具有較小權重的單一網絡,可以很容易地估計所有這些“變瘦”了的網絡的平均預測效果。這顯著減少了過擬合,相比其他正則化方法有了很大改進。研究表明,在視覺、語音識別、文檔分類和計算生物學等監督學習任務中,神經網絡的表現有所提高,在許多基準數據集上獲得了state-of-the-art的結果。
5. Max Pooling
最大池化(Max pooling)是一個基于樣本的離散化過程。目標是對輸入表示(圖像,隱藏層輸出矩陣等)進行下采樣,降低其維度,并允許對包含在分區域中的特征進行假設。
這在一定程度上是為了通過提供一種抽象的表示形式來幫助過擬合。同時,它通過減少學習的參數數量,并為內部表示提供基本的平移不變性(translation invariance),從而減少計算成本。最大池化是通過將一個最大過濾器應用于通常不重疊的初始表示的子區域來完成的。
6.批量歸一化
當然,包括深度網絡在內的神經網絡需要仔細調整權重初始化和學習參數。而批量標準化有助于實現這一點。
權重問題:無論權重的初始化如何,是隨機的也好是經驗性的選擇也罷,都距離學習到的權重很遙遠??紤]一個小批量(mini batch),在最初時,在所需的特征激活方面將會有許多異常值。
深度神經網絡本身是有缺陷的,初始層中一個微小的擾動,就會導致后面層巨大的變化。在反向傳播過程中,這些現象會導致對梯度的分散,這意味著在學習權重以產生所需輸出之前,梯度必須補償異常值,而這將導致需要額外的時間才能收斂。
批量歸一化將梯度從分散規范化到正常值,并在小批量范圍內向共同目標(通過歸一化)流動。
學習率問題:一般來說,學習率保持較低,只有一小部分的梯度校正權重,原因是異常激活的梯度不應影響學習的激活。通過批量歸一化,減少異常激活,因此可以使用更高的學習率來加速學習過程。
7.長短時記憶
LSTM網絡在以下三個方面與RNN的神經元不同:
能夠決定何時讓輸入進入神經元;能夠決定何時記住上一個時間步中計算的內容;能夠決定何時讓輸出傳遞到下一個時間步長。
LSTM的優點在于它根據當前的輸入本身來決定所有這些。所以,你看下面的圖表:
當前時間標記處的輸入信號x(t)決定所有上述3點。輸入門從點1接收決策,遺忘門從點2接收決策,輸出門在點3接收決策,單獨的輸入能夠完成所有這三個決定。這受到我們的大腦如何工作的啟發,并且可以基于輸入來處理突然的上下文/場景切換。
8. Skip-gram
詞嵌入模型的目標是為每個詞匯項學習一個高維密集表示,其中嵌入向量之間的相似性顯示了相應詞之間的語義或句法相似性。Skip-gram是學習單詞嵌入算法的模型。
Skip-gram模型(以及許多其他的詞語嵌入模型)的主要思想是:如果兩個詞匯項(vocabulary term)共享的上下文相似,那么這兩個詞匯項就相似。
換句話說,假設你有一個句子,比如“貓是哺乳動物”。如果你用“狗”去替換“貓”,這個句子仍然是一個有意義的句子。因此在這個例子中,“狗”和“貓”可以共享相同的上下文(即“是哺乳動物”)。
基于上述假設,你可以考慮一個上下文窗口(context window,一個包含k個連續項的窗口),然后你跳過其中一個單詞,試著去學習一個能夠得到除跳過項外所有項的神經網絡,并預測跳過的項是什么。如果兩個詞在一個大語料庫中反復共享相似的語境,則這些詞的嵌入向量將具有相近的向量。
9.連續詞袋(Continuous Bag Of Words)
在自然語言處理問題中,我們希望學習將文檔中的每個單詞表示為一個數字向量,使得出現在相似的上下文中的單詞具有彼此接近的向量。在連續的單詞模型中,我們的目標是能夠使用圍繞特定單詞的上下文并預測特定單詞。
我們通過在一個龐大的語料庫中抽取大量的句子來做到這一點,每當我們看到一個單詞時,我們就會提取它周圍的單詞。然后,我們將上下文單詞輸入到一個神經網絡,并預測位于這個上下文中心的單詞。
當我們有成千上萬的這樣的上下文單詞和中心詞以后,我們就有了一個神經網絡數據集的實例。訓練神經網絡,最后編碼的隱藏層輸出表示特定單詞的嵌入。而當我們對大量的句子進行訓練時也能發現,類似語境中的單詞得到的是相似的向量。
10.遷移學習
篇4
>> 用于腦運作分析的前向網絡樣本重組樹生成算法研究 基于三角構成規則的加權有向網絡拓撲生成算法 適用于網絡漸進傳輸的多分辨率曲線生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻綜述 基于列生成算法的集裝箱班輪運輸網絡優化 基于全卷積神經網絡的圖像縮略圖生成算法 傳感器網絡中一種基于編碼的MAC生成算法 數據庫關鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機算法的試卷生成算法研究 分析基于列生成算法的動車組檢修計劃優化 AOS自相似業務流等時幀生成算法的Matlab仿真分析 關于傳統空間緩沖區生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統中試卷生成算法的改進 一種可用于腦神經網絡分析的有向網絡分解算法 形式概念演化生成算法 MPI通信代碼自動生成算法 一種啟發式雙代號網絡圖自動生成算法 常見問題解答 當前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]謝勤.WAP算法連續化及其應用[C].畢業論文,2004.
[31]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[J].數字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[C].第八屆海內外華人神經科學家研討會論文集.北京:科學出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]謝勤.用于腦運作分析的前向網絡樣本重組樹生成算法研究[C].電子技術與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通訊作者:謝勤)
作者簡介
謝勤(1982-),男,A南理工大學碩士,中國神經科學學會會員,工程師,近年在亞組委信息技術部完成核心信息系統――計時記分和成績處理系統項目實施管理方面的工作,其中計時記分系統投資一億。主要研究方向為計算機科學與工程、人工智能、神經生物學。
作者單位
1.廣州市科技和信息化局 廣東省廣州市 510000
2.第16屆亞運會組委會信息技術部 廣東省廣州市 510000
3.廣州生產力促進中心 廣東省廣州市 510000
4.廣州市科學技術信息研究所 廣東省廣州市 510000
5.廣州市科技創新委員會 廣東省廣州市 510000
篇5
基金項目:甘肅省自然科學基金資助項目(1014RJZA009);甘肅省教育廳碩士生導師基金資助項目(0803-07)。
作者簡介:王燕(1971-),女,甘肅蘭州人,副教授,碩士,主要研究方向:模式識別、圖像處理、智能信息處理; 公維軍(1987-),男,甘肅張掖人,碩士研究生,主要研究方向:模式識別。
文章編號:1001-9081(2011)07-1822-03doi:10.3724/SP.J.1087.2011.01822
(蘭州理工大學 計算機與通信學院, 蘭州 730050)
()
摘 要:提出了一種基于雙閾值的兩級級聯分類器的人臉檢測加速方法。該方法首先應用Gabor濾波器提取經模板匹配保留的似人臉樣本特征,經主成分分析(PCA)降維后的特征作為第一級BP神經網絡輸入進行檢測,在輸出端應用雙閾值對人臉/非人臉進行粗檢測,然后把介于雙閾值之間的人臉/非人臉模塊作為第二級AdaBoost算法設計的輸入并再次進行精檢測,從而在提高檢測速度的同時達到提高檢測率和降低誤檢率的目的。實驗表明,應用雙閾值進行級聯分類加速檢測后,該方法的檢測精度要優于基于簡單閾值的分類器。
關鍵詞:人臉檢測;雙閾值;分類器;級聯;加速
中圖分類號:TP391.4文獻標志碼:A
Accelerated algorithm of face detection based on
dual-threshold cascade classifiers
WANG Yan,GONG Wei-jun
(School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China)
Abstract: The paper proposed an accelerating way of face detection based on dual-threshold cascade classifiers. First, it applied Gabor filter to extract the face-like features that were retained by template matching, then put eigenvectors extracted by the way of Principal Component Analysis (PCA) into the BP neural network as first classifier, then used dual-threshold to decide face or non-face on output end, and put the face or non-face of midway between up and down threshold into the AdaBoost classifier as the second classifier to decide. In this way, it can improve the detection rate and reduce the false rate while speeding up the detection speed. The experimental results prove that the precision of cascade classifier of face detection based on dual-threshold is superior to the classifier of single threshold.
Key words: face detection; dual-threshold; classifier; cascade; acceleration
0 引言
人臉作為人類視覺中常見而復雜的模式,它所表現的信息在人與人的交流及人機交互領域都有著重要的意義。對人臉進行檢測在安保視頻監控,目標身份檢測、門禁系統、智能人機接口和偵查犯罪等諸多領域都有著廣泛的應用背景。人臉檢測可描述為對一幅給定的圖像(靜態或者視頻),采用一定的方法和策略對其進行搜索以確定其中是否含有人臉以及人臉在圖像中出現的位置。
人臉是一類非剛性的自然形體,雖然具有很強的共性,但由于個體表情、光照、遮掩以及成像角度等因素的影響,使得人臉具有比較復雜而細致的模式變化。如果能夠很好地提取關鍵特征及設計良好的分類器,將為解決后續跟蹤識別及相似的復雜模式檢測問題提供有益的指導,所以人臉檢測是當前模式識別領域的一個熱點研究課題。
之前不少學者提出了各種綜合算法以及一些改進算法,Rowley等人[1]提出了使用神經網絡算法設計的人臉檢測模型,Viola等人[2]等人提出了用簡單特征訓練級聯人臉檢測器的AdaBoost方法,這之后又有學者在此基礎上提出了改進算法,如Lienhart等人提出的擴展特征的旋轉人臉檢測[3]、支持向量機[4]等。還有學者提出各種模型算法,如膚色模型的人臉檢測[5-6]等。上述基于單一分類器的人臉檢測在一定程度上提高了檢測精度,但是由于自身特點的局限性,并且分類閾值的單一性等造成了進一步提升精度和降低報警率的困難。本文通過級聯分類這種粗細檢測的原則,提出了一種基于雙閾值的級聯分類器的加速人臉檢測方法。與以往級聯的方法不同,本方法結合基于知識與統計的方法[7],先應用模板匹配將大量背景去除,只將其中很少的似人臉送入第一級BP神經網絡構成的分類器進行雙閾值初檢,將介于上下閾值的人臉/非人臉送入應用Haar特征的AdaBoost算法的第二級分類器進行精確判別。實驗證明該方法能夠有效提高檢測率,降低誤檢率并提高檢測速度。
1 兩級分類器的構建
1.1 基于Gabor小波的BP神經網絡分類器
1.1.1 Gabor小波特征提取
Gabor小波變換(加窗傅里葉變換)由于其小波核函數具有和人腦大腦皮層簡單細胞的二維反射區相類似的特性,使其在空間頻率、方向選擇及空間位置的局部信息上有著良好的采集和分辨能力,因此在以生物學和視覺特性為背景的圖像學和人臉檢測等多方面得到了廣泛的應用。
二維Gabor濾波器函數形式為:
Gj(w)exp(-)[exp(ikjw)-exp(-)](1)
其中:kj,φuu?,w(x,y);δ為高斯窗口的尺度因子,控制濾波器的帶寬和尺度;φu與ωv控制濾波器的調制方向和頻率。只要選擇合適的δ、φu和ωv,就可以使Gabor小波濾波器構成Gabor濾波器組來一同作用于圖像,從而實現目標圖像的Gabor小波分解,得到我們所要的特征。在本文中通過檢測窗口與Gabor濾波器組卷積即可得到我們所要提取的特征。
1.1.2 BP神經網絡
BP神經網絡是一種基于誤差修正學習規則的網絡,它實現一種由輸入到輸出的非線性空間的一種映射,它的模型一般由輸入層、隱層、輸出層組成,隱層可以由一層或多層組成。該算法學習的目的是對網絡的連接權值進行調整,使得對任意輸入都能得到所謂期望的輸出[8],它采用了優化的梯度下降算法,直到調整的誤差滿足需求為止。
1.2 基于AdaBoost算法的人臉檢測分類器
1.2.1 Haar特征模板和積分圖像
應用AdaBoost學習算法的特征級聯人臉檢測方法是由Viola和Jones提出來的,該方法采用一種“積分圖像”的表示方法,能快速從人臉中計算出所用到的人臉特征。
Haar型特征是Viola等人提出的一種簡單的矩形矩陣。Haar型特征的值是指圖像上兩個或者多個形狀大小相同的矩形內部所有像素灰度值之和的差值。這些以圖像灰度值為自變量的矩形特征在邊緣檢測方面有著很好的表現能力,對人臉臉部的各種特征有很好的提取和編碼能力,檢測速度很快。
Haar型特征的計算是通過引入積分圖像實現的,見圖1。對于一個灰度圖像I,它的積分圖像i的定義為圖像中(x,y)點左上部分所有像素點的累加:
I(x,y)∑x′≤x,y′≤yi(x′,y′)(2)
圖1 積分圖像
這時,1、2、3、4的積分圖的值分別為A、A+B、A+C、A+B+C+D,D點的矩形特征可以通過4+1-(2+3)計算得出,這樣,只要對圖像遍歷一次,就可以得到積分圖,就可以在恒定的時間內得到任意尺度下的圖像的特征。
1.2.2 AdaBoost學習算法
AdaBoost學習算法選擇少量而又非常重要的矩形特征來構造一系列弱分類器,然后將這些弱分類器級聯起來構成一個強分類器。算法通過選擇最能區分正負樣本的矩形特征。對于每一個特征,弱分類器給定一個最優的分類函數的閾值,使得最少的樣本被錯誤分類。一個弱分類器hj(x)包含矩形特征fj,閾值θj和用于控制不等式方向的pj:
hj(x)1, pjfj(x)≤pjθj
0, 其他 (3)
具體學習算法如下:
設(X1,Y1)、(X2,Y2)、…、(Xn,Yn)為具體輸入的圖像,用Yj0,1來標記正負樣本,T為循環次數。
1)初始化權值w1,對正樣本(Yj1)和負樣本(Yj0)有I1/(2m),1/(2n)。
2)當t1,2,…,T時:
①標準化權值,wt,i
②對每一個特征j,訓練相應的分類器hj使該分類器對該特征進行分類,誤差為εj∑Tt1wt|hj(x)-yi|。
③選擇最小誤差分類的分類器。
④更新權值wt+1,twt,jβ1-eit,若Xi被正確地分類,則ei0;反之,ei1,βt(1-ei)/t。
⑤最終的強分類器為:
h(x)1, ∑Tt1αtht(x)≥∑Tt1αt
0, 其他 (4)
其中αtlb (1/βt)。
2 基于雙閾值的級聯分類器的加速算法
2.1 系統構造框架
為了解決基于傳統的檢測方法中無論是單分類器還是級聯分類器均由單一閾值造成漏檢與誤檢之間的矛盾,本文在兼顧速度的同時通過利用雙閾值設置檢測緩沖區,達到提高檢測率與降低誤檢率和漏檢率的目的。具體流程如圖2所示。
圖2 人臉檢測系統框架
2.2 樣本選取和圖像預處理
該系統所用的人臉訓練樣本來自MIT、ORL訓練圖庫。為了便于訓練,統一將其裁剪為21×18的樣本圖像進行相應的分類器訓練,在訓練當中可以根據后期檢測結果適時添加一些非人臉樣本,減少一定的盲目性。
無論在訓練還是在檢測前,為了減少圖像由于光照、背景以及采集設備等造成的影響,都將進行一定的預處理。在本系統中,我們采用了連續性能更好的Gamma光照補償,這樣當原始圖像分布不均勻,并且主要集中在較低范圍灰度級時,經過均衡處理后,圖像的灰度動態范圍變大,對比度增強,人臉特征更加突出。這樣可以進一步減少光照等因素帶來的影響,從而更有利于提取人臉特征。
2.3 系統加速算法設計
傳統基于滑動窗的檢測方法在待測圖像中依次滑動,通過將每一個窗口送入訓練好的神經網絡分類器進行判別,而經實驗測試一張21×18的圖片在本文所訓練的神經網絡分類器中運行時間為0.07s左右,若進行全部窗口測試,計算量相當大,這也是時間復雜度相對較高的原因之一。基于此,本文對基于歐氏距離的模板匹配算法[9]進行模板改進,去除眼睛模板,在應用多尺度壓縮的圖像金字塔方法的測試圖片上進行整體模板匹配[10],通過保留與人臉相似度大的窗口位置進行神經網絡分類器測試進而將大量背景去除,通過這種加速處理方法來提高前期算法的效率。
2.4 雙閾值級聯分類器
第一級分類器我們采用神經網絡的方法[11-12]。它是通過主成分分析(Principal Component Analysis,PCA)降維[13]后進行BP神經網絡訓練得到的分類器,由于傳統BP神經網絡在應用時存在一些問題,如容易形成局部最小問題、收斂速度問題而不能保證全局最小結果[14],因此本文在訓練BP神經網絡時采用具有自適應能力的動量項對BP神經網絡進行優化設計。對隱層的神經元來說:
Δwji(n)αΔwji(n-1)+ηδj(n)yj(n)(5)
對于輸出層來說:
Δwji(n)αΔwji(n-1)+ηδk(n)yj(n)(6)
在式(5)和式(6)中,α為動量因子,調節范圍在(0,1),其中式中第二項相當于ηδ(n)y(n)-η,可以根據這一項來判斷誤差曲面的趨勢以進行自適應調整,從而不至于過大造成過沖或過小造成收斂速度慢,從而起到一定的穩定作用。根據具體實驗效果,得出了以下自適應因子數據參照表,見表1。
表1 自適應因子參照表
通過自適應因子來調節學習速度進而控制反饋回路。通過應用優化設計的BP網絡,其收斂速度和魯棒性得到了很大的提高。
將達到一定程度的匹配模塊經過Gabor特征提取輸入第一級分類器,在應用神經網絡進行粗檢測時,如果高于雙閾值中的上閾值則直接判別為人臉,不再送入細檢測分類器;而低于下閾值的直接判別為非人臉,直接剔除;而由于訓練集范圍的有限性及光照,遮掩等各種原因,在介于高閾值和低閾值之間的范疇中,有存在人臉的可能性。因此,把介于這兩個閾值之間的人臉與部分非人臉圖像塊再輸入基于Haar特征的AdaBoost分類算法的第二級分類器進行再次判別,由于只檢測第一級分類器輸出介于雙閾值之間的人臉或非人臉的小尺寸圖像,所以在此進一步進行加速檢測。
由于第二級分類器采用灰度級上的積分特征提取,所以能夠快速地對介于雙閾值中的人臉/非人臉從灰度級上進行確認。最后通過這兩級級聯分類器的最終確認并合并人臉中心位置以確定最終位置,從而得到檢測后最終的人臉圖像。
2.5 算法描述
根據粗細檢測的原則,對檢測圖片進行分類器級聯檢測,由第一級神經網絡分類器進行粗檢測,在與第二級分類器級聯時,通過設置雙閾值接口算法來進行細檢測從而達到既降低計算復雜度又提高精度的目的。具體算法描述如下:
1)初始化分類器,預處理測試集圖片
2)FOR i1:n//n為測試集圖片數
Input classifier_gabor&bp( )//進入第一級分類器
FOR j1:m //m為第一級分類器初檢圖像塊數
IF wj>Threshold_up
yj+1 accept//加入到人臉集
ELSE IF
(wjThreshold_down)
Input classifier_adaboost( )//進入第二級分類器
IF (wj>Threshold_adaboost)
yj+1 accept//再次確認加入到人臉集
ELSE discard
ELSE discard
END
END
Threshold_up與Threshold_down為系統第一級分類器的上下閾值。
3 系統測試結果與分析
為了驗證該算法的加速性能與檢測率,采用2組實驗進行檢測,第一組采用一張320×240的標準視頻的一幀靜態多人臉圖像進行速度檢測,驗證本文算法的加速性能;第二組進行識別率檢測,首先對CMU實驗室的CMU_PIE中的gallery圖庫中的68張簡單背景正面人臉進行檢測,由于背景單一且為單人臉,檢測率最高達到了100%,同時為了進一步驗證算法設計的有效性,我們對部分MIT+CMU的測試圖片以及室外收集的部分圖片進行了測試(包含120張圖片,235個人臉,其中包括部分不超過±20°的側面人臉),并對單一使用AdaBoost算法檢測人臉與BP神經網絡、Gabor+BP神經網絡人臉檢測方法做了對比實驗,實驗1和實驗2的結果如下所示,圖4為應用雙閾值級聯分類器的對比效果。
表2 不同算法檢測速度和檢測率
圖3 部分測試圖片檢測效果
圖4 雙閾值級聯分類效果對比
通過以上實驗結果表明,本文提出的算法在精確度和魯棒性上有了明顯的提高,從表2的檢測速度上來看,雖然本文提出的算法相比AdaBoost算法較慢,但比傳統算法有很大幅度的提高,有進一步提升的潛力;同時從圖4中可以清晰地看出,應用雙閾值粗細檢測方法能進一步降低誤檢率,精度有相對較大的提升。
4 結語
本文提出了一種基于雙閾值的兩級級聯分類器的人臉加速檢測方法,通過模板匹配方法來降低在分類器中的計算時間,同時在兩級級聯分類器之間設置雙閾值接口進行級聯檢測,并在第一級分類器的收斂性上做了一定的改進,在加速的同時更加提高了精度。通過應用雙閾值級聯分類器的加速算法判斷人臉/非人臉,解決了基于傳統閾值分類器在檢測當中的矛盾問題,速度也有相應的提高,誤檢率進一步降低,系統整體性能得到了提升。
參考文獻:
[1] ROWLEY H A, BALUJA S, KANADA T. Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(1):23-38.
[2] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2001:511-518.
[3] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// Proceedings of the International Conference in Image Processing. New York:IEEE, 2002:900-903.
[4] HEISELE B, SERRE T, POGGIO T. A component-based framework for face detection and identification[J]. International Journal of Computer Vision, 2007, 74(2):167-181.
[5] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):696-706.
[6] 月書仁,梁昔明,葉吉祥,等.基于臉部信息和支持向量機的人臉檢測[J].計算機應用,2006,26(5):1032-1034.
[7] 梁路宏,艾海舟,徐光佑,等.人臉檢測研究綜述[J].計算機學報,2002,25(5) :449-458.
[8] 王志良,孟秀艷.人臉工程學[M].北京:機械工業出版社,2008.
[9] 梁路宏,艾海舟,徐光佑,等.基于模板匹配與人工神經網確認的人臉檢測[J].電子學報,2001,29(6):744-747.
[10] 林宇生,楊靜宇. 基于Gabor濾波特征和支持向量機的人臉檢測[J]. 計算機工程與應用, 2007, 43(1):33-34.
[11] 聶祥飛,郭軍.基于Gabor小波的人臉檢測[J].計算機工程,2006,32(21):44-46.
[12] 頊改燕,徐華,翟忠武,等.基于Gabor濾波器和BP神經網絡的人臉皮膚皺紋區域自動識別[J].計算機應用,2010,30(2):430-432.
篇6
【關鍵詞】神經網絡;故障測距;小波包;相對誤差
0 引言
我國礦井配電網多為6kV單側電源供電系統,采取中性點非有效接地方式,屬于小電流接地系統(NUGS)。饋電回路選用多段短電纜徑向延伸為各種井下高低壓電機、電氣設備、照明及各種通信、自動化裝置和儀表、儀器提供電能。由于井下工作環境惡劣,供電電纜經常發生接地、斷線、短路等故障,據電力部門統計,其中單相接地故障的發生率最高。盡管發生單相接地故障時,線電壓仍然對稱,暫時不影響對負荷的連續供電,但就礦井這類危險易爆場所而言,當發生單相接地故障時,應盡快跳閘斷電以確保安全。為此,必須及時對故障點進行定位、排除故障、加快恢復線路供電。
NUGS饋線的故障定位問題一直以來未得到滿意的解決,這與其自身的特點有關。由于電網變壓器中性點不直接接地,造成單相接地電流無法形成小阻抗回路,故障電流主要由線路對地電容電流提供,其數值較小,且基波分量幅值故障前后變化不大,使得定位保護裝置很難準確進行故障選線和定位??紤]到井下環境條件和負荷的特殊性,礦井配電網與傳統意義上的NUGS存在一定的差異:單相接地產生的暫態分量較穩態分量大得多,暫態波形畸變嚴重,應研究利用暫態電氣量進行故障測距的可行性;饋電線路分支少、長度短,對測距精度要求高[1]。
鑒于上述原因,本文就井下配電網故障測距問題進行研究,以期提高故障測距的精度和可靠性。
1 BP網絡的結構和算法
BP網絡結構上類似于多層感知器,是一種多層前饋神經網絡,網絡權值的訓練算法為誤差反向傳播(BP)學習算法。如圖1所示為一典型3層BP網絡模型。
圖1 3層BP網絡模型
以圖示BP網絡模型為例說明網絡的學習過程:
(1)初始化。為每個連接權值wij、wjt、閥值θj、θt賦予(-1,1)區間的隨機值。
(2)給定輸入輸出目標樣本。給定輸入向量Xp=(x1,x2,...,xn)和期望目標向量Tp=(t1,t2,...,tm),p∈1,2,...,P。
(3)計算網絡各層的輸出。由輸入樣本、連接權值、閥值及各層神經元傳遞函數計算隱含層和輸出層的輸出。
(4)計算網絡實際輸出與期望輸出的一般化誤差。系統的目標函數為:
E=■■■(t■-y■)2=■E■(1)
網絡通過調整權值和閥值使滿足預先設定的一個極小值。
(5) 利用目標函數調整網絡的權值和閥值。BP算法按照目標函數梯度的反方向對網絡參數進行調整,使目標函數收斂,即實際輸出接近目標輸出。對于第p個輸入樣本的權值、閥值,按下式修正,式中?濁為學習速率。
?駐w=-?濁■, ?駐θ=-?濁■(2)
對應的權值、閥值按下式調整,式中為迭代步數。
w(k+1)=w(k)+?駐wθ(k+1)=θ(k)+?駐θ(3)
(6)隨機選擇下一組學習樣本向量進行訓練,直到P個樣本對訓練完畢。
(7)重新從P個學習樣本中隨機選取一組輸入、目標樣本對,返回步驟(3),直到目標函數E收斂于給定值,若訓練次數大于設定的最大訓練次數,則網絡不收斂。
由于BP算法學習速率為固定值,收斂速度較慢,且可能會產生多個局部極小值,另外網絡的隱含層層數和神經元數目的選擇尚無理論指導,因此網絡具有較大的冗余性。為了克服以上不足,提出了許多改進算法,從改進途徑上分為兩類:
一類為啟發式學習算法,如動量BP算法、彈性算法、學習率可變的BP算法等;另一類為快速優化算法,如擬牛頓算法、LM算法等。
2 基于BP小波神經網絡的故障測距
小波包具有正交特性、信號分解后的信息量是完整的,因此利用小波包算法分析信號頻率的分布情況,能夠有效提取信號的暫態特征。對于電纜線路而言,其暫態零序電流的自由振蕩頻率一般在1500~3000Hz之間[2-3]。本文利用小波包提取該頻段的暫態零序電流信號模極大值作為神經網絡模型的輸入,以期實現高精度的故障測距。
2.1 小波基的選擇
在利用小波包提取模極大值時,小波基的選擇十分重要,選擇不同的小波基對信號進行分解,可以突出不同特點的信號特征。Daubechies小波系是信號分析處理中常用的一類小波,具有緊支性、正交性,滿足精確重構條件,但由于其不具有對稱性,因而其邊界效應會隨尺度的增加而擴大,引起分解誤差;Morlet小波常用于信號表示、圖像特征的提取和識別;Mexican hat小波則用于系統辨識。
3次B樣條小波是一種具有線性相位的緊支對稱小波,分頻能力強,頻帶相干小,由于具有對稱性,只要采取合理的延拓方式,其邊界效應引起的誤差可忽略不計。
B樣條基函數的遞推公式如下:
N■(x)=1,x■≤x≤x■0,x?埸x■,x■N■(x)=■N■(x)+■N■(x)(4)
3次B樣條基函數N■(x)在xi,xi+4上具有局部支集性,表達式如(5)所示。
(5)若取參數x■=i(i=0,1,...,n)為節點即為均勻B樣條基,再對均勻B樣條基作參數變換,在每個子區間內以參數代換,在每個子區間的值均為u0,1。3次B樣條基函數的表達式如式6所示。
由于二進小波包變換具有平移不變性,不會引起正交小波包變換在所分析信號不連續處產生的偽吉布斯現象[4]。故本文利用3次B樣條小波包對短路故障電流進行卷積型二進小波包分解,以期獲得更顯著的故障特征信息。
N■(x)=■,x■≤x≤x■■+■,x■≤x≤x■■+■,x■≤x≤x■■,x■≤x≤x■0,x?埸x,x■
(5)
N■(u)=■u3■(-3u3+3u2+3u+1)■(3u3-6u2+4)■(-u3+3u2-3u+1) 0≤u≤1(6)
2.2 分解尺度的選擇
如何選擇分解尺度對于零序電流暫態分量的模極大值提取至關重要,尺度取得越大,信號與噪聲的表現差異越明顯,越有利于兩者的分離。但分解尺度取得越大,則對應的頻帶寬度越窄,采樣點數過小,不利于下一步的信號分析[5-7]。
由于本文仿真的采樣頻率取1MHz,則Nyquist頻率為5kHz,為提取暫態零序電流1500~3000Hz頻率段分量,小波包分解層數為3,考慮小波包頻帶劃分規則,取(3,3)、(3,7)頻帶的零序電流暫態分量即可滿足要求。
2.3 BP網絡結構參數的選擇
欲利用BP小波神經網絡計算井下配電網故障測距,必須首先確定BP網絡的結構和參數,如各層的初始權值、閥值,學習速率,各層節點數、傳遞函數等,只有確定了網絡的最佳配置,才能有效解決所提出的問題[8]。
(1)網絡層數的確定。Hecht-Nielsen已經證明,在不限制隱層節點數的情況下,含有一個隱層的BP網絡能夠實現任意非線性映射。Cybenko指出,當隱層傳遞函數選用S型傳遞函數時,單隱層足以滿足解決任意判決分類問題的需要,兩個隱層則能夠實現輸入圖形的映射。增加隱層數可以進一步提高精度,但同時會增加網絡權值的訓練時間。另外,增加隱層神經元個數也能降低誤差,訓練效果也更易觀察,因此,應優先考慮增加隱含層神經元的個數。對于本文研究的故障測距問題,網絡需要較快的收斂速度,因此采用單隱層網絡。
(2)各層節點數目的確定。網絡輸入層節點數等于輸入向量的維數。由于井下電網大多數實時運行參數如負荷、系統等效阻抗可由監控終端獲得,其它隨機性因素如發生故障線路、故障時刻可由故障后可測信息準確識別,不可知變化因素僅包括接地過渡電阻及故障點位置,并且神經網絡的內插性能優于外推性能,故輸入向量維數等于3,分別為(3,3)、(3,7)頻帶零序電流暫態分量的模極大值和故障點過渡電阻值。輸出層節點數為1,表示故障點位置。隱含層節點數的選擇比較復雜,需要依據經驗和經過多次實驗確定,選取過多將導致學習時間過長,過少將引起容錯性差,對未經學習的樣本識別能力低。根據Hebe準則可以確定最佳隱含層節點數的參考值。另外,也可先令隱含層節點數可變,開始時給以較小數值,學習到給定訓練次數最大值,若未達到收斂精度則再增加節點數,直至達到合理數值為止。經過多次仿真訓練,隱層節點數為11時,網絡的訓練誤差最小。
(3)初始權值的選取。初始權值的選擇對于網絡能否收斂和訓練的速度關系密切。若權值選擇過大,會使加權輸入處于激勵函數的飽和區,導致無法進行權值的調整。威得羅等人提出一種權值初定策略,選擇權值的量級為S1的r次方,其中S1為第一層神經元數目,利用此方法可以在較少的訓練次數下獲得滿意的訓練結果。本文選擇的輸入層及隱含層至輸出層的初始權值均為0.25。
(4)訓練算法的選擇。給定一個具體問題,采用何種訓練算法對于是否能夠達到目標誤差及網絡收斂速度的影響很大。就中等規模的前饋神經網絡而言,LM算法的訓練函數trainlm可以獲得比其它任何一種算法更小的均方誤差,且收斂速度最快,在精度要求較高時,該算法的優點尤其突出。本文選擇LM算法對BP網絡進行訓練。
(5)學習速率的選擇。一般情況下傾向于選擇較小的學習速率以保證訓練過程的穩定性,但是過小的學習速率會導致訓練時間過長,收斂速度很慢,無法保證網絡的誤差值跳出誤差曲面的低谷而最終趨于最小誤差,一般選擇范圍在0.01~0.9之間。
3 系統仿真及測距結果
深井供電系統仿真模型如圖2所示。各模塊參數如下:進線電纜(In line)采用YJV42,線路正序參數為:R1=0.078/km,L1=0.27mH/km,C1=0.695F/km,零序參數為:R0=0.106/km,L0=1.223mH/km,C0=0.358F/km;配電電纜(Line)采用YJV32;采區電纜(Mine line)、負荷電纜(Load line)采用UPQ,正序參數為:R1=0.024/km,L1=0.516mH/km,C1=0.308F/km,零序參數為:R0=0.196/km,L0=3.98mH/km,C0=0.203F/km;采區變壓器(MineT1)型號為KBSG-200/6/0.69kV,Ud%=4%,I0%=2.5%;隔爆移動變電站(MineT2)選用KBSGZY-315/6/1.2kV,P0=1400W,Pd=2200W。負荷變壓器采用SL7-100/6/0.4kV。線路長度分別為:進線電纜取1km;
配電電纜1、3、4取0.5km;配電電纜2取0.4km;采區電纜長度均取0.3km;負荷電纜取0.2km。電源線電壓有效值6.3kV,X/R ratio=7。
考慮配電線路1在不同故障點位置和過渡電阻下發生單相接地故障(數據窗取故障前1ms至故障后4ms共5ms)得到的暫態零序電流經小波包分析后(3,3)、(3,7)頻帶的模極大值(為防止邊界效應引起的信號值突變,取前2000個采樣值進行模極大值分析)經歸一化處理后所形成的訓練和測試樣本集,對BP網絡進行訓練,并測試網絡的測距性能。
選取的訓練樣本集如下:
(1)過渡電阻值分別為0.01、5、50、100、150、200、250、300、350、400、450、500;
(2)在靠近線路兩端發生故障時,應適當減小故障距離以提高測距精度。故障點位置分別為:0.01km、0.02km、0.025km、0.075km、0.125km、0.175km、0.225km、0.25km、0.3km、0.325km、0.375km、0.425km、0.475km、0.48km、0.49km。
組合兩因素可形成12×15=180個訓練樣本集。
訓練誤差曲線如圖3所示,經2794次迭代后誤差收斂于0.00099829,基本達到了設定的目標誤差0.001。
為檢驗訓練后BP網絡的推廣能力即測距效果,采用非訓練樣本集進行測試,選取的測試樣本集如下圖3:
圖3 BP網絡訓練誤差性能曲線
(1)過渡電阻值分別為25、75、125、175、225、275、325、375、425、475;
(2)故障點位置分別為0.015km、0.05km、0.1km、0.15km、0.2km、0.275km、0.35km、0.4km、0.45km、0.485km。
組合兩因素形成10×10=100個測試樣本集。
對于給定的測試樣本集,經BP網絡前饋運算得到的實際測距結果及相對誤差分別如表1、表2所示。
其中,L表示實際故障距離,l表示測量距離。
相對誤差e=(實際故障距離-測量距離)線路總長×100%。
由表2可知,對于測試樣本集,訓練后的BP網絡測距相對誤差隨過渡電阻值的增加有增大的趨勢,最大誤差達到了-16.56%,且出現在過渡電阻為475時,同時注意到在故障點接近線路兩端時,由于適當增加了訓練樣本,測距相對誤差明顯減小,因此,通過增加訓練樣本數量有望進一步提高測距精度。
4 結論
通過研究得出以下結論:
1)采用小波包提取故障暫態零序電流的模極大值能有效表征故障時所蘊含的物理現象,為準確進行故障測距提供了有效的數據。
2)BP神經網絡具有良好的分類及擬合功能,能在獲得大量樣本數據的基礎上,訓練出符合要求的前饋型網絡,為煤礦井下電網故障測距提供強有力的手段。從測距相對誤差結果來看,基于小波分析與BP神經網絡的故障測距方法能基本滿足測距要求。另外,本文下一步的工作將在樣本集數量、網絡結構等方面進行更為深入的研究。
【參考文獻】
[1]丁恩杰,王超楠,崔連成.礦井配電網輸電線路故障測距方法的研究[J].中國礦業大學學報,2006,35(3):311-316.
[2]竇新宇,李春明.小電流接地系統行波測距方法研究[J].電力科學與工程,2010,26(2):51-53.
[3]季濤.基于暫態行波的配電線路故障測距研究[D].濟南:山東大學,2006.
[4]姚李孝,趙化時,柯麗芳,等.基于小波相關性的配電網單相接地故障測距[J].電力自動化設備,2010,30(1):71-74.
篇7
技術快速進步確保安全
人臉識別是基于人的臉部特征信息,應用人工智能模式識別和計算機視覺技術鑒別個體身份的一種生物識別技術。從人工智能的角度來看,人臉識別其實是機器視覺的一個分支。曠視科技智能商業產品線資深總監宋晨表示,人臉識別實際上就是給機器賦能,讓它具備一雙眼睛的能力,讓它像人一樣去想、去看,從而“學會”各種檢測、判斷、識別和測量。
人們看好人臉識別,因為作為生物可識別技術,人臉識別有其獨特的優勢。一方面,人臉識別具有非接觸性和非侵擾性,不接觸人體就可以直接通過攝像頭在一定距離內進行識別,從而實現更大范圍、更多方位的信息采集,不需要被采集者配合,更易被大眾接受。另一方面,人臉識別的硬件門檻更低,指紋識別需要特定采集芯片,但人臉識別只需要攝像頭,智能手機上的相機和城市視頻監控體系中的高清攝像頭已足夠滿足需要。
但人臉識別應用的快速推進,仍來自于技術的快速提升?!拔覀冏钤缭谏钲诘某売嬎銠C上做人臉識別,要花28天進行迭代,但現在同樣的工作在6塊GPU芯片上只需要6個小時,這就是硬件提升帶來的瓶頸突破。”商湯科技CEO徐立告訴記者。宋晨則對此解釋說,人臉識別所需要的圖像處理和深度學習能力,是基于GPU的訓練來產生的,它代表著高速和價廉的計算能力。
而在硬件之外,卷積神經網絡則在算法上大幅提升了人臉識別的精度。2014年前,在人臉檢測評測平臺FDDB上,學術界獲得的最好檢測精度是84%,但在2015年以后,通過使用卷積神經網絡算法,眾多人臉檢測應用的準確率提升到90%以上,現在最高正確率已經超過99%。北京大學信息科學技術學院智能科學系教授徐超表示,考慮到人眼識別的正確率僅有97%多,人臉識別技術已經超過了人的識別能力,在識別效率上更是遠超人類。
但對于人臉識別技術來說,“認得準”只是第一步,還需要足夠安全,能夠抵抗各種攻擊,比如偽造面具、使用照片或者3D軟件“換臉”等方式。螞蟻金服生物識別負責人陳繼東告訴記者,活體檢測是其中最核心的技術,“我們通過一系列軟件算法來判斷攝像頭前的是不是‘活人’,一是基于動作交互的識別模型,所以用戶會被要求做出眨眼、搖頭、張嘴等動作,通過檢測過程中動作的連續性,以此讓照片難以通過。但對于會模擬動作的視頻,或者預先制作好的動作視頻,我們還需要圖像的分析,比如說區分正常的圖像和通過軟件模擬、視頻剪輯的圖像之間有多大的差異”。曠視科技公司則表示,合成臉在圖形特征上會與真人有很大的差異,并不容易通過框體檢測和對翻拍的圖形特征分析檢測。
判斷“你是你”和“你是誰”
“臨川區榮耀網吧43號機器,一位17歲男性未成年人正在上網!”江西省撫州市文化綜合執法支隊的工作人員手機上接到這樣一條彈窗報警信息?!斑@正是應用了人臉識別技術,用戶在網吧上網時要拍照,這張照片會與上網者的身份證照片比對,一旦發現是未成年人,我們的技術監管平臺就會報警?!睋嶂菔形幕C合執法支隊支隊長胡光斌表示。
在沈陽地鐵,人臉識別系統同樣成為話題。在短短11天內,這套系統連續抓獲了3名網上逃犯。這是沈陽警方首次應用智能人臉識別系統追逃,在包括沈陽站等3個地鐵站,有人從高清攝像頭前經過,就會被連續拍攝20到30張角度不同的照片并與警方數據庫比對,一旦相似度評分超過83分,系統就會自動報警,并對目標拍攝一條10秒鐘的即時視頻。
在中科院自動化研究所雷震博士看來,這兩個應用場景正對應了人臉識別應用的兩個方向:用來確定“你是你”的1:1確認和用來判斷“你是誰”的1:N辨認?!?比1確認是將人臉圖像與圖片庫中的圖像進行比對,是目前比較成功的應用,精準度已經很高;1比N人臉搜索,先要在視頻中確認人臉的位置,然后抽取一適合進行人臉識別的圖片,最后則將這張圖片與N張照片比對,看是否有相符的一張,技術上講要難得多。”雷震說。
“在身份確認上,以前是人來做,現在交給機器,流程沒有變,只是效率大大提升,因此在各個傳統行業中滲透得最為迅速。”徐立表示。
的確,如果說“1比N人臉搜索”目前基本還集中于安防領域“試水”,那么在“1:1確認”方向,人臉識別應用則成熟得多。拿金融領域來說,陳繼東介紹,目前支付寶在高風險支付、修改密碼、實名認證等48個場景使用刷臉驗證,在支付寶的4.5億實名用戶中,有三分之一“刷過臉”。今年2月,螞蟻金服的“刷臉支付”還被知名科技雜志《麻省理工科技評論》評為全球十大突破性技術之一。
“做到從實名到實人,人臉識別起了非常重要的作用。在金融領域的人臉識別技術應用,除了準確度和安全級別之外,還需要極高的穩定性、可靠性和極低的實時響應。”陳繼東說。而在金融領域之外,證明“你是你”還在智能門禁、智能考勤、刷臉安檢、個稅申報、養老金領取資格認證等場景被廣泛使用。
防攻擊能力需不斷提升
如果說在確認“你是你”和搜索“你是誰”兩個方向上,人臉識別技術還都是“把人能做的事做得更好”,那么人臉識別技術還能完成“人無法完成的事情”。
今年年初,廈門的一些珠寶店在貨架上裝上了人臉識別系統,能夠分析每個用戶在柜臺前停留的時間?!癡IP客戶一到店,人臉識別系統就能將消息推送到店員手機上,同時還能顯示出這些客戶以往的購買記錄。如果記錄到一個客戶上次在哪個貨架停留的時間久,下次這一信息也會推送給店員。”廈門瑞為信息技術有限公司負責人詹東暉說。人臉識別技術與線下商業的“親密接觸”,被視為是“互聯網+線下零售”的一個全新方向。
篇8
關鍵詞:語義標記;三維人臉;網格標記;隨機森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0189-05
0 引言
在計算機視覺與圖像領域,對于二維圖像人臉的研究(包括人臉識別、人臉檢測、人臉特征點標記等)非常多,并且取得了很大進展。特別是近幾年,隨著深度學習算法的應用,對于二維人臉的研究有了極大突破[1]。然而,相對于二維人臉,人們對三維人臉研究較少。三維人臉的研究是以人臉的三維數據為基礎,結合計算機視覺和計算機圖形學,充分利用三維人臉的深度信息和其它幾何信息,解決和克服現有二維人臉研究中面臨的光照、姿態、表情等問題[3]。三維人臉模型標記與分割是將三維人臉網格模型上的頂點進行分類,將人臉劃分為幾個區域,例如眉毛、眼睛、鼻子、嘴等。對這些區域的標記與分割對三維人臉重建、特征點定位和表情動畫等方面的研究都起著重要作用。三維人臉的研究是模式識別和圖形學領域活躍且極具潛力的研究方向之一,在影視、游戲動畫、人臉識別、虛擬現實、人機交互等方面都有著廣泛應用[2-3]。
目前,許多對三維人臉方面的研究,包括三維人臉重建、識別與跟蹤、姿態估計及特征點標記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數據估算人臉姿態表達為一個回歸問題(Regression Problem),然后利用隨機森林算法解決該問題,完成一個簡單深度特征映射到三維人臉特征點坐標、人臉旋轉角度等實值參數的學習。通過訓練數據集建立隨機森林,該數據集包括通過渲染隨機生成姿態的三維形變模型得到的5萬張640*480深度圖像。在實驗部分,對Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進行了對比。與文獻[6]中的方法相比,Papazov[9]提出了一個更為復雜的三角形表面patch特征,該特征是從深度圖重建成的三維點云中計算獲得的,主要包括兩部分:線下測試和線上測試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓練數據中尋找最相似的表面patches。
在計算機圖形學領域,網格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個網格,網格標記是關鍵步驟,它用于鑒定網格上的每個三角形屬于哪個部分,這在網格編輯、建模和變形方面都有著重要應用。Shapira等[10]利用形狀直徑函數作為分割三維模型的一個信號,通過對該信號的計算,定義一個上下文感知的距離測量,并且發現眾多目標之間的部分相似性;隨后,Sidi等[11]提出一個半監督的聯合分割方法,利用一個預定義的特征集實現對目標的預先分割,然后將預先做好的分割嵌入到一個普通空間,通過使用擴散映射獲得最終的對網格集的聯合分割。網格標記的一個關鍵問題是建立強大的特征,從而提高各類網格模型標記結果的準確性,增加泛化能力。為了解決該問題,Kalogerakis等[12]提出采用一種基于條件隨機場算法的方法來標記網格。通過對已標記的網格進行訓練,成功地學習了不同類型的分割任務;Xie等[13]提出一種三維圖形快速分割與標記的方法,用一系列特征描述法和極端學習器來訓練一個網格標記分類的神經網絡;Guo等[14]提出用深度卷積神經網絡(CNNs)從一個大的聯合幾何特征中學習網格表示方式。這個大的聯合幾何特征首先被提取出來表示每個網格三角形,利用卷積神經網絡的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經網絡的輸入進行訓練與學習。
本文提出一種新的幾何特征描述符(正方形切平面描述符)來表示人臉模型上的頂點特征,利用隨機森林算法對三維人臉模型頂點進行訓練,實現對人臉模型上頂點的分類(屬于鼻子或是眼睛區域等),從而實現三維人臉模型的區域標記。這種新描述符并非從深度圖提取的簡單矩形區域特征,而是直接從三維人臉模型計算獲得,在人臉的姿勢、尺寸、分辨率的改變上具有一定魯棒性。因此,訓練過程是在三維人臉模型上執行的,這種數據相對于真實的深度圖數據更容易獲?。ɡ缭谖墨I[6]中使用的訓練數據)。
1 特征描述符與三維人臉區域分割
1.1 正方形切平面描述符
從一個三維人臉模型M的所有頂點上隨機選取一個種子點P,根據三維人臉模型的幾何結構,計算該種子點的法向量,此時根據一點和法向量即可確定一個切平面。確定正方形的邊長L和正方形的方向。正方形的方向(正方形局部坐標系)是根據全局坐標系下建立的正方形,通過法向量轉換而成。建立正方形局部坐標系,以便于計算三維人臉上的點到正方形的投影距離,減少程序運行時間,從而可以確定一個正方形切平面塊S。在這種情況下,根據正方形切平面塊S,可以計算出一個簡單且具有魯棒性的幾何描述符V。將正方形邊長分成K等份,正方形則細分為K2個小正方形,如圖1(a)所示。模型M上的所有點向正方形切平面塊上投影,如果投影點在正方形內,此點則肯定在K2個小正方形中的某一個正方形內,稱該點屬于該小正方形或者稱小正方形包含該點。每個小正方形的描述符是其包含所有點投影距離的平均值??紤]到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個點的投影距離有正負之分。整個正方形切平面塊的描述符V是所有小正方形描述符的簡單串聯。在實驗部分,本文將對邊長L和劃分的小正方形個數K2對分類的準確率進行對比研究。
使用每個小正方形包含所有點的平均投影距離作為描述符,使得該描述符對噪聲、數據分解和分辨率上的變化具有魯棒性,這在實驗部分有所體現。許多三維幾何特征已經在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據局部坐標系定義并且依賴于大量的平面法向量,使噪聲數據對結果產生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡單、有效且具有魯棒性。除三維幾何特征外,許多文章也對三維模型投影生成的深度圖進行了特征選取和處理。例如,Fanelli等[6-8]在深度圖中選取patch,然后在patch中隨機選取兩個矩形框F1、F2,如圖2所示。以像素點的深度值和幾何法向量的X、Y、Z值作為隨機森林的4個特征通道,F1和F2中所有像素點某個特征通道平均值的差值作為隨機森林每棵樹節點的二元測試。二元測試定義為:
本文在實驗部分對上述特征選取方式與本文提出的正方形描述符在三維人臉區域標記上的結果進行了比較。
1.2 數據庫與人臉區域分割
訓練階段的正方形切平面描述符均取自于高分辨率的人臉網格模型,這些訓練模型由Basel Face Model (BFM)[20]生成。BFM是一個公開、可獲得的基于PCA的三維形變模型,由200個人臉對象的高分辨率三維掃描創建而成。通過從一個正態分布取樣的PCA系數,BFM能被用來生成任意數量的隨機網格人臉。此外,在所有生成的人臉網格模型上,對應頂點的索引都是一樣的。例如,在所有訓練模型上,在鼻尖的頂點有相同的索引數字,這將帶來諸多便利。對于訓練模型,只需在任意一個BFM人臉模型上進行一次人臉區域的手動標記,即可知道每個訓練模型要分割的區域上各點的索引,如每個模型鼻子區域的所有頂點索引都是一樣的。
對訓練模型進行手動分割標記(只需分割標記一次),將一個三維人臉模型分割為10個區域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區域。如圖3所示,對三維人臉模型進行區域分割,不同的分割區域用不同顏色進行標記,每個區域包含很多三維人臉模型頂點。由于很多三維人臉模型額頭部分包含的頂點相對較少,特征信息也相對較少,所以將額頭區域劃分至其它區域。人臉模型的每個區域包含的所有頂點屬于同一類,根據上述BFM數據庫特點可知,數據庫中任何一個人臉模型每個區域包含的所有頂點索引都是一致的。
2 隨機森林算法分類標記人臉區域
2.1 隨機森林算法
分類回歸樹[21]是一個強大的工具,能夠映射復雜的輸入空間到離散或者分段連續的輸出空間。一棵樹通過分裂原始問題到更簡單、可解決的預測以實現高度非線性映射。樹上的每一個節點包含一個測試,測試的結果指導數據樣本將分到左子樹或是右子樹。在訓練期間,這些測試被選擇用來將訓練數據分組,這些分組對應著實現很好預測的簡單模型。這些模型是由訓練時到達葉子節點的被標記的數據計算而來,并且存儲于葉子節點。Breiman[22]指出雖然標準的決策樹單獨使用會產生過擬合,但許多隨機被訓練的樹有很強的泛化能力。隨機被訓練樹的隨機性包括兩方面,一是用來訓練每棵樹的訓練樣本是隨機選取的,二是每棵樹上的二元測試是從使每個節點最優的測試集中隨機選取的。這些樹的總和稱為隨機森林。本文將三維人臉模型區域的標記與分割描述為一個分類問題,并利用隨機森林算法來有效地解決它。
2.2 訓練
訓練數據集是由BFM生成的50個三維人臉模型。從每個模型上隨機取n=10 000個頂點樣本,每個頂點對應一個正方形切平面塊。本文實驗中森林由100棵樹建立而成,森林里每個樹由隨機選取的一系列塊(patch){Pi=Vfi,θi}構建而成。Vfi是從每個樣本提取的特征,即正方形切平面描述符,f是特征通道的個數,正方形劃分為K2個小正方形,f=K2。實值θi是這個樣本所屬的類別,例如鼻子區域類別設為數字1,那么鼻子區域內的頂點樣本所對應的θ=1。建立決策樹時,在每個非葉子節點上隨機生成一系列可能的二元測試,該二元測試定義為:
這里的Pi∈{L,R}是到達左子樹或右子樹節點上的樣本集合,wi是到左子樹或右子樹節點的樣本數目和到父節點樣本數目的比例,例如:wi=|Pi||P|。
2.3 測試
通過BFM生成55個三維人臉模型,其中50個人臉模型作為訓練數據,剩下5個人臉模型作為測試數據。測試數據依然取10 000個樣本點,并且知道每個樣本點屬于哪一個區域,通過測試數據計算三維人臉模型網格點分類的準確率。為了測試提出方法的有效性,研究過程中從網上下載獲取了其它三維人臉模型,對人臉模型上的所有網格點通過之前訓練好的隨機森林模型進行分類。因為其它人臉模型與BFM生成人臉模型的尺寸、坐標單位等不一致,所以本研究對這些測試模型進行了后期處理,對正方形的邊長按照模型尺寸的比例M行選取。
3 實驗
3.1 數據集與實驗環境
本文三維人臉標記與分割所用的訓練和測試三維人臉模型由BFM生成,50個模型作為訓練數據,5個模型作為測試數據。每個模型包含53 490個頂點和106 466個三角形網格,每個訓練模型選取10 000個頂點樣本。用C++和OpenGL、OpenCV等庫對三維人臉模型數據進行采樣,得到每個樣本的正方形切平面描述符。在Matlab平臺下用隨機森林算法對數據集進行訓練和測試,并對實驗結果進行可視化。
3.2 實驗結果
利用已訓練好的模型對測試數據集上三維人臉模型的所有頂點進行分類,計算頂點分類的準確率。準確率(Accuracy Rate)計算公式為:
準確率=預測正確的頂點個數(m)人臉模型上所有頂點個數(N)
根據文獻[10]提出的類似描述符參數選取以及參數優化策略,經過多次實驗,研究發現正方形邊長L和正方形劃分的小正方形數目K2兩個參數的選取對頂點分類準確率有著一定影響。實驗中選取參數L∈{60,80,100}、參數K2∈{9,16,25,36}進行對比,具體對比結果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。
根據上面兩個表格,可以明顯得出,L=80mm,K2=25時頂點分類準確率最高。接下來對L=80mm,K2=25情況下的三維人臉模型區域進行標記,可視化結果如圖4所示,上邊是原始三維模型數據,下邊是標記后的結果。(a)、(b)模型標記圖是由BFM生成的三維人臉模型區域標記的結果,模型有53 490個頂點。為了驗證本文方法的一般性和對分辨率具有不變性,(c)~(e)模型標記圖是非BFM生成的其它三維人臉模型的標記結果,模型約有5 000個頂點。以上所有圖都是對三維人臉模型所有頂點進行標記的結果。
文獻[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機森林算法進行了實驗,并與本文的正方形特征描述符的實驗結果進行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長c深度圖大小的比例和正方形所取邊長與模型大小的比例相等。
由表3可得,對三維人臉模型頂點級分類和區域標記問題,本文提出的特征描述符的標記結果優于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對三維模型處理要比對深度圖處理更有優勢。
3.3 結果討論與分析
圖4中5個模型頂點數目、三角形面數目和頭部姿勢都不一樣,驗證了本文所提方法對于姿勢、模型尺寸和模型分辨率具有較好的魯棒性。并且其對不同的眉毛、眼睛、臉頰區域也能進行很好的區分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號進行顯示。本文提出的描述符和直接對三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優勢。由于手動分割人臉區域時,很難避免分割粗糙,區域交界處有的部分頂點沒有包含進去,因此在區域交界處頂點的分類誤差會相對略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點和特征相對較少,所以相較于其它區域,這兩個區域的頂點分類誤差也會略大。
4 結語
本文提出一種基于正方形切平面描述符的三維人臉區域標記方法。將這種幾何特征描述符作為選取樣本的特征,通過隨機森林算法,對三維人臉模型進行區域分類和標記。該方法可有效識別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區域,這對三維人臉特征點的定位及其它三維人臉方面的研究都具有重要意義。本文提出的方法對三維人臉模型頭部姿態、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。
然而,手動分割人臉區域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優化。同時,本文僅對三維模型上所有頂點所屬區域進行標記,沒有將標記后的結果結合三維分割算法進行區域分割優化。如何對相關算法加以改進,將是下一步需要解決的問題。
參考文獻:
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.
篇9
2.基于層次分析法FDM工藝中分層方案的決策張劍峰,彭安華,ZhangJianfeng,PengAnhua
3.頁輪干式磨削Ti6Al4V合金霍文國,徐九華,傅玉燦,蘇宏華,HuoWenguo,XuJiuhua,FuYucan,SuHonghua
4.基于博弈論的8自由度整車懸架參數優化設計宋崇智,趙又群,謝能剛,王璐,SongChongzhi,ZhaoYouqun,XieNenggang,WangLu
5.近空間飛行器泛函連接網絡自適應預測控制都延麗,吳慶憲,姜長生,DuYanli,WuQingxian,JiangChangsheng
6.用戶自主完好性監測新算法楊傳森,徐肖豪,劉瑞華,趙鴻盛,YangChuansen,XuXiaohao,LiuRuihua,ZhaoHongsheng
7.改進的CFD/CSD耦合系統設計方法及其計算安效民,徐敏,陳士櫓,AnXiaomin,XuMin,ChenShilu
8.基于帶限隨機信號相位譜的分數延時估計方法柏業超,張興敢,唐嵐,BaiYechao,ZhangXinggan,TangLan
9.噪聲與共振環境下的數字助聽器魯棒聲源定位法趙立業,李宏生,ZhaoLiye,LiHongsheng
10.簡化Q矩陣的漸增式擴張生成算法楊淑群,丁樹良,丁秋林,YangShuqun,DingShuliang,DingQiulin
11.動態數據驅動的森林火災仿真框架及其實現燕雪峰,胡小林,古鋒,郭松,YanXuefeng,HuXiaolin,GuFeng,GuoSong
1.微型CT系統適用的心肺運動檢測新方法田豐,梁春峰,郭曉蓮,胡廣書
2.電子直線加速器輻射場優化的蒙特卡洛模擬趙洪斌,張新,包尚聯,黃斐增,李泉鳳
3.應用綠色半導體量子點進行乳腺癌原位成像許恒毅,ZoraidaP.Aguilar,蘇懷朋,BenjaminJ.Jones,John.D.Dixon,熊勇華,魏華,AndrewY.Wang
4.7T磁共振seipin鼠活體無損顯型陳春曉,劉雯卿,彭新桂,居勝紅
5.不同掃描條件下的小動物成像評估賈鵬翔,王浩宇,閆鑌,李磊,陳健,張鋒,包尚聯
6.錐束CT重建圖像中環狀偽影的擬合校正羅守華,吳婧,張波,陳功
7.帕金森大鼠模型的影像特性胡光霞,錢志余,孫濤,楊天明,王文宏,謝捷如
8.激光治療鮮紅斑痣手術機器人雙目視覺系統的實時立體匹配唐曉英,應龍,劉偉峰
9.激光照射離體血液的衰變規律張楓,劉瑩,楊成方,李雷
10.中風患者康復期運動皮層網絡的功能磁共振成像郝冬梅,秦文,于春水,董會卿,劉楠
11.基于虛擬現實的血管內介入手術三維導絲運動模擬周正東,PascalHaigron,VincentGuilloux,AntoineLucas
12.基于高斯分解的乙醚-水溶液熒光光譜分析韓彩芹,宋春元,吳斌,劉瑩,駱曉森,倪曉武
13.探針式光纖探頭的有效檢測深度李韙韜,錢志余,陳春曉,肖笛
14.水溶性近紅外熒光發射的PbS量子點的合成與表征曹潔,李杉,鄧大偉,顧月清
15.基于振動模型的呼吸運動估計與偽影反卷積校正許全盛,袁克虹,于麗娟,王文志,葉大田
16.IMRT逆向計劃中的混合多目標梯度算法李國麗,盛大寧,王俊椋,景佳,王超,閏冰
17.非正定矩陣對磁共振擴散張量導出量的影響張懷岺,任紅潤,金新安,何青,高嵩
18.基于IHE-RO框架的一體化放療信息管理系統構建邱學軍,戴建榮,符貴山,黃金帶,冒蘇
19.基于功能核磁共振成像的右腦額下回情緒處理朱詢,高嵩,胡佩誠
1.基于魯棒性參數設計法的多超聲電機驅動機器人的控制孫志峻,帥雙輝,黃衛清,SunZhijun,ShuaiShuanghui,HuangWeiqing
2.沖擊滑動耦合作用下的材料磨損魏勇強,王黎欽,WeiYongqiang,WangLiqin
3.基于潛在成分的時變系統損傷的概率神經網絡分類袁健,周燕,呂欣,YuanJian,ZhouYan,LüXin
4.高速氣流吹襲防護氣動特性的數值模擬魏濤,張大林,WeiTao,ZhangDalin
5.邊界層壁面振動誘導T-S波的直接數值模擬曹衛東,李躍,蔣婷,CaoWeidong,LiYue,JiangTing
6.在線稀疏最小二乘支持向量回歸機及其應用趙永平,孫健國,王,ZhaoYongping,SunJianguo,WangJiankang
7.基于線性參數變化自適應觀測器的魯棒故障診斷陳偉,姜斌,張柯,楊浩,ChenWei,JiangBin,ZhangKe,YangHao
8.基于特征點運動矢量估計的動態序列圖像運動目標跟蹤黎寧,周建江,張星星,LiNing,ZhouJianjiang,ZhangXingxing
9.短消息公鑰加密構造Tag-KEM方案陳原,陳丹,董慶寬,ChenYuan,ChenDan,DongQingkuan
10.基于支持向量機和線性判別分析的維數約減方法及其應用楊波,YangBo
11.更強的密鑰交換可證安全模型任勇軍,王建東,徐大專,莊毅,RenYongjun,WangJiandong,XuDazhuan,ZhuangYi
12.基于陰影信息的多視角SAR圖像識別楊露菁,郝威,王德石,YangLujing,HaoWei,WangDeshi
1.絕緣層厚度對孔電解加工穩定性和精度的影響王維,朱荻,曲寧松,黃紹服,房曉龍,WangWei,ZhuDi,QuNingsong,HuangShaofu,FangXiaolong
2.基于信息公理的車間布局問題評價方法王曉勇,唐敦兵,樓佩煌,WangXiaoyong,TangDunbing,LouPeihuang
3.噴丸強化10Ni3MnCuAl鋼的表面性能繆宏,左敦穩,王,汪洪峰,MiaoHong,ZuoDunwen,WangHongjun,WangHongfeng
4.高速銑削系統穩定性動態優化新方法宋清華,萬熠,艾興,趙軍,劉戰強,SongQinghua,WanYi,AiXing,ZhaoJun,LiuZhanqiang
5.局部粗糙邊界層流中二維T-S波的非線性演化陸昌根,吳衛國,戚琴娟,LuChanggen,WuWeiguo,QiQinjuan
6.運動激波與氣泡串相互作用的多介質數值模擬張軍,任登鳳,譚俊杰,ZhangJun,RenDengfeng,TanJunjie
7.基于格子Boltzmann方法的可壓縮翼型繞流模擬鐘誠文,李凱,孫建紅,卓從山,解建飛,ZhongChengwen,LiKai,SunJianhong,ZhuoCongshan,XieJianfei
8.正交投影二次曲面立體圖的斜置對稱面檢測王翔,丁運亮,WangXiang,DingYunliang
9.機會維修策略下的多部件系統可用度仿真蔡景,左洪福,呂德峰,CaiJing,ZuoHongfu,LüDefeng
10.基于運動物體高階多普勒效應的橫向速度估計張興敢,柏業超,ZhangXinggan,BaiYechao
11.考慮位移的土壓力計算方法張小平,胡明亮,ZhangXiaoping,HuMingliang
12.基于層次分析法的橋梁承載力檢算方法張麗芳,艾軍,ZhangLifang,AiJun
1.5坐標數控加工刀軸矢量規劃方法姬俊鋒,周來水,安魯陵,張森棠,JiJunfeng,ZhouLaishui,AnLuling,ZhangSentang
2.基于彎振模態的螺紋桿式直線超聲電機張健滔,黃衛清,朱華,趙淳生,ZhangJiantao,HuangWeiqing,ZhuHua,ZhaoChunsheng
3.兩自由度球面并聯機構動力學分析李成剛,王化明,朱劍英,LiChenggang,WangHuaming,ZhuJianying
4.基于封閉空間輻射模態的結構聲有源控制姜順明,陳南,JiangShunming,ChenNan
5.并聯式混合動力車能量控制策略設計王愛華,WangAihua
6.支持向量機的正定核謝志鵬,XieZhipeng
7.類生物化自適應制造系統控制結構王雷,唐敦兵,萬敏,袁偉東,許美健,WangLei,TangDunbing,WanMin,YuanWeidong,XuMeijian
8.渦扇發動機排氣系統斜切波瓣強迫混合器氣動和混合特性數值研究單勇,張靖周,徐亮,ShanYong,ZhangJingzhou,XuLiang
9.航天器推進劑晃動與控制系統之間耦合效應的混合型估算方法齊乃明,董鍇,李運遷,趙寶山,QiNaiming,DongKai,LiYunqian,ZhaoBaoshan
10.低空空域航空器飛行安全分析王世錦,隋東,WangShijin,SuiDong
11.基于Voronoicell的RNNk近似查詢與計算郝忠孝,李博涵,HaoZhongxiao,LiBohan
1.燃氣驅動彈跳器郭堅毅,王化明,朱劍英,王正東,GuoJianyi,WangHuaming,ZhuJianying,WangZhengdong
2.模糊自組織網絡在刀具磨損狀態監測中的應用申志剛,何寧,李亮,ShenZhigang,HeNing,LiLiang
3.輥彎成形仿真分析與參數優化郭烈恩,趙亞莉,涂文斌,GuoLieen,ZhaoYali,TuWenbin
4.等離子體氣動激勵的誘導氣流速度的實驗研究李益文,李應紅,周章文,賈敏,宋慧敏,吳云,LiYiwen,LiYinghong,ZhouZhangwen,JiaMin,SongHuimin,WuYun
5.新的被動自適應起落架緩沖器設計與著陸性能研究朱書華,童明波,許杰,ZhuShuhua,TongMingbo,XuJie
6.平行航路安全評估新方法隋東,SuiDong
7.串聯磁路混合勵磁爪極發電機的研究趙朝會,秦海鴻,嚴仰光,ZhaoChaohui,QinHaihong,YanYangguang
8.基于改進微粒群算法的無人機姿態控制參數智能整定浦黃忠,甄子洋,王道波,胡勇,PuHuangzhong,ZhenZiyang,WangDaobo,HuYong
9.基于距離和角度信息的無線傳感器網絡定位算法諸燕平,黃大慶,ZhuYanping,HuangDaqing
篇10
關鍵詞:拉格朗日力學; 圖像預測; 圖像追蹤; 天氣雷達; 臨近預報
DOIDOI:10.11907/rjdk.162240
中圖分類號:TP317.4
文獻標識碼:A文章編號:1672-7800(2016)012-0001-04
0 引言
多普勒天氣雷達(以下簡稱雷達)是現代氣象業務研究及應用中不可或缺的重要工具,基于雷達回波及圖像的追蹤與外推是短時臨近預報的關鍵性技術,也是長期以來的難點問題。準確而及時的雷達外推預報,可以為局地龍卷風、雷暴、短時強降水等極端災害性天氣提供預警,以便做好防御措施,最大限度保障人民及生命財產安全。
近半個世紀以來,很多學者在基于雷達資料的預報領域作出了大量卓有成效的貢獻,并逐步形成了一系列較為通行的方法。例如,TREC算法通過逐區域尋求相鄰時刻雷達反射率的最大相關,跟蹤整個回波區域的移動,并且假設回波具有一致的移動方向[1]。CTREC算法則利用交叉相關分析,跟蹤反射率因子大于一定閾值區域的移動,進而推算回波的發展[2]。TITAN是由美國國家大氣研究中心(NCAR) 研發的一套風暴識別、跟蹤、分析和預報系統,其利用雷達一次完整體掃所構成的三維結構數據對強回波中心進行識別追蹤[3-4]。SCIT算法則更加側重對雷暴單體的有效追蹤和預測[5-7]。近年來,又有一些學者試從圖形圖像學中的光流技術入手,通過分析雷達回波時序圖像中的光流場特征進行回波強度和位置的外推預測[8-11]。此外,還有基于神經網絡、模式匹配等多種方法[12-14]。
總體來說,這些方法的共同之處是需要分析相鄰時刻雷達圖像(或基數據)中區域的相似性,而該相似性的度量,如最大相關法,雖然可以計算出最匹配的位置,但匹配和外推結果往往表現出發散性或多個最優解。并且,基于窗口平移的模板匹配算法無法適應區域圖像的旋轉和變形等情況。
為了克服相關性度量算法所遇到的問題,本文考慮對位移場的分析加以分層,也就是每個特征運動被認為是確定在相對粗糙的空間分辨率下的平穩變化趨勢的總和,然后衍生為更高的空間分辨率下的小幅度局部修正,并對此過程進行多次迭代。對于位移場的分析,將充分考慮雷達回波所指示風暴的動力學特征,運用拉格朗日力學相關理論構建預測模型。該方法的研究意義在于進一步提高中小尺度、強對流天氣事件的預測能力,且相對于光流等一些大運算量算法,本方法運算規模更小,進而能夠更好地滿足短臨預報業務高時效性的要求。
1 理論與方法基礎
1.1 雷達回波外推預測
大量研究表明,合理的外推預測算法可以為降水、雷暴、冰雹等對流天氣的預報提供重要支撐[15-17]。基于外推預報的一般性描述為:
其中,pt(x,y)表示任一位置的回波強度,U和V分別表示回波在水平和垂直方向上的偏移量,由U和V共同組成回波移動的速度矢量。g表示一個函數,用來計算單位時間間隔后回波強度的變化。根據式(1),Δpt(x,y)反映了任一點(x, y) 在t 時刻回波強度的變化情況,U和V反映了回波移動的方向和速度。此外,函數g代表一個拉格朗日動力學過程,在此過程中雷達回波的強度是由其沿回波路徑移動時在拉格朗日坐標系統中的歷史變化推導出的,也就是用當前回波演變的趨勢預測回波未來的位置和強度。究其趨勢預測的方法,多年來諸多學者作出很多研究,本文主要從拉格朗日力學角度進行分析,提出一種雷達回波圖像追蹤預測的方法。
1.2 拉格朗日力學
拉格朗日力學是由Joseph Lagrange[18-19]最早提出的一種力學分析方法。由于該方法引用了廣義坐標的概念,使得對力學相關問題的研究更具普適性。
在雷達回波圖像預測研究中,如何準確得到回波運動矢量是預測需要解決的關鍵問題。在不考慮天氣系統的非線性變化時,拉格朗日力學模型能夠滿足構建回波發展演變過程的算法要求,式(1) 可以改寫為:
有研究表明,對整個回波圖像采用統一的U和V所構成的位移矢量,可適用于對大尺度天氣系統的預測分析,如對衛星圖像的外推預測和云導風的分析[20]。但對于局地強對流天氣系統,預測結果往往與實際偏差較大。因此,這也是本文將重點闡述解決的問題。
2 雷達圖像追蹤預測
2.1 基于拉格朗日力學的追蹤算法
在上述理論基礎上,根據大氣運動演變發展的規律及其在雷達回波圖像上的表征特點,構建基于拉格朗日力學的追蹤算法模型,如式(3) 所示。
該模型假定所預測的回波圖像是當前和過去若干個回波圖像以固定時間間隔而變化的函數。f2表征一個用于估測單位時間間隔前后回波圖像各相應網格點回波強度值變化率的函數,即回波的演變趨勢。在不斷生消、發展的對流系統中,ΔP可以為正,也可以為負數。式(4)~式(6) 進一步表明了函數f1和f2,即回波移動矢量及回波強度的計算方法。
2.2 中心極值濾波
為了降低雷達雜波對位移矢量計算的不良影響,本節提出采用一種濾波器對雷達基數據進行濾波處理。其基本思想是:逐網格分析回波強度特征,如果某格點的值大于周邊最相鄰一圈(共8個網格)的最大值,或者該值小于周邊最相鄰一圈的最小值,則將當前網格點回波強度值用上述8個網格的最大值或最小值替代。
如圖1所示,位于當前中心點的數值39大于其最鄰近一圈8個網格的最大值。因此,使用數值23替換當前網格的39。
從圖像上看,該濾波方法可顯著降低圖像中的椒鹽噪聲,從實際效果上看,該方法可以有效過濾單點的雜波奇異值,較傳統的均值濾波和中值濾波更好地保留了回波細節[21-22],特別是回波中梯度變化較大的邊緣區域。
2.3 分層外推預測算法
由于天氣系統復雜多變,特別是尺度較小的局地強對流,其生命周期短的只有幾分鐘到幾十分鐘,由于其空間尺度小,生消速度快,因此,包括基于拉格朗日力學在內的各種線性關系外推算法,其預測準確性都存在一定的局限性。為了改善這一問題,本節提出采用分層的外推預測方法。該思想最早由Bellerby等 [20]提出,并研究應用于衛星圖像的云頂平流場分析中。
該算法的關鍵流程為:先將當前雷達回波圖像逐級抽稀,降低圖像的分辨率,以模糊回波細節,由此粗略估算出回波主體的移動趨勢;然后再反向逐級提高圖像分辨率,在較粗的移動趨勢基礎上,細化和訂正位移矢量的細節。從而產生一個在空間上連續和平滑的且不受模板邊界不連續性影響的矢量場。計算方法如式(7)所示:
對于每一級抽稀計算,都是將當前一級各網格點的回波強度值經由公式(7)計算,并往復迭代。其中P表示某一點的回波強度,L和L-1代表抽稀的層級,在本文下述實驗中,采用的最高層級為4。
在計算兩個相鄰時刻圖像中回波的位移時,可以借鑒交叉相關法,計算方法如式(8),在每個選定的匹配窗口遍歷出最大相關矩陣的位置,從而輸出位移矢量。
式(8) 中,P和P’ 分別表示相鄰兩個時刻(如t-Δt與t)的回波,(x, y) 表示圖像中的某一點,X和Y表示匹配窗口的大小。再將兩幅回波圖像之間的網格還原或內插到其先前空間分辨率的兩倍,重復上述匹配。該迭代過程還考慮到了由非矩形網格代表的局部扭曲,結合這些局部扭曲,使外推預測算法能夠適應旋轉、擴展、縮小等回波圖像形態上的變化。如此插值和匹配計算,迭代直到網格分辨率達到原始雷達圖像分辨率。
3 實驗與結果分析
3.1 實驗數據說明
為檢驗所述方法的預測效果,本實驗數據使用2016年6月南京地區多普勒天氣雷達的基數據文件。該雷達使用VCP-21體掃模式,探測周期為6分鐘。實驗選用1.5°和2.4°仰角的基本折射率數值。為方便計算,實驗前將原始數據由極坐標系統轉換為平面直接坐標系統,數據的圖像分辨率為920×920。為減少樣本數量,從全部7199個基數據文件中篩選出以230庫長為半徑,其覆蓋區域內具有大面積強回波的數據文件,共計880個。
3.2 實驗結果分析
為檢驗雷達回波圖像預測的準確性,使用與預測同一時刻的雷達實際探測數據作比對分析,計算過程采用交叉相關檢驗法。
首先以自然日為單位,統計逐日樣本數據中每份預測結果與實況交叉檢驗的相關系數的平均值,如圖2所示。
圖2中3種圖案標記分別表示預測6分鐘、30分鐘和60分鐘的檢驗結果,每個值代表當日所有樣本檢驗結果的平均值。橫坐標為2016年6月的逐個日期,縱坐標為相關系數,其中橫坐標4、5、9、10等日期沒有標記圖案,原因是這些日期的當日為晴天或少云,體現在雷達上沒有強的大面積回波,因此沒有列入樣本數據進行分析。從圖2中還可以看出,本方法預測未來6分鐘的結果與實況相比,相關系數超過87%,平均達到93%以上,而隨著預測時效的延長,預測準確率逐步下降,在未來60分鐘的預測中,全月平均相關系數為70%左右。
進一步統計分析每次預測準確率的穩定性。以6月19日全天樣本數據為例,統計每批樣本所預測6、12、18至60分鐘結果分別與實況交叉相關檢驗的情況,如圖3所示。
圖3中,每個柱狀條的頂端和底端分別表示檢驗的相關系數的最大值和最小值,柱狀條中間的黑色方形表示相關系數的均值。可以看出,隨著預測時效的增長,其預測準確率的個體差異也隨之增大。在前6分鐘的預測中,該差異約為3%,30分鐘時約為8%,而到預測60分鐘時,差異進一步增大到20%。結果與強對流天氣系統具有生命史短、突發性強,水氣生消發展變化快的特點是相一致的。
4 結語
由于天氣系統復雜多變,特別是對于中小尺度的對流系統,其生消、發展時間短、變化快,如何進行準確、有效的預報是提升當今短時臨近預報的關鍵環節之一。考慮到大氣中水氣等物質的移動變化應遵循一般力學規律,而拉格朗日力學正是表征和計算動力學問題的普適性方法,因此,本文的預測動力模型建立在拉格朗日力學關系基礎之上。又由于天氣系統的變化表現在雷達圖像上,其回波圖形具有相當的不確定性,因此,本文提出采用分層的位移場分析方法,先假定位移矢量是在相對粗糙的空間分辨率下的平穩變化趨勢的總和,然后在更高空間分辨率下作小幅度局部修正,并如此進行多次迭代。為了減少低仰角雜波對實驗結果的影響,提出采用中心極值濾波對實驗數據進行處理。結合上述理論構建起基于拉格朗日力學的追蹤預測模型及算法流程,以雷達基本反射率因子作為輸入場,追蹤和預測回波在空間和時間上的位移矢量,并由此預測未來一段時間雷達回波的位置和強度。
實驗部分采用1個月樣本數據對本算法模型進行檢驗,通過預測結果與同時刻實況的比對分析,得出兩者的相關性和個例穩定性等評價指標。結果表明,該方法能夠較好地預測局地天氣系統的演變過程,在未來30分鐘的預測中準確率平均超過80%,且對于輔助預報未來60分鐘內的局地龍卷風、強降水、雷暴等災害性事件具有實踐應用的價值。
參考文獻:
[1] 劉紅艷,魏鳴.多普勒雷達風場資料在臨近預報中的應用[J].大氣科學學報,2015(4):483-491.
[2] 鄭永光,林隱靜,朱文劍,等.強對流天氣綜合監測業務系統建設[J].氣象,2013(2):234-240.
[3] 周康輝,鄭永光,藍渝.基于閃電數據的雷暴識別、追蹤與外推方法[J].應用氣象學報,2016,(2):173-181.
[4] DIXON M, WIENER G.TITAN:thunderstorm identification,tracking,analysis,and nowcasting―a radar-based methodology[J].Journal of Atmospheric & Oceanic Technology, 1993, 10(6):785-797.
[5] SHAH S, NOTARPIETRO R, BRANCA M.Storm identification,tracking and forecasting using high-resolution images of short-range X-band radar[J].Atmosphere, 2015, 6(5):579-606.
[6] 莊旭東,胡勝,陳榮,等.“雨燕”中風暴算法與新一代雷達SCIT產品的對比分析[J].熱帶氣象學報,2011(3):299-306.
[7] DUAN Y, XU Y, ZHI S.Application analysis of the hail suppression operation based on the improved SCIT Algorithm[J].Meteorology & Disaster Reduction Research, 2014(15):23-29.
[8] 曹春燕,陳元昭,劉東華,等.光流法及其在臨近預報中的應用[J].氣象學報,2015(3):471-480.
[9] GARCIA F, CERRI P, BROGGI A, et al.Data fusion for overtaking vehicle detection based on radar and optical flow[J].2012, 7(2272):494-499.
[10] 王興,王新,苗春生,等.基于GPU加速的雷暴追蹤外推方法研究[J].南京師范大學學報:工程技術版,2015(1):35-42.
[11] STAINVAS OLSHANSKY I, BILIK I, BIALER O.Doppler-Based Segmentation and Optical Flow in Radar Images: US20160084953[P].2016.
[12] 盛仲飆.BP神經網絡在數據預測中的應用[J].軟件導刊,2016(1):147-148.
[13] 王利卿,黃松杰.基于多尺度卷積神經網絡的圖像檢索算法[J].軟件導刊,2016(2):38-40.
[14] WANG X, GU Y H, MIAO C S, et al.Parallelization and performance optimization of radar extrapolation algorithm with OpenCL[J].Journal of Internet Technology, 2016(17):323-330.
[15] .雷達外推預報與暴雨數值模式融合預報降水方法研究[D].北京:中國氣象科學研究院,2013.
[16] 張蕾.多普勒雷達回波演變的動力學分析及臨近預報算法改進[D].南京:南京信息工程大學,2015.
[17] FOX N I, WEBB R, BALLY J, et al.The impact of advanced nowcasting systems on severe weather warning during the sydney 2000 forecast demonstration project:3 November 2000[J].Weather & Forecasting, 2004, 19(1):97-114.
[18] 李艷艷.相似空間中不變的歐拉-拉格朗日方程[J].河南大學學報:自然科學版,2014,03:273-276.
[19] ERICKSEN R E, GUITERAS J J, LARRIVEE J A, et al.A parachute recovery system dynamic analysis [J].Journal of Spacecraft & Rockets, 1967, 4(3):321-326.
[20] BELLERBY T J.High-resolution 2-D cloud-top advection from geostationary satellite imagery[J].IEEE Transactions on Geoscience & Remote Sensing, 2006, 44(12):3639-3648.