卷積神經網絡的深度范文
時間:2024-04-17 18:09:30
導語:如何才能寫好一篇卷積神經網絡的深度,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:卷積神經網絡;自動編碼器;非監督訓練;多尺度分塊;目標識別
中圖分類號:TP391.41文獻標志碼:A英文標題
0引言
對圖像中目標的精確和魯棒識別是模式識別及人工智能領域的核心內容,在道路監控、戰場偵察、精確打擊等領域中有著重要的作用和廣泛的前景。近年來,隨著深度神經網絡成為機器學習新的熱點,基于卷積神經網絡(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學術界和工業界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數據集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數據集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監督的訓練方式,需要大量標簽數據對網絡權重進行調整,當數據量較小時會導致模型前幾層網絡無法得到充分訓練,故只能針對含標簽數據較多的大型數據集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監督的預訓練。文獻[3]采用稀疏編碼提取訓練圖像的基函數作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應用于CNN的預訓練階段,利用ICA訓練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應用于預訓練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預訓練算法仍是十分困難的問題。
除了預訓練外,影響CNN識別率和魯棒性的關鍵參數還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結果有很大影響,并給出了單層條件下相對最優的濾波器尺寸。下采樣層主要負責對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經過2次卷積和2次最大下采樣(maxpooling),網絡輸出的激活值仍能重構出與原始輸入看似相同的圖案。然而下采樣間隔過小會導致不變性喪失,過大則會損失大量細節信息,兩者均會導致識別率的下降。
針對以上問題,本文提出基于多尺度分塊卷積神經網絡(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經網絡的濾波器進行非監督預訓練,通過最小化重構誤差獲得待識別圖像的隱層表示,進而學習得到含有訓練數據統計特性的濾波器集合,預訓練效果相比ICA更好。其次提出多尺度分塊的方法構建卷積神經網絡,為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設計相應尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經典算法在通用圖像識別任務中的識別率和魯棒性差異,從而驗證算法的有效性。
4仿真實驗及分析
本文使用STL10公開數據集以及從全色波段的QuiekBird遙感衛星和GoogleEarth軟件中截取的遙感飛機圖像數據集進行測試實驗,將所有圖片變為64×64像素的RGB圖。選擇STL10數據集的原因是因為其含有不包含標簽的訓練集,可用于本文的非監督預訓練算法,且圖像中包含更多類內變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數據則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數據集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓練樣本,其余作為測試樣本。本文的實驗環境為CPU2.8GHz、內存3GB的計算機,實現算法的軟件為Matlab(2011a)。
4.1算法識別率對比測試
MSCNN的各通路尺寸參數設置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預訓練得到。編碼器設定為3層,稀疏參數ρ設定為0.05,訓練周期為400。卷積神經網絡的下采樣方式采用最大下采樣(max pooling)。
按照上述參數設置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓練周期均為50。傳統CNN參數設定與通路1參數設定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對兩種數據集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數據集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數設置與CNN相同,但在相同訓練周期下識別率較加入LCN的CNN又有一定提高,說明了非監督預訓練對識別率提高的有效性。對于STL10數據集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。
從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實驗
為驗證MSCNN的魯棒性,在數據集中選取不同類別的圖像對其進行平移、尺度、旋轉變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結果如圖6~7所示。
圖6中虛線表示傳統CNN算法得到的結果,實線則表示MSCNN得到的結果,從圖6可看出:無論是面對平移、尺度還是旋轉變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉均表現出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監督的預訓練方式,訓練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。
另外,本文算法采用了多通路多尺度分塊的方法,必然會使網絡參數增加,從而會使訓練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統的CNN并沒有太大變化。
5結語
本文提出了MSCNN算法在卷積神經網絡的基礎上通過非監督預訓練濾波器的方法解決傳統卷積神經網絡前幾層無法得到有效訓練的問題。針對傳統神經網絡對于復雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節信息,有效提升了識別率和魯棒性。與經典算法的對比實驗結果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉變換具有較強的魯棒性。
參考文獻:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經網絡與機器學習[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
篇2
【關鍵詞】深度神經網絡 序列到序列網絡 卷積網絡 對抗式生成網路
1 深度神經網絡起源
人工神經網絡(ArtificialNeuralNetworks,ANN)研究是人工智能領域的一個重要分支,在對生物神經網絡結構及其機制研究的基礎上,構建類似的人工神經網絡,使得機器能直接從大量訓練數據中學習規律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個人工神經網絡數學模型,19世紀80年代末期反向傳播(Back Propagation)算法的發明更是帶來了ANN的學習熱潮,但由于理論分析難度較大,訓練方法及技巧尚不成熟,計算機運算能力還不夠強大,這個時期ANN結構較為簡單,大部分都可等價為單隱層神經網絡,主要是進行淺層學習(Shallow Learning)研究。
2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預訓練(layerwise greedy pretraining),顯著提高了MNIST手寫數字識別的準確率,開創了深度學習的新方向;隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結構,在圖像和文本降維實驗上明顯優于傳統算法,證明了深度學習的正確性。以這兩篇論文為開端,整個學術界掀起了對深度學習的研究熱潮,由于更多的網絡層數和參數個數,能夠提取更多的數據特征,獲取更好的學習效果,ANN模型的層數和規模相比之前都有了很大的提升,被稱之為深度神經網絡(Deep Neural Networks,DNN)。
2 深度神經網絡的現代應用
2010年以來,隨著理論不斷創新和運算能力的增長,DNN被應用到許多領域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語音識別的錯誤率降低了20%~30%;2012年在ImageNet圖像識別挑戰賽(ILSVRC2012)中DNN更是將識別錯誤率從26%降到了15%;2016年3月DeepMind團隊研發的圍棋軟件AlphaGO以4:1的巨大優勢戰勝了世界圍棋冠軍李世石,2017年1月初AlphaGO的升級版Master以60:0的戰績擊敗了數十位中日韓圍棋高手。當前對DNN的研究主要集中在以下領域:
2.1 語音識別領域
微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學習專家Geoffery Hinton合作,并于2011年宣布推出基于DNN的識別系統,徹底改變了語音識別的原有技術框架;2012年11月,百度上線了第一款基于DNN的語音搜索系統,成為最早采用DNN技術進行商業語音服務的公司之一;2016年微軟使用循環神經網絡語言模型(Recurrent Neural Network based Language Modeling,RNN-LM)將switchboard的詞識別錯誤率降低到了6.3%。
2.2 圖像識別領域
早在1989年,YannLeCun和他的同事們就提出了卷積神經網絡(Convolution Neural Networks,CNN)結構。在之后的很長一段時間里,CNN雖然在諸如手寫數字問題上取得過世界最好的成功率,但一直沒有被廣泛應用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯誤率從26%降到15%,業界才重新認識到CNN在圖像識別領域上的巨大潛力;2012年谷歌宣布基于CNN使得電腦直接從一千萬張圖片中自發學會貓臉識別;2013年DNN被成功應用于一般圖片的識別和理解;2016年DeepMind團隊基于CNN研發了圍棋AI,并取得了巨大成功。
2.3 自然語言處理領域
2003年YoshuaBengio等人提出單詞嵌入(word embedding)方法將單詞映射到一個矢量空間,然后用ANN來表示N-Gram模型;2014年10月NEC美國研究院將DNN用于自然語言處理(Natural language processing,NLP)的研究工作,其研究員Ronan Collobert和Jason Weston從2008年開始采用單詞嵌入技術和多層一維卷積的結構,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP問題;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)網絡模型,突破了傳統網絡的定長輸入向量問題,開創了語言翻譯領域的新方向;2016年谷歌宣布推出基于DNN的翻譯系統GNMT(Google Neural Machine Translation),大幅提高了翻譯的精確度與流暢度。
3 深度神經網絡常見結構
DNN能夠在各領域取得巨大成功,與其模型結構是密不可分的,現代DNN大都可歸納為三種基本結構:序列到序列網絡、卷積網絡、對抗式生成網絡,或由這三種基本網絡結構相互組合而成。
3.1 序列到序列網絡
序列到序列網絡的最顯著特征在于,它的輸入張量和輸出張量長度都是動態的,可視為一串不定長序列,相比傳統結構極大地擴展了模型的適應范圍,能夠對序列轉換問題直接建模,并以端到端的方式訓練模型。典型應用領域有:自動翻譯機(將一種語言的單詞序列轉換為另一種語言的單詞序列),語音識別(將聲波采樣序列轉換為文本單詞序列),自動編程機研究(將自然語言序列轉換為語法樹結構),此類問題的特點在于:
(1)輸入和輸出數據都是序列(如連續值語音信號/特征、離散值的字符);
(2)輸入和輸出序列長度都不固定;
(3)輸入輸出序列長度沒有對應關系。
其典型如圖1所示。
網絡由編碼器(encoder)網絡和解碼器網絡(decoder)兩部分連接構成:
3.1.1 編碼器網絡
編碼器網絡通常是一個遞歸神經網絡(Recurrent Neural Networks,RNN),網絡節點一般使用長短期記憶模型(Long Short Term Memory,LSTM)實現,序列中里第t個張量xt的輸出yt依賴于之前的輸出序列(y0、y1…yt-1),輸入序列(x0、x1、x2…)那爸梁笠來問淙臚絡,整個序列處理完后得到最終的輸出Y以及各層的隱藏狀態H。
3.1.2 解碼器網絡
解碼器網絡是一個與編碼器網絡結構相同的RNN網絡,以解碼器的最終輸出(Y,H)為初始輸入,使用固定的開始標記S及目標序列G當作輸入數據進行學習,目標是使得在X輸入下Y和G盡量接近,即損失度函數f(X)取得最小值。
解碼器網絡屬于典型的監督學習結構,可以用BP算法進行訓練,而編碼器網絡的輸出傳遞給了解碼器網絡,因此也能同時進行訓練。網絡模型學習完畢后,將序列X輸入編碼器,并將起始標記S輸入解碼器,網絡就會給出正確的對應序列。
3.2 卷積神經網絡
卷積神經網絡將傳統圖像處理的卷積運算和DNN相結合,屬于前饋神經網絡,是在生物視覺皮層的研究基礎上發展而來的,在大型圖像處理上有出色表現。CNN一般由多個結構相似的單元組成,每個單元包含卷積層(convolution layer)和池化層(poolinglayer),通常網絡末端還連接全聯通層(fully-connected layer,FC)及Softmax分類器。這種結構使得CNN非常適合處理二維結構數據,相比其它DNN在圖像處理領域上具有天然優勢,CNN的另一優勢還在于,由于卷積層共享參數的特點,使得它所需的參數數量大為減少,提高了訓練速度。其典型結構如圖2所示:
3.2.1 卷積層(Convolutional layer)
卷積層由若干卷積核構成,每個卷積核在整個圖像的所有通道上同時做卷積運算,卷積核的參數通過BP算法從訓練數據中自動獲取。卷積核是對生物視覺神經元的建模,在圖像局部區域進行的卷積運算實質上是提取了輸入數據的特征,越深層的卷積層所能提取到的特征也越復雜。例如前幾個卷積層可能提取到一些邊緣、梯度、線條、角度等低級特征,后續的卷積層則能認識圓、三角形、長方形等稍微復雜的幾何概念,末尾的卷積層則能識別到輪子、旗幟、足球等現實物體。
3.2.2 池化層(Poolinglayer)
池化層是卷積網絡的另一重要部分,用于縮減卷積層提取的特征圖的尺寸,它實質上是某種形式的下采樣:將圖像劃分為若干矩形區塊,在每個區塊上運算池化函數得到輸出。有許多不同形式的池化函數,常用的有“最大池化”(maxpooling,取區塊中數據的最大值)和“平均池化”(averagepooling,取區塊中數據的平均值)。池化層帶來的好處在于:
(1)減小了數據尺寸,降低參數的數量和計算量;
(2)模糊了各“像素”相對位置關系,泛化了網絡識別模式。
但由于池化層過快減少了數據的大小,導致,目前文獻中的趨勢是在池化運算時使用較小的區塊,甚至不再使用池化層。
3.3 生成式對抗網絡(Generative Adversarial Network,GAN)
生成式對抗網絡最初由Goodfellow等人在NIPS2014年提出,是當前深度學習研究的重要課題之一。它的目的是收集大量真實世界中的數據(例如圖像、聲音、文本等),從中學習數據的分布模式,然后產生盡可能逼真的內容。GAN在圖像去噪,修復,超分辨率,結構化預測,強化學習中等任務中非常有效;另一重要應用則是能夠在訓練集數據過少的情況下,生成模擬數據來協助神經網絡完成訓練。
3.3.1 模型結構
GAN網絡典型結構如圖3所示,一般由兩部分組成,即生成器網絡(Generator)和識別器網絡(Discriminator):
(1)生成器網絡的目標是模擬真實數據的分布模式,使用隨機噪聲生成盡量逼真的數據。
(2)識別器的目標是學習真實數據的有效特征,從而判別生成數據和真實數據的差異度。
3.3.2 訓練方法
GAN采用無監督學習進行訓練,輸入向量z一般由先驗概率概率pz(z)生成,通過生成器網絡產生數據G(z)。來自訓練集的真實數據的分布為pdata (x),GAN網絡的實質是學習該特征分布,因此生成的數據G(z)必然也存在對應的分布pg (z),而識別器網絡則給出數據來自于真實數據的概率D(x)以及D(G(z) )。整個訓練過程的實質就是生成器網絡和識別器網絡的博弈過程,即找到
4 深度神經網絡研究展望
DNN雖然在各大領域都取得了重大的成功,甚至宣告了“智能時代”的來臨,但是與人類大腦相比,DNN在許多方面仍有顯著差距:
4.1 識別對抗樣本的挑戰
對抗樣本是指在數據集中添加微小的擾動所形成的數據,這些數據能使網絡以極高的置信度做出錯誤的判別。在網絡實際使用過程中會帶來非常大的問題,比如病毒制造者可能刻意構造樣本來繞過基于DNN的安全檢查網絡。部分研究指出問題的根因可能在于DNN本身的高度非線性,微小的擾動可能在輸出時產生巨大的差異。
4.2 構造統一模型的挑戰
DNN雖然在很多領域都取得了巨大的成功,但無論是序列到序列網絡、卷積網絡、還是對抗式生成網絡都只適應于特定領域,與此相對的則是,人類只用一個大腦就能完成語音、文本、圖像等各類任務,如何構建類似的統一模型,對整個領域都是極大的挑戰。
4.3 提高訓練效率的挑戰
DNN的成功依賴于大量訓練數據,據統計要使得網絡學會某一特征,平均需要50000例以上的樣本,相比而言人類只需要少量的指導即可學會復雜問題,這說明我們的模型和訓練方法都還有極大的提高空間。
參考文獻
[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.
[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.
[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.
[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F,2011 [C].
[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F,2014 [C].
[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.
[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.
[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.
[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.
[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.
[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.
[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.
[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.
作者撾
篇3
P鍵詞:深度學習;文本分類;多類型池化
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)35-0187-03
1 引言
為了進行分類,我們建立句子模型來分析和表示句子的語義內容。句子模型問題的關鍵在于一定程度上的自然語言理解。很多類型的任務需要采用句子模型,包括情感分析、語義檢測、對話分析、機器翻譯等。既然單獨的句子很少或基本不被采用,所以我們必須采用特征的方式來表述一個句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據單詞和詞組提取特征的過程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。
各種類型的模型已經被提出?;诔煞謽嫵傻姆椒ū粦糜谙蛄勘硎荆ㄟ^統計同時單詞同時出現的概率來獲取更長的詞組。在有些情況下,通過對詞向量進行代數操作生成句子層面的向量,從而構成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關。
一種核心模型是建立在神經網絡的基礎上。這種模型包含了單詞包或者詞組包的模型、更結構化的遞歸神經網絡、延遲的基于卷積操作的神經網絡。神經網絡模型有很多優點。通過訓練可以獲得通用的詞向量來預測一段上下文中單詞是否會出現。通過有監督的訓練,神經網絡能夠根據具體的任務進行良好的調節。除了作為強大的分類器,神經網絡模型還能夠被用來生成句子[6]。
我們定義了一種卷積神經網絡結構并將它應用到句子語義模型中。這個網絡可以處理長度不同的句子。網絡中的一維卷積層和多類型動態池化層是相互交錯的。多類型動態池化是一種對求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現在兩個方面。第一,多類型池化操作對一個線性的值序列進行操作,返回序列中的多個數值而不是單個最大的數值。第二,池化參數k可以被動態的選擇,通過網絡的其他參數來動態調整k的值。
卷積層的一維卷積窗口對句子特征矩陣的每一行進行卷積操作。相同的n-gram的卷積窗口在句子的每個位置進行卷積操作,這樣可以根據位置獨立地提取特征。一個卷積層后面是一個多類型動態池化層和一個非線性的特征映射表。和卷積神經網絡在圖像識別中的使用一樣,為豐富第一層的表述,通過不同的卷積窗口應用到句子上計算出多重特征映射表。后續的層也通過下一層的卷積窗口的卷積操作計算出多重特征映射表。最終的結構我們叫它多類型池化的卷積神經網絡。
在輸入句子上的多層的卷積和動態池化操作產生一張結構化的特征圖。高層的卷積窗口可以獲取非連續的相距較遠的詞組的句法和語義關系。特征圖會引導出一種層級結構,某種程度上類似于句法解析樹。這種結構不僅僅是和句法相關,它是神經網絡內部所有的。
我們將此網絡在四種場景下進行了嘗試。前兩組實驗是電影評論的情感預測[2],此網絡在二分和多種類別的分類實驗中的表現都優于其他方法。第三組實驗在TREC數據集(Li and Roth, 2002)上的6類問題的分類問題。此網絡的正確率和目前最好的方法的正確率持平。第四組實驗是推特的情感預測,此網絡將160萬條微博根據表情符號自動打標來進行訓練。在手工打標的測試數據集上,此網絡將預測錯誤率降低了25%。
本文的概要如下。第二段主要闡述MCNN的背景知識,包括核心概念和相關的神將網絡句子模型。第三章定義了相關的操作符和網絡的層。第四章闡述生成的特征圖的處理和網絡的其他特點。第五章討論實驗和回顧特征學習探測器。
2 背景
MCNN的每一層的卷積操作之后都伴隨一個池化操作。我們先回顧一下相關的神經網絡句子模型。然后我們來闡述一維的卷積操作和經典的延遲的神經網絡(TDNN)[3]。在加了一個最大池化層到網絡后,TDNN也是一種句子模型[5]。
2.1 相關的神經網絡句子模型
已經有很多的神經網絡句子模型被描述過了。 一種比較通用基本的模型是神經網絡詞包模型(NBoW)。其中包含了一個映射層將單詞、詞組等映射到更高的維度;然后會有一個比如求和之類的操作。結果向量通過一個或多個全連接層來進行分類。
有以外部的解析樹為基礎的遞歸神經網絡,還有在此基礎上更進一步的RNN網絡。
最后一種是以卷積操作和TDNN結構為基礎的神經網絡句子模型。相關的概念是動態卷積神經網絡的基礎,我們接下來介紹的就是它。
2.2 卷積
一維卷積操作便是將權重向量[m∈Rm]和輸入向量[s∈Rs]進行操作。向量m是卷積操作的過濾器。具體來說,我們將s作為輸入句子,[si∈R]是與句子中第i個單詞相關聯的單獨的特征值。一維卷積操作背后的思想是通過向量m和句子中的每個m-gram的點積來獲得另一個序列c:
[ci=mTsi-m+1:i (1)]
根據下標i的范圍的不同,等式1產生兩種不同類型的卷積。窄類型的卷積中s >= m并且會生成序列[c∈Rs-m+1],下標i的范圍從m到s。寬類型的卷積對m和s的大小沒有限制,生成的序列[c∈Rs+m-1],下標i的范圍從1到s+m-1。超出下標范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結果是寬類型的卷積結果的子序列。
寬類型的卷積相比于窄類型的卷積有一些優點。寬類型的卷積可以確保所有的權重應用到整個句子,包括句子收尾的單詞。當m被設為一個相對較大的值時,如8或者10,這一點尤其重要。另外,寬類型的卷積可以確保過濾器m應用于輸入句子s始終會生成一個有效的非空結果集c,與m的寬度和s句子的長度無關。接下來我們來闡述TDNN的卷積層。
4 驗與結果分析
我們對此網絡進行了4組不同的實驗。
4.1 電影評論的情感預測
前兩組實驗是關于電影評論的情感預測的,數據集是Stanford Sentiment Treebank.實驗輸出的結果在一個實驗中是分為2類,在另一種試驗中分為5類:消極、略微消極、中性、略微積極、積極。而實驗總的詞匯量為15448。
表示的是電影評論數據集情感預測準確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機。在三種神經網絡模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機初始化的;它們的維度d被設為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個非線性化層、最大池化層和softmax分類層。NBoW會將詞向量相加,并對詞向量進行非線性化操作,最后用softmax進行分類。2類分類的MCNN的參數如下,卷積層之后折疊層、動態多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動態多類型池化層的k的值為4。網絡的最頂層是softmax層。5類分類的MCNN有相同的結構,但是濾波窗口的大小分別為10和7,k的值為5。
我們可以看到MCNN的分類效果遠超其他算法。NBoW的分類效果和非神經網絡算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因為過度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹來生成結構化特征,其他模型都不需要依賴外部資源。
4.2 問題分類
問題分類在問答系統中應用非常廣泛,一個問題可能屬于一個或者多個問題類別。所用的數據集是TREC數據集,TREC數據集包含6種不同類別的問題,比如一個問題是否關于地點、人或者數字信息。訓練集包含5452個打標的問題和500個測試集。
4.3 Twitter情感預測
在我們最后的實驗里,我們用tweets的大數據集進行訓練,我們根據tweet中出現的表情符號自動地給文本進行打標簽,積極的或是消極的。整個數據集包含160萬條根據表情符號打標的tweet以及400條手工標注的測試集。整個數據集包含76643個單詞。MCNN的結構和4.1節中結構相同。隨機初始化詞向量且維度d設為60。
我們發現MCNN的分類效果和其他非神經網絡的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強的特征提取能力。
5 結語
在本文中我們闡述了一種動態的卷積神經網絡,它使用動態的多類型池化操作作為非線性化取樣函數。此網絡在問題分類和情感預測方面取得了很好的效果,并且不依賴于外部特征如解析樹或其他外部資源。
參考文獻
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
篇4
【關鍵詞】圖像識別;數學建模;分類算法;深度學習
引言
隨著微電子技術及計算機技術的蓬勃發展,圖像識別應運而生,圖像識別是研究用計算機代替人們自動地去處理大量的物理信息,從而代替人的腦力勞動。隨著計算機處理能力的不斷強大,圖像識別從最早的文字識別、數字識別逐漸發展到人臉識別、物體識別、場景識別、精細目標識別等,所采用的技術也從最早的模板匹配、線性分類到廣泛使用的深層神經網絡與支持向量機分類等方法。
1.圖像識別中的數學問題建模
1.1飛行器降落圖像智能識別建模
在復雜地形環境下,飛行器進行下降過程,需要采集圖像并且判斷是否符合降落要求。在對飛行器進行最終落地點的選擇時,如果降落點復雜程度較高,采集的圖像中將會產生大量的訓練樣本數目,圖像配準過程中,極大地增加了運算量,造成最佳降落點選擇的準確率降低。提出了利用圖像智能識別進行最佳降落點的建模。利用偽Zemike矩能夠對降落點的圖像形狀進行準確的描述,利用Procrustes形狀分析法提取最佳降落點的特征,利用Rank的融合決策法最終實現最佳降落點選擇的目的。
1.2人臉面部表情圖像識別的隱馬爾科夫建模
人有喜怒哀樂,目前有一種利用隱馬爾科夫模型的建模方法,可以實現對人臉表情中的情感進行識別。具體的是:首先,采用子窗口對人臉面部表情圖像進行采樣,然后利用離散余弦變換提取所需要的特征向量,通過對人臉面部圖像進行隱馬爾科夫建模,使用獲得的特征向量作為觀測向量對人臉面部圖像的隱馬爾科夫模型進行訓練,再使用訓練后的隱馬爾科夫模型對JAFFE人臉圖像測試集中地人臉表情圖像進行情感識別。
2.典型的圖像識別算法
2.1 基于Gabor變換和極限學習機的貝類圖像種類識別
對貝類圖像進行Gabor變換,提取其圖像特征,確定了圖像特征維數;采用2DPCA方法,對變換后的特征進行降維,并利用極限學習機(ELM)進行貝類圖像的分類識別。與BP神經網絡和支持向量機(SVM)實驗對比發現,極限學習機分類器用于貝類識別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點對高維圖像識別精確度高,但算法的復雜度和設計一個精確的分類器都顯得難以把握。因此該類圖像識別算法很難普遍推廣使用,識別對象必須是貝類圖像。
2.2 利用公開的全極化SAR數據,研究基于SAR圖像的檢測、極化分解和識別算法
首先根據四個線極化通道合成偽彩色圖像,從而對場景進行初步認知。利用一維距離像分析全極化各通道的信噪比強度,通過對目標進行Pauli分解得到目標的奇次散射分量和偶次散射分量,從而完成對海雜波、建筑物和艦船的相干分量的研究。其特點過程簡單易掌握,但識別對象有限。
2.3 基于SVM的離線圖像目標分類算法
基于SVM的離線圖像目標分類算法,先對訓練集預處理,然后將處理后的圖像進行梯度直方圖提取最后對圖像目標的分離器進行檢測,但是這種圖像識別算法只是有效,實用性不強。
3.深度學習在圖像識別的應用
3.1 Deep learning的原理
深度學習是一種模擬人腦的思考方式,通過建立類似人腦的神經網絡,實現對數據的分析,即按照人類的思維做出先關解釋,形成方便人們理解的圖像、文字或者聲音。深度學習的重點是對模型的運用,模型中需要的參數是通過對大量數據的學習和分析中得到的。
深度學習有兩種類型:有監督學習和無監督學習。學習模型根據學習框架的類型來確定。比如,卷積神經網絡就是一種深度的監督學習下的機器學習模型,而深度置信網就是一種無監督學習下的機器學習模型。
3.2 深度學習的典型應用
深度學習是如今計算機領域中的一個奪人眼球的技術。而在深度學習的模型中研究熱度最高的是卷積神經網絡,它是一種能夠實現大量圖像識別任務的技術。卷積神經網絡的核心思想是局部感受野、權值共享以及時間或空間亞采集。通常卷及神經網絡使用最后一層全連接隱層的值作為對輸入樣本所提出的特征,通過外部數據進行的有監督學習,從而可以保證所得的特征具有較好的對類內變化的不變性。
3.2.1基于深度學習特征的人臉識別方法。
卷積神經網絡在人臉識別領域取得了較大突破,為了更加有效的解決復雜類內變化條件下的小樣本人臉識別問題,使用深度學習的方法來提取特征,與基于稀疏表示的方法結合起來,實驗證明了深度學習所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對類內變化的不變性。
3.2.2基于深度學習的盲文識別方法。
目前盲文識別系統存在識別率不高、圖片預處理較為復雜等問題。針對這些問題,利用深度模型堆疊去噪編碼器自動、全面學習樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學習的特征作為神經網絡的輸入,更大程度地避免了傳統神經網絡由于隨機選取初值而導致結果陷入局部極值的問題。
3.2.3基于深度學習的手繪草圖識別。
目前的手繪草圖識別方法存在費時費力,較依賴于手工特征提取等問題?;谏疃葘W習的手繪草圖識別方法根據手繪草圖時缺失顏色、紋理信息等特點,使用大尺寸的首層卷積核獲得更多的空間結構信息,利用訓練淺層模型獲得的模型參數來初始化深度模型對應層的模型參數,以加快收斂,減少訓練時長,加入不改變特征大小的卷基層來加深網絡深度等方法實現減小錯誤率。
4.結論
圖像識別是當代人工智能的熱門研究方向,其應用領域也是超乎人類想象的,相信通過技術的不斷創新,圖像識別技術會給人們的生活帶來智能化、個性化、全面化的服務。
參考文獻:
[1]穆靜,陳芳,王長元.人臉面部表情圖像的隱馬爾科夫建模及情感識別[J].西安:西安工業大學學報,2015(09).
[2]楊靖堯,里紅杰,陶學恒.基于Gabor變換和極限學習機的貝類圖像種類識別[J].大連工業大學學報,2013(04).
[3]馬曉,張番棟,封舉富.基于深度學習特征的稀疏表示的人臉識別方法[J].智能系統學報,2016(11).
篇5
黑科技?神經網絡是個什么鬼
說到神經網絡,很多朋友都會認為這是一個高大上的概念。從生物學角度來說,人類復雜的神經系統是由數目繁多的神經元組合而成,它們互相聯結形成神經網絡,經過對信息的分析和綜合,再通過運動神經發出控制信息,從而實現各種精密活動,如識別各種物體、學習各種知識、完成各種邏輯判斷等。
隨著人工智能技術的發展,科學家開發出人工神經網絡,它的構成原理和功能特點等方面更加接近人腦。它不是按給定的程序一步一步地執行運算,而是能夠自身適應環境、總結規律、完成某種運算、識別或過程控制。比如多倫多大學的Krizhevsky等人構造了一個超大型卷積神經網絡,有9層,共65萬個神經。第一層神經元只能識別顏色和簡單紋理,但是第五層的一些神經元可以識別出花、圓形屋頂、鍵盤、烏、黑眼圈等更為抽象豐富的物體(圖1)。因此神經網絡實際上是基于人工智能技術而形成的一種和人類神經網絡相似的網絡系統。
媲美Photoshop 神經網絡磨皮技術背后
如上所述,現在神經網絡技術發展已經非常迅猛,而且運用在各個領域。神經網絡磨皮則是指該技術在照片識別和美化方面的運用。那么它是怎樣實現對照片的美化?在Photoshop中磨皮操作是用戶先選中人臉區域,然后再使用Photoshop內置的方法實現磨皮。神經網絡磨皮原理類似,只不過這些操作是自動完成的。
首先是對照片人臉識別。要實現對照片的美容就必須先精確識別人臉,由于人臉有五官這個顯著特征,因此神經網絡磨皮技術只要通過機器對一定數量的人臉照片進行識別、讀取,然后就可以精確識別人臉。它的原理和常見的人臉識別技術類似(圖2)。
其次則是美化。在完成人臉識別后就需要對美化操作進行機器學習,以磨皮為例。因為人臉的每個年齡階段皮膚性質是不同的,為了達到更真實的磨皮效果,神經網絡磨皮是實現用戶“回到”幼年或者“穿越”到老年臉部皮膚的效果。研究人員將年齡段分類為0~18歲、19~29歲、30~39歲、40~49歲、50~59歲和60歲以上這幾個階段(圖3)。
然后準備兩個深度學習機器同時工作。兩個機器一個用來生成人臉,一個用來鑒別人臉。而且兩個機器會通過分析人臉圖像,提前學習到各年齡段人臉大概是什么樣子的。在每個年齡分組里,研究人員讓機器學習超過5000張標記過年齡的人臉圖像。通過大量的照片學習后,機器就可以學會每個年齡分組內的標簽,它可以準確知道每個人不同年齡階段的臉部特征。這樣無論你是要磨皮為年輕時的皮膚光滑、圓潤狀態,還是要變為50歲以后皺褶、粗糙的皮膚,神經磨皮都可以輕松幫助你實現。
當然學習有個通病,就是在合成過程中,機器可能會喪失掉圖片原有的識別資料(1D)。為了解決這個問題,上述介紹中的人臉鑒別機器就發揮功效了。它通過查看這個照片的識別資料是不是唯一的,如果不是的話照片則會被拒絕輸出。研究人員讓機器合成10000張從數據庫中抽取出來的人像,這些照片之前從未用來訓練機器。然后他們用開發的軟件程序來檢測訓練前后的兩張照片是否為同一個人,測試結果顯示有80%經訓練的照片都被認為和原照片是同一個人(而作為對比,用其他方法加工照片,平均測試結果只有50%)。舉個簡單例子,如果40歲的用戶將自己磨皮為20歲的樣子,如果軟件程序來檢測訓練前后的兩張照片為同一個人,那么就輸出磨皮效果,從而讓用戶可以輕松磨皮到20歲的狀態。這樣經過訓練的神經磨皮算法可以很真實地實現人臉的磨皮。
神經網絡 不H僅是磨皮
篇6
關鍵詞:人臉識別技術;病毒管控;人工智能;神經網絡
互聯網在今天的社會中發揮著舉足輕重的作用。如今社會,隨著許多人工智能技術、網絡技術、云計算等互聯網技術不斷發展,像人臉識別等技術的應用越來越廣泛,在控制病毒傳播途徑等場合發揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術方法,能夠及時發現和控制公共場所的安全隱患因素,避免對社會經濟、居民生活造成破壞,。但目前的人臉識別等技術還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。
1人臉識別技術研究意義
人臉識別技術是一種生物特征識別技術,最早產生于上世紀60年代,基于生理學、圖像處理、人機交互及認知學等方面的一種識別技術。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術,人臉識別雖然存在人臉識別單一性低,且區分度難度高、易受環境影響等不足。但是人臉識別技術擁有速度快、大范圍群體識別及非接觸、遠距離可識別等優勢,都是其他生物識別識別技術所不具備的,而在傳播性強、感染風險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術引入信息管理系統,綜合集成視頻監控、圖像處理、深度學習和大數據等技術,結合非接觸測溫、定位等技術,助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發展進程??勺鳛榧訌姽矆鏊娜藛T的體溫實時監測、地址信息定位的監控管理,規范公共場所針對病毒傳播的預防行為。
2人臉識別技術
2.1人臉檢測技術
人臉檢測是自動人臉識別系統中的一個關鍵環節。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設人臉位置靜止或者容易獲取。人臉檢測分為前深度學習時期,AdaBoost框架時期以及深度學習時期。前深度學習時期,人們將傳統的計算機視覺算法運用于人臉檢測,使用了模板匹配技術,依賴于人工提取特征,然后用這些人工特征訓練一個檢測器;后來技術發展,在2001年Viola和Jones設計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯的AdaBoost分類器構造檢測器,檢測速度較之前的方法有2個數量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標檢測框架的基礎,使用級聯AdaBoost分類器進行目標檢測的思想是:用多個AdaBoost分類器合作實現對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標是人臉還是非人臉。Adaboost框架技術的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數數量較少。在深度學習時期,開始將卷積神經網絡應用于人臉檢測領域。研究方向有兩種:一是將適用于多任務的目標檢測網絡應用于人臉檢測中;另一種是研究特定的的人臉檢測網絡。人臉檢測技術具有特殊唯一性和穩定性,在現今社會對于構建居民身份識別系統,病毒傳播防控系統,以及計算機視覺交互模型的構建具有廣泛的應用。人臉檢測技術不僅作為人臉識別的首要步驟,也在許多其他領域發揮巨大影響,如人臉關鍵點提取、人臉追蹤、基于內容的檢索、數字視頻處理、視頻檢測、安防監控、人證比對、社交等領域都有重要的應用價值。數碼相機、手機等移動端上的設備已經大量使用人臉檢測技術實現成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術定位人臉。評價一個人臉檢測算法好壞的指標是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。
2.2人臉識別技術
目前主要流行的人臉識別技術包括幾何特征識別,模型識別,特征臉識別和基于深度學習/神經網絡的的人臉識別技術等。人臉特征識別主要通過對人臉面部結構特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關系該方法比較簡單,反應速度快,并且具有魯棒性強等優點,但是在實際環境下使用容易受檢測的環境的變化、人臉部表情變化等影響,精度通常不高,細節處理上不夠完善。模型識別技術主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(PCA技術),從數學上來講,特征臉就是人臉的圖像集協方差矩陣的特征向量。該技術能有效的顯示人臉信息,效率較高?;谏疃葘W習的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學習人臉樣本數據的內在規律和表示層次??梢圆捎萌缛龑忧梆丅P神經網絡。BP神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是應用最廣泛的神經網絡模型之一。BP網絡本質上是一種能夠學量的輸入與輸出之間的映射關系的輸入到輸出的映射,從結構上講,BP網絡具有輸入層、隱藏層和輸出層;從本質上講,BP算法就是以網絡誤差平方為目標函數、采用梯度下降法來計算目標函數的最小值。BP神經網路輸入層有n個神經元節點,輸出層具有m個神經元,隱含層具有k個神經元,采用BP學習算法訓練神經網絡。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經過逐級的變換,傳送到輸出層。這個過程也是在網絡完成訓練后正常運行時執行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經網絡向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應理想輸出Yp之差;②按極小化誤差方法調整帶權矩陣。之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓練集。由訓練策略選擇樣本圖像作為訓練集。(2)規定各權值Vij,Wjk和閾值Φj,θk參數,并初始化學習率α及精度控制參數ε。(3)從訓練集中取輸入向量X到神經網絡,并確定其目標輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網絡的實際輸出Y。(5)將輸出矢量中yk與目標矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權值和閾值的調整量。所以,卷積神經網絡算法是通過訓練人臉特征庫的方式進行學習生成,對不同環境下不同表現情況的人臉圖像識別有更高的精確性。
2.3人臉識別軟件實現方式
(1)采集人臉數據集,然后對數據集進行標注,對數據進行預處理變成訓練格式。(2)部署訓練模型,根據訓練算法所需依賴部署電腦環境。(3)訓練過程,下載預訓練模型,將人臉數據集分批次作為輸入開始訓練,最終輸出為訓練好的模型。(4)部署訓練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。
3人臉識別在病毒傳播防控中的應用
通過人臉識別技術,可以實現無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學習對人臉特征模型的訓練學習,即可獲取人臉識別特征模型,再次驗證時即可實現人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統基礎上,可以加入定位系統、測溫系統等,依托物聯網技術和云計算大數據,更加優化管控系統的效率。病毒傳播防控中人臉識別系統流程可以概括為圖2。
4結語
本文研究了一種人臉識別技術在病毒傳播管控系統中的應用,并分析設計了人臉識別實時監測及病毒管控系統的流程,大大提高了信息管理的效率,減弱了傳播風險。作為一門新興技術,目前的人臉識別技術還存在著諸多不足之處,像存在環境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統識別精度;另外安全問題也引人深思:現今人臉支付方式迅猛發展,錄入的人臉模型信息數據庫存在有一定的安全風險,一旦被不法分子盜取信息后果不堪設想,所以模型數據庫安全、網絡安全,也是系統開發中必須重視的問題。人臉識別為代表的人工智能技術的研究,在病毒傳播管控作出重大貢獻,依托我國領先的計算機網絡技術和5G等技術,加強人工智能技術與5G通信技術的結合,優勢互補,以此來加快大數據、人工智能和物聯網技術發展進程,對我國社會進步,促進城市建設和管理朝著高效、秩序、和諧穩定的方向不斷發展,增強我國的經濟實力有著重大價值和研究意義。
參考文獻
[1]王彥秋,馮英偉.基于大數據的人臉識別方法[J].現代電子技術,2021,44(7):87-90.
[2]李剛,高政.人臉自動識別方法綜述[J].計算機應用研究,2003,20(8):4-9,40.
[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學與探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度學習的人臉識別方法綜述[J].工程數學學報,2021,38.
[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現[J].河南理工大學學報(自然科學版),2005.
[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統與標準研究[J].信息技術與標準化,2020,6,11-13,1671-539X.
[6]彭駿,吉綱,張艷紅,占濤.精準人臉識別及測溫技術在疫情防控中的應用[J].軟件導刊,2020,10,1672-7800.
篇7
計算機視覺的第一步是特征提取,即檢測圖像中的關鍵點并獲取有關這些關鍵點的有意義信息。特征提取過程本身包含4個基本階段:圖像準備、關鍵點檢測、描述符生成和分類。實際上,這個過程會檢查每個像素,以查看是否有特征存在干該像素中。
特征提取算法將圖像描述為指向圖像中的關鍵元素的一組特征向量。本文將回顧一系列的特征檢測算法,在這個過程中,看看一般目標識別和具體特征識別在這些年經歷了怎樣的發展。
早期特征檢測器
Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技術的早期實現。但這些屬于計算密集型算法,涉及到大量的浮點運算,所以它們不適合實時嵌入式平臺。
以SIFT為例,這種高精度的算法,在許多情況下都能產生不錯的結果。它會查找具有子像素精度的特征,但只保留類似于角落的特征。而且,盡管SIFT非常準確,但要實時實現也很復雜,并且通常使用較低的輸入圖像分辨率。
因此,SIFT在目前并不常用,它主要是用作一個參考基準來衡量新算法的質量。因為需要降低計算復雜度,所以最終導致要開發一套更容易實現的新型特征提取算法。
二代算法
Speeded Up Robust Features(SURF)是最早考慮實現效率的特征檢測器之一。它使用不同矩形尺寸中的一系列加法和減法取代了SIFT中浩繁的運算。而且,這些運算容易矢量化,需要的內存較少。
接下來,HOG(Histograms ofOriented Gradients)這種在汽車行業中常用的熱門行人檢測算法可以變動,采用不同的尺度來檢測不同大小的對象,并使用塊之間的重疊量來提高檢測質量,而不增加計算量。它可以利用并行存儲器訪問,而不像傳統存儲系統那樣每次只處理一個查找表,因此根據內存的并行程度加快了查找速度。
然后,ORB(Oriented FASTand Rotated BRIEF)這種用來替代SIFT的高效算法將使用二進制描述符來提取特征。ORB將方向的增加與FAST角點檢測器相結合,并旋轉BRIEF描述符,使其與角方向對齊。二進制描述符與FAST和HarrisCorner等輕量級函數相結合產生了一個計算效率非常高而且相當準確的描述圖。
CNN:嵌入式平臺目標識別的下一個前沿領域
配有攝像頭的智能手機、平板電腦、可穿戴設備、監控系統和汽車系統采用智能視覺功能將這個行業帶到了一個十字路口,需要更先進的算法來實現計算密集型應用,從而提供更能根據周邊環境智能調整的用戶體驗。因此,需要再一次降低計算復雜度來適應這些移動和嵌入式設備中使用的強大算法的嚴苛要求。
不可避免地,對更高精度和更靈活算法的需求會催生出矢量加速深度學習算法,如卷積神經網絡(CNN),用于分類、定位和檢測圖像中的目標。例如,在使用交通標志識別的情況下,基于CNN的算法在識別準確度上勝過目前所有的目標檢測算法。除了質量高之外,CNN與傳統目標檢測算法相比的主要優點是,CNN的自適應能力非常強。它可以在不改變算法代碼的情況下快速地被重新“訓練(tuning)”以適應新的目標。因此,CNN和其他深度學習算法在不久的將來就會成為主流目標檢測方法。
CNN對移動和嵌入式設備有非??量痰挠嬎阋?。卷積是CNN計算的主要部分。CNN的二維卷積層允許用戶利用重疊卷積,通過對同一輸入同時執行一個或多個過濾器來提高處理效率。所以,對于嵌入式平臺,設計師應該能夠非常高效地執行卷積,以充分利用CNN流。
事實上,CNN嚴格來說并不是一種算法,而是一種實現框架。它允許用戶優化基本構件塊,并建立一個高效的神經網絡檢測應用,因為CNN框架是對每個像素逐一計算,而且逐像素計算是一種要求非??量痰倪\算,所以它需要更多的計算量。
不懈改進視覺處理器
篇8
關鍵詞 車輛自動駕駛;人工智能;應用實踐;智能汽車
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)182-0080-02
車輛自動駕駛系統是改變傳統駕駛方式的重要技術類型,但仍舊處于研發測試階段,并未展開全面應用。車輛自動駕駛系統主要是由感知部分和控制部分構成,控制部分主要完成對車輛的控制,促使車輛按照設計的線路展開行駛,而感知部分則是對路線中障礙進行識別,促使車輛進行規避,保障車輛安全。然而現階段,車輛自動駕駛的感知部分卻存在一定的瓶頸,制約車輛自動駕駛系統的功能。基于此,本文對車輛自動駕駛中人工智能的應用展開分析,具體內容如下。
1 車輛自動駕駛現狀分析
車輛自動駕駛是借助網絡技術相關算法、高敏感度的傳感器和相關信息采集設備,綜合的對車輛行駛過程中路況信息進行采集,由信息處理部分完成對車輛行駛過程中采集數據的分析,再由控制系統完成對車輛前進、后退和停止等動作進行實施,可有效改變傳統車輛的駕駛方式,在提高車輛駕駛有效性的基礎上,可以解放駕駛人員的雙手,并達到降低交通事故發生幾率,達到智能化汽車的構建。
近年來,以百度、谷歌為首的行業,致力于人工智能技術應用車輛自動駕駛系統中,于2016年谷歌將無人駕駛的汽車測試到城市,并于2016年12月無人駕駛汽車項目剝離為獨立的公司waymo,完成對車輛自動駕駛的研究,該公司的基于自動駕駛的車輛的自動行駛的距離>1.61×106km,并獲得大量的數據。
較比國外的車輛自動駕駛的自主研究形式,國內主要選擇汽車廠商與科研所高校等聯合研究的方式,主要有一汽、上汽、奇瑞等,均投入一定資金和研究力度,致力于研發可無人駕駛的智能汽車。同時,網絡技術和算法技術、硬件技術的不斷成熟,為車輛自動駕駛提供了基礎,對智能汽車的構建具有十分積極的意義。
隨著世界各類尖端行業重視到汽車自動駕駛大有可為,逐漸加大對車輛自動駕駛的研究,并將具備車輛自動駕駛能力的汽車作為未來汽車市場的主要方向,促使汽車可以在自動駕駛的狀態下,完成對復雜環境的駕駛,達到高度自動化駕駛的效果。
2 人工智能在車輛自動駕駛中的應用
人工智能是計算機科學的分支之一,所包含的領域較多,涵蓋機器人、語言識別、圖像識別等,隨著人工智能研究的不斷深入,人工智能逐漸應用到各個領域中。將人工智能應用到車輛自動駕駛中,可以對車輛自動駕駛的瓶頸進行突破,推動車輛自動駕駛的早日實現。
2.1 基于深度思考的人工智能
車輛自動駕駛系統對基于深度思考的人工智能進行應用,深度思考是一種機器學習的算法,可完成多元非線性數據轉換、高級數據概念模型的構建,促使車輛自動駕駛系統的感知部分發生轉變。具體的基于深度思考的人工智能學習結構,有深度神經網絡(DNNs)、卷積神經網絡(CNNs)、深度信念網絡等,在具體的車輛自動駕駛系統中,完成對車輛的視覺、語言等信息的識別。蘋果手機編制程序專家George?Hotz創建的企業,構建的基于卷積神經網絡的自動駕駛車輛,并借助人工智能實現車輛訓練。在具體的車輛訓練過程中,選擇激光雷達作為主要視覺裝置,完成周邊環境的精準三維掃描,進而實現對周邊環境的識別,且可以完成對車位置信息的報告。
2.2 基于人工智能解讀的儀表板攝像頭
選擇以帕洛阿爾托為基地的NAUTO使用的prosumer相機中發現的各類圖像傳感器,并運用運動感應器、GPS等,轉變激光雷達傳感器昂貴的情況,達到降低車輛自動駕駛的感知成本,并有效完成對周邊地形的識別。借助NAUTO系統,不但能夠完成對道路前方情況的識別,還能對車輛內部的情況信息進行采集,車輛乘坐人員可以根據面部表情、手勢和語言完成對車輛的控制,達到改善人機交互界面。
2.3 基于人工智能的尾剎
現階段,汽車輔助系統不斷發展和完善,切實應用到車輛中,基于人工智能的ADAS技術,配合ACC(自適應循環)、LDWS(車道偏移報警系統)、自動泊車等系統的應用,使得目前車輛具備良好的自動能力。而ADAS技術的應用,可以使得汽車在具體運行中如果前方存在車輛或是前方存在障礙物不能繞過的情況,借助ADAS技術的應用,可以實現自動剎車,進而保障車輛的行駛安全。
2.4 感知、計劃、動作的agent結構應用
車輛自動駕駛系統中對人工智能進行應用,對改善自動車輛駕駛的效果顯著,改善車輛自動駕駛的效果。
借助知識庫的十二構建,可以給予自動駕駛行駛過程中的地理信息、電子地圖、交通信息和相關法律法規這些內容。且這些知識主要是以知識的形式展示,并借助知R推理中的A算法,可以有效完成對下一個被檢查的結點時引入已知的全局信息進行解讀,達到對最優路線的選擇,獲得可能性最大的結點,繼而保障知識所搜的效率。借助感知―計劃―動作agent結構的人工職能,可以將車輛自動行駛的速度分為3個檔次:High、Middle、Fast,轉向角度為7等,分別為0°,±10°,±20°,±30°。且可以完成對各類障礙的規避。
3 車輛自動駕駛中人工智能應用的相關問題
1)車輛自動駕駛具有良好的發展前景,而人工智能的應用,進一步優化了車輛自動駕駛系統的功能,達到減少錯誤的情況,借助人工智能盡可能降低各類錯誤的存在,規避自動駕駛風險的存在。需不斷加強對人工智能的研究和分析,促使人工智能和車輛自動駕駛有機的結合,為智能汽車的構建奠定基礎。
2)人工智能應用時,需要對車輛電腦程序和信息網絡的安全系數進行控制,避免非法入侵對車輛造成不利影響,進而導致安全隱患的發生。
3)人工智能在具體的應用中,需要對預測和回應人類行為的問題進行處理,進而增加自動駕駛車輛與人的互動。
4)基于人工智能的智能汽車定責的法律問題,國家需要建立相關的法律法規,不斷完善車輛自動駕駛的相關立法,完成對各類問題的處理,提升法律的適應性。
4 結論
分析車輛自動駕駛的現狀,再詳細的對人工智能在車輛自動駕駛的應用,再解讀基于感知―計劃―動作agent結構的人工智能的具體應用,并分析人工智能在車輛自動駕駛中應用的相關問題,為推動車輛自動駕駛的水平和智能化水平提供基礎,達到改善人們生活的效果。
參考文獻
[1]黃健.車輛自動駕駛中的仿人控制策略研究[D].合肥:合肥工業大學,2013.
[2]謝基雄.探析人工智能技術對電氣自動化的實踐運用[J].電源技術應用,2013(9).
[3]禹昕.人工智能在電氣工程自動化中的運用實踐研究[J].工程技術:全文版,2016(12):00247.
[4]余阿東,陳睿煒.汽車自動駕駛技術研究[J].汽車實用技術,2017(2):124-125.
篇9
如果時光倒流500年,你會如何對當時的人們述說今日的世界?在那個時代,哥白尼剛剛發表日心論,伽利略還在比薩斜塔拋擲鐵球,吳承恩還在用毛筆寫著《西游記》。如果你對他們說:“嘿,老兄,我對著手上的這個‘黑色方塊’說句話,它不僅能讓你看到太陽系長什么樣,告訴你什么是重力加速度,還能直接把唐僧要去西天取的經下載給你看?!彼麄兛赡軙X得你要么是神仙,要么是神經。
AI從誕生到現在已經有60年的時間,期間經歷兩輪起落,呈階梯式進化,走到今天進入第三個黃金期。如果按照其智能水平劃分,今天的人工智能尚處在狹義智能向廣義智能進階的階段,還是一名不折不扣的“少年”,未來擁有無限的可能和巨大的上升空間。
AI是一門交叉的學科:人工智能由不同的技術領域組成,如機器學習、語言識別、圖像識別、自然語言處理等。而同時,它也是一門交叉學科,屬于自然科學和社會科學的交叉,涉及到哲學和認知科學、數學、神經生理學、心理學、計算機科學、信息論、控制論、不定性論等學科。因此人工智能領域的技術壁壘是比較高的,并且會涉及到多學科協作的問題,對任何公司來說,想做好人工智能將是一門大工程。未來不大可能出現一個公司能包攬整個人工智能產業每一個部分的工作,更可能的模式將是一個公司專注于一個相對細分的領域,通過模塊化協作的形式實現人工智能領域的不同應用。
進化史呈階梯狀,以階段突破式為成長模式:人工智能的發展經歷了兩次黃金和低谷期,
現在正經歷著第三個黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農等年輕科學家在達特茅斯一起聚會,并首次提出了“人工智能”這一術語,標志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機,標志著第一款神經網絡誕生。1970年,因為計算能力沒能突破完成大規模數據訓練,人工智能的第一個黃金期到此結束。
后直到1982年德普霍爾德神經網絡的提出,人工智能進入第二個黃金期,之后BP算法的出現使大規模神經網絡訓練成為可能,人工智能的發展又一次進入。1990年,因為人工智能計算機和DARPA沒能實現,政府撤資,人工智能又一次進入低估。2006年,隨著“深度學習”神經網絡取得突破性進展,人工智能又一次進入黃金時期。
AI將由狹義智能向廣義智能進化,雖然人工智能的誕生已經有60年的時間但如果把它比喻成一個人的話,當前的他應該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級智能三個大的發展階段,現階段的圖像與語音識別水平標志著人類已經基本實現狹義智能,正在向廣義智能的階段邁進。
狹義智能:即當前的技術已經實現的智能水平,包括計算智能與感知智能兩個子階段,計算智能指的機器開始具備計算與傳遞信息的功能,感知智能指機器開始具備“眼睛”和“耳朵”,即具備圖像識別與語音識別的能力,并能以此為判斷采取一些行動。
廣義智能:指的是機器開始具備認知能力,能像人類一樣獲取信息后主動思考并主動采取行動。在這個階段,機器可以全面輔助或代替人類工作。
超級智能:這個階段的機器幾乎在所有領域都比人類聰明,包括科學創新、通識和社交技能等。這個階段目前離我們還比較遙遠,到時候人類的文明進步和跨越或許將有賴于機器,而機器人意識的倫理問題也許將在這個階段成為主要問題。
推薦引擎及協同過濾可以分析更多的數據
智能助手并不只局限于Siri等手機語音助手。微軟率先在win10 系統中加入個人智能助理Cortana,標志著個人PC端智能助理的出現;圖靈機器人以云服務的方式進入海爾智能家居、博世mySPIN車載系統,預示著多場景人工智能解決方案的潮流。初步實現人機交互的智能助手系統,已經被應用于智能客服、聊天機器人、家用機器人、微信管理平臺、車載系統、智能家居系統、智能手機助理等多個軟硬件領域。
垂直類網站及社交平臺可以借助智能助手系統打造高專業度的“在線專家”以提升平臺價值;企業可以借助以“語義識別”為基礎的智能助手系統,打造智能客服,效率遠高于傳統的以“關鍵詞對應”為技術支持的客服系統。
推薦引擎,是主動發現用戶當前或潛在需求,并主動推送信息給用戶的信息網絡。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。傳統推薦引擎通常利用用戶在平臺上的歷史記錄進行推薦,效率低、匹配度不高。目前隨著大數據和深度學習技術的推進,推薦引擎及協同過濾可以分析更多的數據,乃至全網數據,并模擬用戶的需求,真正達到按需推薦。全球最大的正版流媒體音樂服務平臺Spotify也利用卷積神經網絡參與建設其音樂推薦引擎;谷歌也提出利用深度學習方法來學習標簽進行推薦建設。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學習網絡分析客戶消費的大數據,還計劃構建一個在AWS云上的以GPU為基礎的神經網絡。
“餐廳推薦引擎”Nara,便是一個利用AI技術的推薦引擎。在上線之初,Nara 就取得了400萬美元的投資。Nara 的數據庫中有超過100000家餐廳的信息,并利用特有的“Nara神經網絡”,學習使用者的偏好,最終達到“電腦幫你點餐”的目的。
而今年3月22日,國內AI領軍企業阿里巴巴旗下的阿里云數加啟動“個性化推薦”引擎對外公測,該引擎用于幫助創業者可以快速獲得媲美淘寶天貓的個性化服務能力。阿里云數加上的推薦引擎能夠以更低的成本完成開發,節省程序量達到90%,推薦引擎的搭建時間將由幾個月縮短到幾天。
對于不了解算法的人,只能實現標簽規則類的推薦,但如果要做成機械化、類似協同過濾的算法,創業公司需要配置大量的算法工程師,人力成本很高?,F在用了數加的推薦引擎,商家只需要做數據的ETL加工,推薦的結果集、訓練集都不用處理,只需要調整參加即可得到推薦結果。
AI帶給人們新的視覺???
醫療:為健康診斷和藥品研發插上高飛的翅膀
健康診斷有望迎來新紀元,海量的病歷數據和醫學界的新研究成果,單靠人工很難及時篩選并利用,而引入人工智能技術將充分發揮這些信息的價值。例如著名的個人健康管理產品公司Welltok將 IBM的Watson功能融入旗下產品 CafeWell Concierge APP中,借助 Watson 的認知計算能力理解人類語言,實現與用戶溝通的能力,從大量數據中進行分析并為用戶提供健康管理相關的答案和建議,實現健康管理、慢病恢復訓練、健康食譜等功能,這一領域的良好前景使 Wellltok公司近年的融資額連創新高。另外,2015年IBM斥資10億美元收購醫療影像與臨床系統提供商Merge,將研究如何實現 Watson的“辨讀”醫學影像功能。此外,AI 還可以從醫療中心獲得的健康數據,通過大數據分析,實現根據分析患者行為來制定個性化治療方案的功能。
智能家居:天花板尚遠,AI有望成為核心
行業天花板尚遠,增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個理想中的智能家居系統。雖然我們目前可能離那個無所不能的智能管家還很遙遠,但智能家居對我們生活的變革確實已經開始了。根據《2012-2020 年中國智能家居市場發展趨勢及投資機會分析報告》的預測,我國智能家居市場在 2016年將達到605.7億的規模,同比增長50.15%,到2020年市場規模將達到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達到“Jarvis”般的終極效果,必然需要引入AI技術,實現家居的感應式控制甚至自我學習能力。
AI有望成為智能家居的核心,實現家居自我學習與控制。按照智能家居的發展進度,大致可以分為四個階段:手機控制、多控制結合、感應式控制、系統自我學習。當前的發展水平還處在手機控制向多控制結合的過度階段。而從多控制結合向感應式控制甚至自我學習階段進化時,AI將發揮主要功能。到今天為止,家居的實體功能已經較為全面,未來的發展重點可能在于如何使之升級改造,實現家居的自我行為及協作,因此未來AI在智能家居領域的應用有望成為其核心價值。AI對智能家居的重構可以深入到方方面面,包括:控制主機、照明系統、影音系統、環境監控、防盜監控、門窗控制、能源管理、空調系統、花草澆灌、寵物看管等等。
無人駕駛:政策漸萌芽,AI決定可靠性
優點多、動機足、政策漸萌芽。據麥肯錫的調查顯示,如果能解放駕駛員的雙手,一輛無人駕駛汽車內的乘客通過移動互聯網使用數字媒體服務的時間多一分鐘,每年全球數字媒體業務產生的利潤將增加 50億歐元。此外,由于自動泊車無須為乘客下車預留開門空間,使得停車位空間可縮減至少15%。
如果無人駕駛汽車以及ADAS系統能夠將事故發生率降低90%,即可挽回全美每年的損失約1千900億美金。可以說諸多的優點使得無人駕駛技術的研發動機還是相當充分的,因此未來無人駕駛推行的力度應該還會保持在一個比較高的水平。美國勒克斯研究公司曾預計無人駕駛汽車的市場規模在2030年將達到870億美元。
到目前為止,各國政府對于無人駕駛技術在政策上的支持正逐步放開,美國政府在年初剛剛宣布了40億美元的資助計劃;英國目前已經不需要獲得額外批準和履約保證即可進行實際道路的無人駕駛汽車測試;而德國也在去年宣布將計劃設立無人駕駛汽車測試路段,供安裝有駕駛輔助系統或全自動駕駛系統車輛行駛;歐盟總部正在就如何修改現行有關駕駛的法律法規從而支持自動駕駛的發展展開討論和研究工作;日本也提出要在2020年之前實現自動駕駛汽車方面的立法,并將自動駕駛作為 2016年9月七國集團交通部長會議的議題。
“無人汽車大腦”AI的智能程度決定了無人駕駛的可靠性。由于無人駕駛完全交由汽車的內置程序負責,因此AI就是無人汽車的大腦,而測距儀、雷達、傳感器、GPS等。設備都是AI的“眼睛”。AI的智能程度直接決定了無人駕駛汽車在不同的路況、不同的天氣、甚至一些探測設備出現故障的突況下能否及時做出正確的判斷并靈活調整行駛策略,最終決定了無人駕駛汽車當前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會上了“Drive PX 2”車載計算機,以及一套與之搭配的具有學習功能的自動駕駛系統。該系統的亮點在于“自我學習”,通過讓車輛自行分析路面狀況,而不是在數據庫中尋找預先儲存的策略實現自動駕駛,系統背后連接著名為NVIDIA DIGITS的深度學習訓練平臺,最終連接到NVIDIA DRIVENET神經網絡,為車輛的自我學習和完善提供支持。并且由于它是通過判斷物體的行進軌跡而不是物體本身去計算路徑,因此在駕駛時受天氣影響較小。
AI 成必爭之地
目前全球AI主戰場依舊在歐美。Venture Scanner的統計顯示,根據從事 AI相關業務的公司數量來看,目前全球 AI的主戰場還是集中在北美和西歐地區。美國數量最多,達到450家左右的水平。而中國從事相關業務的公司數量還比較少,和俄羅斯、澳洲、部分歐洲國家及非洲南部國家水平接近,相比起歐美國家的AI公司數量,還有很大的提高空間。
Google:投資未來的人工智能帝國
建立Alphabet帝國,具備品牌背書效應。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關的技術基礎部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨立出來,成為 Alphabet 旗下的獨立公司。通過建立 Alphabet集團,谷歌將不同業務的研發獨立出來,以子公司的形式進行業務開展,保留在Google這個品牌下的基本都是原有的傳統強勢業務。
而其它公司負責在各自的領域“打頭陣”,一旦業務研發成功,母公司連帶著google這個品牌都可以受益,而如果研發失敗,也不會公司的品牌造成多大的不良影響,建立了良好的品牌背書效應。將機器學習技術應用到所有產品之中,我們不難發現,谷歌近年幾乎將人工智能滲透到了旗下的各類產品中,可謂是全線鋪開。正應了谷歌 CEO的那句話:“我們將小心謹慎地將機器學習技術應用到我們所有的產品之中?!备鶕斍癆lphabet 的集團架構,我們將涉及到AI應用的子公司情況以及相應的業務開展情況羅列如下:
Nest:從事智能家居生態系統建設。2014 年谷歌以32億美元收購 Nest。Nest 生產智能恒溫器,它能夠學習用戶的行為習慣,并且根據他們的喜好去調節溫度。同時,Nest 也提供火警探測器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創新技術的“孵化池”。Google X開展的與AI有關的項目有:無人駕駛汽車、Project Wing 無人機送貨項目、對抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預警和健康監控的可穿戴設備、Project Titan 太陽能無人機項目、以及 Replicant 團隊負責的機器人項目等。
Verily:從事生命科學業務,即原來的 Google Life Science。代表產品有可以收集佩戴者體溫和血液酒精含量等生物數據的智能隱形眼鏡,以及監控血液中納米粒子的智能腕表。
DeepMind:深度學習算法公司。2014年谷歌以4億美元收購了DeepMind。
篇10
關鍵詞:深度學習;目標視覺檢測;應用分析
隨著計算機的普及,目標視覺檢測也在計算機的發展中逐漸被應用。人們的生活越來越離不開計算機和電子設備,數據信息充斥著當代人的生活。隨著人們生活質量的提高對電子設備要求越來越高,越來越精準。目標檢測技術在人們的生活中,也發揮著很大的作用和價值。智能監控、機器人、自動定位、人臉聚焦、航拍、衛星等方面都應用了目標視覺檢測的技術。在高層視覺處理和任務分析中,目標視覺檢測技術也是基礎。無論是分析行為、事件還是場景語義的理解都需要運用到目標視覺檢測技術。因此目標視覺檢測在各個方面都發揮著重大的作用,本文就深度學習在目標視覺檢測中的應用和展望進行探討。
一、深度學習在目標視覺檢測中的進展
深度學習最早出自于人工神經網絡。深度學習把多層感知器作為學習結構,組合底層特征進行高層的學習。作為機器研究的一個新領域,模仿人腦組建學習的神經網絡。深度學習可以逐步自主的學習。而目標視覺檢測在近幾年出現了很多的問題,例如,類內和類間存在差異。即使通過訓練也很難包含所有類內的特征描述模型。而且類內和類間的差異大小不一樣這就給目標視覺檢測的發展帶來很大的阻礙。在圖像采集的過程中,由于種種因素會導致目標物體被遮擋,因此,視覺算法的魯棒性也需要進行整改。語義理解也存在著差異,對仿生和類腦角算法有一定的難度。而計算機的復雜和自適應性也比較高,需要設計高效的目標視覺檢測技術,為了確保目標視覺檢測的精準程度,還需要設計出自動更新視覺模型來提高模型在不同環境下的適應能力。隨著深度學習的發展,深度學習對于目標視覺檢測有很大的用處,可以極大地解決目前目標視覺檢測技術出現的問題。因此很多專家開始把深度學習融入到目標視覺檢測的發展當中,并進行研究。
二、目標視覺檢測的流程和順序
估計特定類型目標是目標視覺檢測的關鍵,目標視覺檢測的流程大致分為三步,區域建議、特征表示和區域分類。根據圖一,第一步區域建議。目標檢測需要獲得目標的準確位置和大小尺度,在輸入圖像的時候找到指定的類型目標是其中一種區域建議。還可以通過滑動窗進行區域建議,投票、圖像分割的區域建議也可以使用?;瑒哟靶枰谳斎雸D像的時候在子窗口執行目標來檢測目標所處的位置。投票機制則通過部件的模型找到輸入圖像和模型在局部區域內的最佳位置,并最大限度地讓所有局部區域匹配,利用拓撲的方式來得到最佳匹配。但是投票機制的區域建議計算代價會比較高。圖像分割的區域建議則建立在圖像分割的基礎上面,是一個消耗時間和精力的過程,而且很復雜很難把整個目標分割出來。而深度學習在圖像分類和目標檢測中都有一定得進展,通過深度學習的表征和建模能力可以生成抽象的表示[1]。
圖一,目標視覺檢測流程
三、深度學習在目標視覺檢測當中的作用
深度學習融入目標視覺檢測推動了目標視覺檢測的發展和研究。目標視覺檢測和圖像分類有一定的區分,目標視覺檢測主要關注圖像的局部信息,圖像分類在意圖像的全局表達。但是它們也有一定的互通性。首先從區域建議的方法來探討深度學習在目標視覺檢測中的作用。深度學習在目標視覺檢測中的基本參考方法是Girshick等人提出來的R-CNN方法。R-CNN和CNN相聯系,檢測的精準度達到了53.3%,對比傳統的方法有很大的飛躍。如圖二所示,輸入相關圖像的同時進行選擇性的搜索提取候選區,通過CNN網絡來提取固定長度的向量,圖像經過兩個全連接層和五個積卷層得出一個4096的向量,最后把提取到的向量數據在向量機中進行分配。但是這樣的方式還是存在很多的不足和弊端,因此Girshick對R-CNN和SPP-net進行了進一步的改進,圖像進行一次卷積在特征圖上進行映射送入Rol池化層,最后通過全連接層輸出。同一幅畫像的Rol共同相同計算機的內存效率更加高。通過softmax 的分類不僅省去特征的存儲還提高了利用率。近年來,kin等人又提出了PVANET網絡,數據的檢測精準度達到了82.5%,在確保精準度的情況下還能使通道數減少,可以增加對細節的提取。
圖二,R-NN的計算流程
早期還提出過無區域建議的方式,例如,DPM模型可以在目標的內部進行結構化的建模,不僅提高了檢測的性能,也能很好地適應非剛體的形變。但是DPM模型的構建條件復雜,模型訓練也比較繁瑣,所以sermanet又進行研究提出了Overfeat的模型,避免圖像塊的操作出錯,也能提高算法的效率。但是關于尺寸的識別還是存在著一定的問題,因此無區域建議還在不斷的探索過程中。redmom提出了關于改進yolo模型的方法,成為yolov2,可以確保精準度和定位,提升了檢測率。專家們還研制出一種新的訓練算法,用數據來找到物體的準確定位,yolo模型通過這樣的方式課題檢測超過九千種物體[2]。
四、結束語
未來深度學習在目標視覺檢測中都會得到繼續的應用和進展,深度學習在目標視覺測試中依舊是主流的方向。深度學習通過它的優勢可以獲得高層次抽象的表達。但是深度學習的理論還不是特別的完善,模型的可解釋性還不夠強。因此深度學習模式還需要得到進一步的改進和完善,對模型的結構,訓練等多加指導。大規模多樣性數據集也比較匱乏,現在很多的目標視覺檢測都在imagenet上進行訓練,但是目標檢測技術還需要進一步的完善和提高,達到最好的效果。深度學習在目標視覺檢測技術中的應用還不夠完善,任重而道遠,還需要進一步的完善理論提高精準度。在未來,深度學習和目標視覺檢測一定能夠得到極大的進展。
參考文獻