卷積神經網絡的核心范文

時間:2024-04-08 18:04:48

導語:如何才能寫好一篇卷積神經網絡的核心,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

卷積神經網絡的核心

篇1

關鍵詞:圖像分類;深度學習;Caffe框架;卷積神經網絡

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)

Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.

Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network

S著計算機與互聯網技術的快速發展,我們已經進入了一個以圖像構建的世界。但是面臨有海量圖像信息卻找不到所需要的數據的困境,因而圖像分類技術應運而生。通過各種機器學習算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內容包含著大量復雜且難以描述的信息,圖像特征提取和相識度匹配技術也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。

深度學習是近十年來人工智能領域取得的重要突破,在圖像識別中的應用取得了巨大的進步,傳統的機器學習模型屬于神經網絡模型,神經網絡有大量的參數,經常會出現過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經網絡框架,圖像特征是從大數據中自動學習得到,而且神經網絡的結構深由很多層組成,通過重復利用中間層的計算單元來減少參數,在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統的圖像分類算法預測的準確度有明顯的提升。

1 基于卷積神經網絡的圖像分類方法

1.1 人工神經網絡

人工神經網絡(Artificial Neural Network, ANN)是描述生物神經網絡運行機理和工作過程的抽象和簡化了的數學物理模型,使用路徑權值的有向圖來表示模型中的人工神經元節點和神經元之間的連接關系,之后通過硬件或軟件程序實現上述有向圖的運行[1]。目前最典型的人工神經網絡算法包括:目前最典型的人工神經網絡有BP網絡 [2]Hopfield網絡[3]Boltzmann機[4]SOFM網絡[5]以及ART網絡人工神經網絡[6],算法流程圖如圖1所示[7]。

1.2 卷積神經網絡框架的架構

Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結構,包含最先進的深度學習算法以及一系列的參考模型,圖2表示的是卷積神經網絡結構圖。Caffe深度學習框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。

Caffe深度學習框架提供了多個經典的卷積神經網絡模型,卷積神經網絡是一種多層的監督學習神經網絡,利用隱含層的卷積層和池采樣層是實現卷積神經網絡特征提取功能,卷積神經網絡模型通過采取梯度下降法最小化損失函數對網絡中的權重參數逐層反向調節,通過頻繁的迭代訓練來提高網絡的精度。卷積神經網絡使用權值共享,這一結構類似于生物神經網絡,從而使網絡的復雜程度明顯降低,并且權值的數量也有大幅度的減少,本文使用這些模型直接進行訓練,和傳統的圖像分類算法對比,性能有很大的提升,框架系統訓練識別基本流程如圖3表示。

1.3 圖像分類特征提取

卷積神經網絡的結構層次相比傳統的淺層的神經網絡來說,要復雜得多,每兩層的神經元使用了局部連接的方式進行連接、神經元共享連接權重以及時間或空間上使用降采樣充分利用數據本身的特征,因此決定了卷積神經網絡與傳統神經網絡相比維度大幅度降低,從而降低計算時間的復雜度。卷積神經網絡主要分為兩個過程,分為卷積和采樣,分別的對上層數據進行提取抽象和對數據進行降維的作用。

本文以Caffe深度學習框架中的 CIFAR-10數據集的貓的網絡模型為例,如圖4所示,對卷積神經網絡模型進行訓練。CIFAR-10是一個標準圖像圖像訓練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數據進行提取和降維的方法來提取圖像數據的特征。

2 實驗分析

將貓的圖像訓練集放在train的文件夾下,并統一修改成256×256像素大小,并對貓的圖像訓練集進行標記,標簽為1,運行選擇cpu進行訓練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學習率為0.001,每20次迭代顯示一次信息,最大迭代次數為200次,網絡訓練的動量為0.9,權重衰退為0.0005,5000次進行一次當前狀態的記錄,記錄顯示如下圖5所示,預測的準度在98%以上。而相比傳統的圖像分類算法BP神經網絡網絡的收斂性慢,訓練時間長的,網絡的學習和記憶具有不穩定性,因而卷e神經網絡框架在訓練時間和預測準度上具有非常大的優勢。

3 結束語

本文使用Caffe深度學習框架,以CIFAR-10數據集中貓的網絡模型為例,構建小型貓的數據集,提取貓的圖象特征信息,最后和目標貓圖像進行預測,并和傳統的圖像分類算法進行對比,預測的準確率有很大的提升。

參考文獻:

[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網絡定位與可定位性[M]. 北京: 清華大學出版社, 2014.

[2] 丁士折. 人工神經網絡基礎[M]. 哈爾濱: 哈爾濱工程大學出版社, 2008.

[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.

篇2

關鍵詞:溫室;卷積神經網絡;自動控制;自適應

隨著現代化農業生產技術的快速發展,作為農業現代化重要標志之一的溫室控制技術[1]也面臨著重大的技術改進。如何提高溫室控制系統對溫室環境的高效、準確控制,提高控制系統的智能化、網絡化[2]程度,降低系統成本是目前需要重點改進的技術。針對目前溫室控制系統對溫室環境因子調節不夠準確,控制系統成本高,智能化、網絡化程度低的不足,文章綜合考慮溫室環境因素之間的相互影響對溫室環境的影響,設計了一種應用嵌入式加單片機控制的基于卷積神經網絡的溫室智能監控系統。

1 系統總體設計

基于卷積神經網絡[3]的溫室智能大棚監控系統由四種下位機數據采集單元、數據傳輸線路、以及系統上位機三大部分組成,如圖1所示。

在溫室環境中,溫度、濕度、光照強度、CO2濃度四個因素對作物的影響最大且很難合理有效的控制調節。文章研究以上四個環境因子之間的相互影響并對其進行科學的調節控制。本系統采用多個傳感器[4]完成上述所需參數數據的采集。為了實時方便的監控大棚內各種環境參數,系統備有數據信息顯示界面,由中央處理器通過顯示接口外接一個LCD液晶屏,把數據采集單元(變送器)采集到的環境參數,經過打包、處理,通過RS-485銜接串口傳送給中央處理器,以此顯示大棚內環境參數的變化。中央處理器具備人機交互軟件,在接收多個變送器的數據后,可以顯示在用戶界面上,并且根據收集來的數據通過內部的卷積神經網絡程序來控制系統硬件驅動進行相應的操作處理。通過觸摸屏上的按鍵可以對數據進行管理,還可以設定溫度、濕度、光照以及CO2濃度的限值。路繼電器以及相應的電路驅動模塊控制相應的設備來調節溫室內的環境參數。

2 系統硬件組成

本系統硬件由四種變送器[5]、上位機ARM920T為核心的嵌入式控制器以及單片機控制系統組成。這里面變送器的功能是把傳感器收集來的信號(溫度、濕度等)轉變為可被控制器識別的電信號,傳送給中央處理器。單片機系統通過串口連接各個驅動模塊以及繼電器來控制大棚內各個設備的狀態。上位機嵌入式控制器把單片機傳來的信息加工處理并且儲存在SQlite中,完成對環境參數數據的實時采集以及分析,并且根據內部卷積自適應控制程序操控驅動模塊采取相應的措施來維持溫室最佳環境。

2.1 空馕率度變送器

主要技術參數:電源:5號電池,兩節;功耗:工作電流,0.2mA,發射電流,15mA;溫度精度:±0.5℃;濕度精度:±4.5%;

2.2 光照度變送器

主要技術參數:電源:取自“環境數據監控器”;通訊:RS485,與“環境數據監控器”相連;照度范圍:0-200000lux

2.3 CO2變送器

主要技術參數:電源:取自“環境數據監控器”;通訊:RS485,與“環境數據監控器”相連;測量范圍:0-10000ppm

2.4 單片機控制系統和嵌入式控制器

此部分通過內部設計好的程序控制溫室內各種設備對種植環境參數“采集、存儲、監測、分析、預警、控制”,是使系統能夠精確測量6種參數的保證,根據6種環境參數的變化,利用卷積程序智能控制設施環境中的相應電器設備,滿足不同作物對環境條件的具體要求。

3 系統軟件設計

軟件系統由單片機控制系統和嵌入式控制系統構成。

3.1 單片機控制系統

單片機控制系統部分主要功能是對天窗、遮陽網、噴淋裝置等進行控制。

3.2 嵌入式控制系統

嵌入式控制系統的設計由動態顯示模塊、控制模塊、數據庫模塊、通信模塊四個部分組成。通過動態顯示模塊可以及時監控各環境因子的變化;控制模塊可對整個系統進行操控;數據庫模塊是為作物生長環境的設定而積累數據,并且系統內部卷積神經網絡程序利用這些數據作為輸入來進行壓縮卷積;通信模塊是實現上位機和單片機之間的通信。

4 結束語

基于卷積神經網絡的溫室智能大棚監控系統,采用ARM加單片機的組合控制方式,雖然成本稍微較高,但避免了傳統溫室控制系統中對溫室環境參數調節不夠準確、控制系統成本過高、智能化程度低、以及專家系統的參數決定不準確等弊端設計等問題,集智能檢測、通信技術、卷積神經網絡、自動控制于一體,利用嵌入式技術進行環境參數的自動檢測和可靠傳遞,運用神經網絡算法對數據智能優化,再利用單片機進行自動控制,為一套高性能的自適應智能控制系統。

參考文獻

[1]王寶金.農業專家系統應用技術展望[J].計算機與農業,2002(05).

[2]白濤,吳智銘,楊根科,等.網絡化的控制系統[J].控制理論與應用,2004(04).

[3]張振山,高子恒,范建領.基于VB語言的神經網絡專家系統設計與應用[J].計算機測量與控制,2008(08).

篇3

>> 用于腦運作分析的前向網絡樣本重組樹生成算法研究 基于三角構成規則的加權有向網絡拓撲生成算法 適用于網絡漸進傳輸的多分辨率曲線生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻綜述 基于列生成算法的集裝箱班輪運輸網絡優化 基于全卷積神經網絡的圖像縮略圖生成算法 傳感器網絡中一種基于編碼的MAC生成算法 數據庫關鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機算法的試卷生成算法研究 分析基于列生成算法的動車組檢修計劃優化 AOS自相似業務流等時幀生成算法的Matlab仿真分析 關于傳統空間緩沖區生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統中試卷生成算法的改進 一種可用于腦神經網絡分析的有向網絡分解算法 形式概念演化生成算法 MPI通信代碼自動生成算法 一種啟發式雙代號網絡圖自動生成算法 常見問題解答 當前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)

[30]謝勤.WAP算法連續化及其應用[C].畢業論文,2004.

[31]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[J].數字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)

[32]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[C].第八屆海內外華人神經科學家研討會論文集.北京:科學出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)

[33]謝勤.用于腦運作分析的前向網絡樣本重組樹生成算法研究[C].電子技術與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)

(通訊作者:謝勤)

作者簡介

謝勤(1982-),男,A南理工大學碩士,中國神經科學學會會員,工程師,近年在亞組委信息技術部完成核心信息系統――計時記分和成績處理系統項目實施管理方面的工作,其中計時記分系統投資一億。主要研究方向為計算機科學與工程、人工智能、神經生物學。

作者單位

1.廣州市科技和信息化局 廣東省廣州市 510000

2.第16屆亞運會組委會信息技術部 廣東省廣州市 510000

3.廣州生產力促進中心 廣東省廣州市 510000

4.廣州市科學技術信息研究所 廣東省廣州市 510000

5.廣州市科技創新委員會 廣東省廣州市 510000

篇4

關鍵詞:PCA算法;人臉識別;五級并行PCA模型;權重計算;均值濾波

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)19-0147-02

Research on Face Recognition System Based on Parallel PCA Algorithm

ZHAO Ya-peng

(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )

Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.

Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter

1 概述

隨著智能終端設備(手機、Pad、門禁等)的不斷發展,身份識別已經成為我們日常生活的重要組成部分,身份驗證技術被廣泛應用于各個領域,特別是人們對于個人隱私信息的保護,使得身份識別再次成為關注的焦點。人臉識別作為身份識別的重要手段之一,因其具有識別率高、采集性強、接受性高等特點,在身份識別的各類方法中具有獨特的優勢,成為了目前比較熱門的研究領域。

目前,卷積神經網絡(Convolutional Neural Networks)是圖像識別領域最重要的研究熱點,而且在語音識別領域也取得了不錯的效果,但是卷積神經網絡的整個訓練過程比較費時,而且實現相對復雜,而基于PCA算法的人臉識別技術因其自身存在的許多缺陷,一直沒有被廣泛應用,但該方法實現簡單、學習速度較快,因此,本文主要研究改進的并行PCA算法,以彌補傳統PCA算法在人臉識別領域的不足。

本文提出的基于并行PCA算法的人臉識別技術,首先對原始圖像進行預處理,如灰度歸一化和中值濾波等操作,以消除圖像噪聲、光照等因素造成的影響,使得特征提取更加準確可靠。然后,通過5級并行PCA模型獲取數據的不同特征矩陣,然后將訓練圖像和測試圖像分別進行子空間的投影,利用歐氏徑向基函數(Euclidean Radial Basis Function)進行人臉的匹配,最后根據訓練得到的權值向量進行加權決策。本文通過ORL人臉數據庫的仿真實驗證明,該算法的效果明顯好于PCA算法。

2 并行PCA算法

PCA(Principal Component Analysis)即主成分分析技術,PCA是基于K-L變換的統計學分析方法,是多元分析中常用的方法,其基本思想是將高維數據投影到低維空間,主要過程在于特征值的計算和矩陣的降維。將PCA應用于人臉識別時,首先將圖像轉化成矩陣向量,然后進行矩陣的奇異值分解(Singular Value Decomposition),將高維向量通過計算得到的特征向量矩陣投影到低維的向量空間,從而減少數據的計算量。

2.1 基于并行PCA算法的人臉識別流程

本文中提出的并行PCA算法,正是基于上述的PCA算法,通過建立5級的PCA算法模型同時進行數據特征的學習,使得最終的人臉識別準確率得到進一步的提高,具體的人臉識別流程如圖1所示。

2.2 并行PCA算法的實現的步驟

2.2.1 人臉圖像的預處理

首先,需要把ORL人臉數據數據庫的所有訓練圖像大小進行歸一化,并轉化為像素矩陣,矩陣大小記為,為矩陣的行數,為矩陣的列數。之后利用均值濾波和灰度歸一化進行圖像的去噪處理,以消除光線等問題對圖像造成的影響,以方便后期的特征提取等操作。

2.2.2 人臉圖像的PCA降維

根據PCA的原理,可以將每一張圖像看成是一個高維的向量,所有的圖像可以看成是這個高維空間中的一點,PCA要做的就是找出另外一個盡可能多的反應圖像特征的低維空間。

假如樣本由n張大小為p*q的人臉圖像組成,那么每一張圖像可以保存為一列向量,向量維數是p*q,真個樣本可以看成是一個行數為n,列數為p*q的矩陣記為矩陣A。

根據上述過程,首先求出矩陣A的協方差矩陣,然后求出協方差矩陣的特征值,選取前m個最大的特征值,然后求出對應的特征向量,組成一個特征矩陣。通常所說的“特征臉”就是這些特征向量,而特種功能矩陣就是“特征臉”空間或者說子空間。然后可以將每一張圖片投影到該子空間,得到了每一張圖像的投影矩陣(l*m)。

2.2.3 人臉圖像的識別

對于待識別的圖像,也可以看成是一列向量,投影到子空間得到一個投影矩陣,然后一一求出這個投影矩陣與樣本圖像投影矩陣最相似的。然而有可能該人臉不是人臉庫中的,所以最相似的人臉也不一定是同一個人臉,還需要設置一個閾值來判斷待識別人臉是否是人臉庫中的。

人臉識別部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5級的PCA模型同時進行人臉識別這一操作,最后根據訓練得到的權值向量進行決策,通過使用多個PCA模型,從而使得整個識別過程的準確率得到進一步的提升。

3 系統設計及實現

3.1 系統總體設計

本文中所提出的基于并行PCA算法的人臉識別系統,包括人臉圖像采集模塊、圖像預處理模塊、識別模塊。人臉圖像采集模塊主要是采集訓練圖像數據和測試圖像數據,并由原始圖像提取出4幅與之對應的部分圖像;圖像預處理模塊主要就是進行圖像歸一化和圖像的去噪工作,圖像的歸一化包括大小歸一化和灰度歸一化,可以使用比較常見的直方圖均衡化等技術,而圖像的去噪可以使用中值濾波技術,以去除比較常見的高斯噪聲等;人臉識別模塊是基于5級相互獨立的PCA模型進行特征值的學習和比對,而且通過訓練得到的權值向量進行最終的是臉識別決策。整個系統的實現是基于Matlab進行仿真實驗的,實驗數據來自劍橋大學AT&T實驗室創建的ORL人臉數據庫。

3.2系統功能模塊實現

3.2.1人臉圖像采集實現

圖像采集模塊主要就是將存儲在本地的圖像文件通過Matlab的imread函數讀入矩陣中,以方便后期的PCA操作,其核心語句為Image{t}=imread([[filepath,FilDir(ii).name],'\',ImDir{ii}(jj).name]);

使用上述語句即可讀入訓練數據和測試數據文件。

3.2.2 圖像預處理模塊

該模塊的主要任務就是利用中值濾波和直方圖均衡化進行圖像的去噪工作,以消除不同光照和圖像噪聲的影響,提高準確率。其核心代碼為:

S1=zeros(1,256);

for i=1:256

for j=1:i

S1(i)=GP(j)+S1(i);

end

end

S2=round((S1*256)+0.5);

for i=1:256

GPeq(i)=sum(GP(find(S2==i)));

end

3.2.3 識別模塊

圖像經過之前的預處理之后,需要將圖像矩陣轉化為列向量,一幅圖像就是一列向量,整個訓練圖像構成了整個特征空間矩陣,測試圖像也會轉化為一列向量,之后會利用矩陣之間的運算進行圖像的分析計算。識別模塊的工作就是根據測試圖像和之前所有的訓練數據進行對比,查找到與之最相似的圖像,實驗的結果如圖2所示。

4 結論

PCA算法作為傳統的人臉識別算法,因其自身存在的許多缺陷而沒能發揮較好的作用,但是其自身具有其他算法所不具有的特點,本文設計的并行PCA算法雖然是基于PCA算法,但是借鑒了卷積神經網絡的多層結構,而且使用加權操作進行最終人臉識別的決策。基于ORL人臉數據庫的測試結果表明,該并行PCA算法的準確率和魯棒性均得到了進一步的提升,與其他的單獨PCA算法具有十分明顯的優勢。

參考文獻:

[1] 張利芳. 基于PCA算法的人臉識別系統研究[D].太原:中北大學,2015.

[2] 楊海燕,蔣新華. 基于并行卷積神經網絡的人臉關鍵點定位方法研究[J]. 計算機應用研究, 2015, 32(8): 2517-2519.

[3] 楊穎嫻. 基于PCA算法和小波變換的人臉識別技術[J]. 微電子與計算機, 2011, 28(1): 92-94.

[4] 段寶彬,韓立新. 改進的卷積神經網絡及在碎紙拼接中的應用[J]. 計算機工程與應用, 2014, 50(9): 176-181.

篇5

著名的人工智能圍棋程序AlphaGo在2016年3月與韓國頂尖圍棋高手李世h進行人機大戰,并以4:1的總比分獲勝。與李世h的對決讓世界看到了人工智能的無限潛力,而到了2016年歲末,AlphaGo的進擊版更是通過名為Master(“大師”)的賬號,在網絡上與中韓高手連番過招,以連贏60場的成績令人驚嘆。

在創造這一前所未有圍棋奇跡的背后,是一支充滿了智慧和活力、用數字構建未來的團隊――DeepMind。

在倫敦國王十字火車站旁邊一座不起眼的建筑里,藏著這樣一家潛力無限的公司DeepMind(深度思維),該公司努力將機器學習和人類系統神經科學的先進技術結合,發展人工智能深度學習,建立強大的通用算法,將這種技術與游戲、醫療等多項實用產業結合。誰也不曾想到,一家成立于2010年的年輕初創公司會是世界兩大科技巨頭――谷歌和臉書競相爭奪的寶物。最終谷歌獲勝,2014年,谷歌公司以4億英鎊的高價將DeepMind收歸麾下,該公司正式成為谷歌旗下人工智能領域探索的排頭兵。

谷歌和書已經在機器學習和人工智能領域走在世界最前沿了,那么,這家公司到底存在著怎樣的價值,吸引了這些行業巨頭的注意呢?

谷歌招攬的超強大腦

DeepMind可以說是一個智庫集合,集結了400余名優秀的計算機科學家和神經學專家。下面這些人物可謂是DeepMind 團隊精英中的精英。

德米斯?哈薩比斯

身為DeepMind創始人之一,德米斯?哈薩比斯可以說是整個公司的核心人物。哈薩比斯1976年出生于英國倫敦,4歲開始下國際象棋,13歲時就已經獲得國際象棋大師頭銜,15歲時,他連跳兩級,提前從高中畢業。1993年,17歲的哈薩比斯進入劍橋大學學習計算機專業,同年,他依靠自己開發的游戲獲得了某游戲設計比賽的亞軍,進入頂尖游戲公司“牛蛙”實習,并參與開發了在全球風靡一時的虛擬游戲《主題公園》。

自1999年至2003年,哈薩比斯連續5年參加“國際智力奧運會”,連奪5次冠軍,可謂是“地球上最聰明的男人”。2005年,29歲的哈薩比斯重新走進學校,在英國倫敦大學攻讀神經科學博士學位,潛心研究負責記憶、學習、空間導向的大腦海馬體。2011年,35歲的哈薩比斯結合自己游戲設計、計算機編程和神經科學研究經驗,成立DeepMind科技公司,專注研究模仿大腦的人工智能系統。

黃士杰

AlphaGo設計團隊的另一位杰出人才是來自臺灣的黃士杰博士。黃士杰本科就讀于臺灣交通大學,研究生和博士在臺灣師范大學研習。他從小熱愛圍棋,是個業余六段圍棋選手,在臺灣師范大學讀書時就曾經在學校創辦圍棋社。大學期間,黃士杰醉心研究圍棋軟件開發,他設計的軟件參加國際電腦奧林匹克競賽,獲得19路電腦圍棋金牌,這個程序甚至擊敗了當時圍棋人工智能領域公認最強的程序“Zen”,在業內引起極大的轟動。隨后,他進入加拿大阿爾伯塔大學繼續圍棋程序研究。在博士和博士后階段,他深入研究蒙特卡洛樹搜索技術,后來將其運用在AlphaGo的走棋程序當中。

大衛?西爾弗

大衛?西爾弗是哈薩比斯在劍橋大學讀書期間認識的朋友,計算機專業的他常年霸占著專業第一的寶座。在校期間,他還教會了哈薩比斯多種棋類游戲的玩法,包括圍棋。1998年,哈薩比斯創立游戲公司Elixir Studios,西爾弗作為聯合創始人之一,在這間公司擔任首席技術官和主程序設計師。2004年,他進入加拿大阿爾伯塔大學攻讀博士學位,研究人工智能增強學習。2013年,西爾弗重新與哈薩比斯會合,加入DeepMind團隊,以增強學習技術助力AlphaGo的設計和程序優化。

除了上面這些人,DeepMind中還有諸多學界執牛耳者,在神經科學、計算機科學、卷積神經網絡研究等方面人才濟濟。DeepMind簡直就是一群超級極客組合而成的深度學習全明星戰隊。

“大師”是怎樣煉成的

DeepMind的AlphaGo在圍棋棋局上出盡風頭,讓世界級的圍棋大師們為之驚嘆。圍棋規則看似簡單,但棋局變化卻相當多,在很長的時間里,圍棋都被視為人工智能開發領域的一座難以攻克的圣杯。圍棋第一步361個點,下第二步有360點,如果要下到底,大概有10360種下法,即便運算量驚人的計算機也很難找到最佳解法。

AlphaGo和傳統的計算機圍棋游戲完全不同,可以進行深度學習。它并非只是按照棋局庫的固定章法來照本宣科,而是能夠進行自我學習和提升,以現有數據庫為基礎主動創造新棋路,甚至能夠走出讓專業棋手摸不著頭腦的步法。

DeepMind主攻人工智能的意識,讓機器理解自己的任務的同時,也能夠理解環境或別人在做什么,并據此作出反應,完成決定。首先,需要讓計算機“懂得”棋局的規則,程序員將圍棋以計算機語言描述出來。比如在19×19的棋盤上的361個交叉點進行定義。

人類在下圍棋時,除了謀篇布局,精妙計算之外,更重要的是基于棋手經驗的“直覺”在幫助棋手思考,為棋手指路。AlphaGo也運用了這種方法,與深度學習結合,利用“策略網絡”與“價值網絡”優化人工智能的走棋。策略網絡可以判斷出最佳棋路,就好像人類用直覺來下出好棋一樣。當然,開發團隊也會事先給AlphaGo閱讀各種不同的參考棋譜。至于“價值網絡”則能幫助計算機在搜尋一個點之后,判斷盤面局勢、優勢大小。

所以,當計算機懂得走棋的任務后,它可以再隨機選擇落點進行走棋訓練,對取勝率較高的落點展開深入研究,并通過觀察上百萬局棋譜來豐富計算機的走棋數據庫。綜合這些信息后,計算機能夠反復進行左右互搏的對弈訓練,強化學習,自我精進。而且,通過結合神經科學的計算機深度學習,利用蒙特卡洛樹搜索和卷積神經網絡等技術手段,計算機可以改進現有的經驗,創造獨特的新經驗,并將這些智慧結晶內化,成為幾乎可以獨立“思考”的超級圍棋大師。

人工智能的“下半場”

篇6

在6月29日開幕的第21屆中國國際軟件博覽會(簡稱軟博會)上,中國科學院院士梅宏的一場主題演講,引起了業界的普遍關注。梅宏院士在演講中強調,“一切皆可編程,萬物皆可互聯,人類進入了軟件定義的時代。”這個時代,從基礎設施的視角來看是“互聯網+”時代,從計算模式的視角來看是云計算時代,從信息應用的視角來看是智能化時代……但從使能技術的視角來看就是軟件定義時代。軟件本身經歷了軟硬件一體化階段(軟件作為硬件附加品存在)、產品化和產業化階段(獨立的產品和巨大的產業),到今天進入了網絡化服務化時代,擴展到互聯網環境,已經滲透到了社會生活的方方面面。

在軟博會現場,ofo展臺現場工作人員介紹,“ofo不僅是共享單車公司,更是軟件公司。”展會期間ofo不僅展示了新一代支持NB-IoT技術的智能鎖終端系統,更亮出硬件系統背后的軟件實力:智能鎖返回的定位信息會在后臺形成熱力圖,系統記錄熱力圖實時變化,并運用深度學習中的卷積神經網絡技術預測用戶的出行需求,從而驅動單車供給最大限度接近用戶需求,提高用戶體驗。共享單車是軟件改變城市交通的一個典型案例。近期無人駕駛正如火如荼,未來私人汽車和公共汽車都可能會退出歷史舞臺,就像今天大家不會每家每戶購買自行車一樣,人們將不再購買小轎車,但將擁有更加高效、直達、個性、智能的出行服務,這就是軟件驅動的城市交通革命,也就是軟件定義城市的開始。

在工業轉型升級的關鍵階段,工業軟件、智能制造自然成為本屆軟博會的熱點,不僅“軟件定義智能制造館”在展覽現場異常醒目,一場“軟件定義智能制造”的高峰論壇,專家們的精彩觀點更是引發業界普遍思考。工信部信息化與軟件服務業司副司長安筱鵬指出,軟件定義了產品和功能、企業的生產方式和企業的信息能力。就企業而言,重點在于提高企業資源優化配置的效率,所以資源優化是主要目標。這就要求企業把工業互聯網平臺作為軟件定義制造業的關鍵,并實施三大工程:培育互聯網平臺、促進更多中小企業業務系統遷移到互聯網平臺、實施資源回流,形成更多APP,讓工業互聯網平臺和基于平臺上的應用形成一個雙向迭代的機制。專家們認為,“軟件技術已成為新一輪工業革命的核心競爭力!”據介紹,波音公司在波音787的研制中用了8000多種軟件,其中市面上可以買到的CAD等工業軟件不到1000種,剩下的7000多種是波音公司的私有軟件,飛機設計的知識、技術、方法就在這7000多種軟件里,這7000多種軟件市面上看不見,但這些軟件恰恰是波音公司的核心競爭力。毫無疑問,工業“軟化”已經成為不可阻擋的大趨勢。

步入軟件定義時代,我們如何應對?也許梅宏院士給出的四條建議值得業界同仁認真把握:一是深刻理解軟件定義時代的內涵和本質,堅持創新驅動發展戰略,全面貫徹軟件定義理念;二是切實構建自主可控的軟件產業體系,助力社會經濟的轉型升級;三是推進開源軟件生態建設,構建產、學、研、用新體系;四是營造良好的社會環境,大力培育優秀軟件人才。

篇7

關鍵詞:人工智能;引擎;大數據;CPU;FPGA

DOI:10.3969/j.jssn.1005-5517-2017-2.006

1 2016年人工智能迎來了春天

2016年人工智能(A1)進入了第三個。2016年3月9-15日,谷歌AlphaGo(阿爾法狗)以4:1的成績擊敗世界圍棋冠軍李世石職業九段,意義非常重大。因為過去機器主要做感知,現在出現了認知,這是人工智能的關鍵所在。

8個月后,2016年12月29日~2017年1月4日,AlphaGo的升級版――谷歌Master(大師)在30秒快棋網測中,以60勝0負1和的成績,橫掃柯潔、古力、聶衛平、樸廷桓、井山裕太等數十位中日韓世界冠軍與頂級高手。從此以后,也許人類以后就沒有和Master進行圍棋比賽的機會了!除了圍棋,人工智能下一步將在國際象棋、中國象棋等棋類方面發展。

撲克牌方面,專家水平的人工智能首次戰勝一對一無限注德州撲克人類職業玩家,而且DeepStack讓機器擁有知覺。

人工智能還能玩游戲。其意義很重大,平時環境中很難得到一些數據,因為游戲相當于虛擬社會,例如“星際爭霸2”是復雜的虛擬社會,如果人工智能在這個虛擬社會中能戰勝人,這將是非常了不起的,未來可涉及到高級決策,在軍事上很有用處。2016年11月5日,谷歌DeepMind宣布與暴雪合作開發人工智能,挑戰實時戰略視頻游戲“星際爭霸2”。這件事情的意義非常重大。下一步可以用于軍事上的高級戰略決策。

無人駕駛方面,2016年11月15日,“在第三屆世界互聯網大會”期間,18輛百度“云驍”亮相烏鎮子夜路,在3.16公里的開放城區道路上自主行駛。2016年特斯拉Autopilot 2.0問世,該軟件只需要八千美元,就可讓軟件駕駛汽車。所有特斯拉新車將安裝“具有完全自動駕駛功能”的該硬件系統,并可通過OTA(空中下載技術)進行軟件升級;自動駕駛功能從L2(二級,半無人駕駛)直接跳躍到L4/L5();2017年底之前,特斯拉車將以完全自動駕駛模式從洛杉磯開往紐約。Uber提出在城區大范圍無人駕駛出租車試運行,Uber 2016年9月14日在美國匹茲堡市推出城區大范圍無人駕駛出租車免費載客服務并試運行,先期已測試近2年,說明無人駕駛真正落地了。

為何無人駕駛很重要?因為人工智能是無人駕駛的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自動駕駛測試。此外,沃爾沃、福特、寶馬、百度、英特爾等全球約20多家企業公開宣布,4年以后的2021年將會是無人駕駛/自動駕駛元年,部分5AE L4車將會實現量產。

計算機視覺

針對ImageNet ILSVRC測試比賽的1 000種物體識別,Deep CNN超過了人類的識別能力。人是5.1%(如圖1),2016年2月23日谷歌人工識別的評測是3.08%。ImageNetILSVRC中有1000種物體,例如猴子、馬、飛機、坦克等約1500萬張照片、包含2.2萬類種不同物體。深度學習一般能做到52層,極深度學習(very deep lea rning)現在已經做到1000層。

在ILSVRC 2016國際評測中,包括視覺物體檢測、視覺物體定位、視頻物體檢測、場景分類、場景解析等性能均有提高。值得一提的是,在此次大會上,中國團隊大放異彩,幾乎包攬了各個項目的冠軍(圖2)。

人工智能語義分割

基于全卷積神經網絡FCN的路面/場景像素級語義分割取得重要進展。為此,我們可以分割大部分道路。

人工智能唇語專家

看電視時把聲音關掉,靠嘴唇說話的變化來識別談話內容,這種能力機器識別率已經超過人類。例如2016年12月,英國牛津大學與谷歌DeepMind等研發的自動唇讀系統LipNet,對GRID語料庫實現了95.2%的準確率;對BBC電視節目嘉賓進行唇語解讀,準確率為46.8%,遠遠超過專業的人類唇語專家(僅為12.4%)。

人工智能人臉識別

人臉識別可以達到產品級別,例如支付寶的刷臉成功率超過了人類。如圖3,人的水平為97.40,百度為99.77。因此可以進行產品體驗。2017年1月6日,百度人工智能機器人“小度”利用其超強人類識別能力,以3:2險勝人類最強大腦代表王峰。

語音識別

目前的社交新媒體和互動平臺中,Al虛擬助手和Al聊天機器人正在崛起。一天,美國GIT(佐治亞理工大學)的一個課堂上來了一位助教,教師講完課后說:“大家有問題就問助教吧”。這位助教原來是個會眨眼睛的機器人!這時學生們才知道每天網上給他們答疑解惑的是人工智能,此前學生們也感到很吃驚,這位助教非常敬業,晚上還在發Email。

人工智能語音合成

指從文本聲音到真實聲音,可以自動翻譯成英文。2016年9月19日,谷歌DeepMind推出WaveNet,實現文本到美式英語或中國普通話的真實感語音合成。

人工智能速記員

包括語音識別和NLP(自然語言處理)。2016年10月17日,微軟的語音識別系統實現了5.9%的詞錯率(WER),媲美人類專業速記員,且錯誤率更低;中國科大訊飛也有語音輸入法。

人工智能翻譯

中國人往往從小學到讀博士都在學英語。現在,谷歌、微軟和百度等公司在做人工智能翻譯。以谷歌為例,2016年9月27日,谷歌的神經機器翻譯系統(GNMT)實現了多語種翻譯,較之傳統方法,英譯西班牙翻譯錯誤率下降了87%,英譯漢下降了58%,漢譯英下降了60%,已接近人工翻譯的水平。也許今后學外語沒那么重要了,人們可戴著耳機,耳機能直接翻譯成各語言。

人工智能對抗訓練

Goodfellow(2014)提出的生成式對抗網絡(GAN),為半監督學習/舉一反三式的學習發展提供新思路,2016年發展迅速。目前是監督式學習,需要依靠大數據,因此大數據需要非常完備。而人是舉一反三式的學習。例如人沒有見過飛機,看過幾張照片就可以把世界上所有飛機都認出;目前的大數據驅動的深度學習方式,是把世界上所有飛機照片都看過才行。現在進行舉一反三的半監督或無監督式學習,思路是采用對抗的方法,一個網絡造假,另一網絡鑒別照片是真是假,通過對抗式的學習來共同進步(如圖4)。

人工智能引擎

芯片三巨頭

英特爾、英偉達和高通全部轉到了人工智能上。為此英偉達的股票漲了幾倍。英特爾也在大搞人工智能。高通為了進入人工智能領域,收購了恩智浦,恩智浦此前收購了飛思卡爾。

現在出現了基于超級GPU/TPU集群的離線訓練,采用超級GPU/TPu集群服務器,例如英偉達的深度學習芯片Tesla P100及DGX-1深度學習計算機,谷歌數據中心的TPU。

終端應用采用GPU/FPGA-based DPU,例如英特爾Apollo Lake A3900的“智能互聯駕駛艙平臺”,高通驍龍的820A處理器。

通用人工智能與認知智能

1997年,lBM的超級電腦程序“深藍”擊敗國際象棋大師加里?卡斯帕羅夫;2011年2月,IBM的自動問答系統在美國最受歡迎的智力競答電視節目“危險邊緣”中戰勝了人類冠軍:IBM的沃森醫生在某些細分疾病領域已能提供頂級醫生的醫療診斷水平,例如胃癌診斷。

可見,1.AlphaGo和Master等已可橫掃人類圍棋職業頂尖高手,下一步,將能下中國象棋等所有棋類,此外還可以打牌、炒股等,即什么都可以干,是強人工智能。2.人工智能已成為無人駕駛汽車商業落地的關鍵。3.視覺物體識別、人臉識別、唇語識別等在許多國際公開評測中,達到或超過人類的水平;4.速記等語音識別已可媲美人類;5.包括神經機器翻譯在內的自然語言處理,性能也大幅度提升;6.生成式對抗網絡得到極大關注。

目前,發展通用人工智能成為普遍共識。

2 社會極大關注

未來,可能很多工作就會消失了。

人工智能引起社會的極大關注和熱議,人工智能發展很快;而且人工智能的學習速度快,很勤奮,未來可以達到人類所有的智能,這時到達了從強人工智能到超越人工智能的奇點;人工智能有超越人類智能的可能;理論上,人工智能還可以永生。

這也引起了很多人們的擔憂。奇點到來、強人工智能、超人工智能、意識永生、人類滅絕等聳人聽聞的觀點出現,引起包括霍金、蓋茨和馬斯克等在內的世界名人對人工智能發展的擔憂。在每年的世界人工智能大會上,專門有一個論壇探討人工智能與法律、倫理及人類未來的會場。

現在,人工智能工業的OpenAI成立。

2016年全社會對人工智能的極大關注,可能是2016年AI的最大進展!

在半監督/無監督學習、通用人工智能方面,人工智能具有舉一反三,并有常識、經驗、記憶、知識學習、推理、規劃、決策,甚至還有動機。這最后一點有點恐怖,人是有意識和動機的,機器做事也有動機,太可怕了。

智能學習進步很快,AIpha Go八個月后就可以戰勝所有圍棋手,因為它能每天24小時學習、不吃不喝地學習,比人強多了。

因此,在經歷了60年“三起兩落”的發展后,以深度學習為主要標志的人工智能正迎來第3次偉大復興,這次引起社會尤其是產業界高強度的關注。因為上世紀60年代和80年代,人工智能沒有達到這樣的水平。

硅谷精神教父、預言家凱文?凱利說,未來人工智能會成為一種如同電力一樣的基礎服務。斯坦福大學推出了“人工智能百年研究”首份報告――《2030年的人工智能與生活》。

3人工智能上升為國家發展戰略

有人認為第四次工業革命即將由人工智能與機器人等引爆。英國政府認為,人工智能有望像19世紀的蒸汽機革命那樣徹底改變我們的生活,甚至人工智能給人類社會帶來的變革與影響,有可能遠遠超過蒸汽機、電力和互聯網帶來的前三次工業革命。

智能制造、無人駕駛汽車、消費類智能機器人、虛擬助手、聊天機器人、智能金融、智能醫療、智能新聞寫作、智能律師、智慧城市等可能被人工智能代替。人工智能將無處不在,可望替換人類的部分腦力勞動,一些職業會被取代或補充,一些新的行業又會誕生,例如18世紀出現了紡織工人,之后汽車代替了馬車等。因此,我們將經歷從“互聯網+”到“人工智能+”。

中國“互聯網+”與“中國制造2025”國家發展戰略的實施,對人工智能的巨大需求在迅速增長。未來2-5年,人工智能應用與產業發展將迎來爆發期。

中國政府在《“互聯網+”人工智能3年行動實施方案》提出:計劃在2018年形成千億級人工智能產業應用規模。201 7年1月10日,科技部部長萬鋼稱,將編制完成人工智能專項規劃,加快推進人工智能等重大項目的立項論證。

美國政府在2016年10月13日出臺了《為人工智能的未來做好準備》的報告,提出了23條建議措施。同一天,美國政府又出臺了《國家人工智能研發戰略規劃》,提出了7大重點戰略方向。美國參議院于2016年11月30日召開了關于人工智能的首次國會聽證會,主題是“人工智能的黎明”,認為中國是對美國人工智能全球領導地位的一個真正威脅。在2016年12月20日美國白宮了《人工智能、自動化與經濟》報告,考察了人工智能驅動的自動化將會給經濟帶來的影響,并提出了國家的三大應對策略方向。可見,奧巴馬把人工智能看作其政治遺產之一(注:另一個是Cyber空間)。

英國政府2016年12月了《人工智能:未來決策的機遇與影響》的報告,關注人工智能對社會創新與生產力的促進作用,論述如何利用英國人工智能的獨特優勢,增強英國國力。

日本政府2017年開始,要讓人工智能與機器人推動第四次工業革命。

4 我國對策

應以深度卷積神經網絡為核心,全面開展計算機視覺、語音識別和自然語言等人工智能產品的開發與大規模產業化應用。這需要大數據、計算平臺/計算引擎、人工智能算法、應用場景等飛速發展,另外還需要資源、資金、人才。在方法上,選定垂直細分領域最重要。

面向若干細分垂直領域,建立大數據中心。實現大數據采集、清洗、標簽、存儲、管理與交易,建立大數據源公共基礎設施與垂直領域知識庫。專有大數據是人工智能產業制勝的關鍵和法寶。中國企業必須開始特別關注大數據的采集與利用。其重要性如同原油―樣,跨國企業視之為戰略資源!

強力開展人工智能芯片與硬件平臺的研發。包括基于FPGA的深度學習芯片;類腦芯片與憶阻器件;建立國家級人工智能超算中心。

篇8

關鍵詞:句子相似度計算;Word2Vector;編輯距離;Edit Distance

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2017)05-0146-02

1 背景

句子的相似度計算在自然語言處理中有著十分廣泛的運用。例如,機器翻譯中相似性文檔的判斷和提取,在問答系統中相似性問題的匹配或者問題與答案之間的匹配判斷等。對于這個相似度的刻畫,主要分為幾個不同的等級,具體為語法層面的相似度,語義層面的相似度,與語用層面的相似度。其計算難度也是層層遞進。在具體的應用中,只要能達到語義層面的判斷基本上就可以達到基本的需求了。目前對句子的語義層面的相似度計算方法主要有基于相同詞匯的方法,使用語義詞典的方法、使用編輯距離的方法,以及基于統計的方法等。其中,基于相同詞匯的方法比較簡單,但是其缺點也十分的明顯,就是對于句子中同義詞的判斷存在不足。相對于基于相同詞匯的方法,使用語義詞典可以很好的處理句子中同義詞的情形,但是語義詞典也存在著需要不斷地更新和維護詞典庫的缺點,而且如果只是單一的使用語義詞典會缺乏對句子本身結構的分析,對最后的計算結果也有較大的影響。編輯距離一般使用在對句子的快速模糊匹配上,由于其規定的編輯操作有限,而且對于同義詞的替換也缺乏判斷,因此最后的準確率也不是很理想。本文基于編輯距離的方法,利用深度學習模型Word2Vector來增強其編輯操作的靈活程度,從而克服了單純使用編輯距離對句子的語義理解不足的缺點。本文的第一部分主要介紹了相關的算法和基礎知識。第二部分主要描述了基于Word2Vector與編輯距離的句子相似度計算方法,第三部分給出了測試結果以及對該方法的優缺點討論,最后第四部分是結語。

編輯距離方法是指兩個句子間,由一個句子轉換到另一個句子所需的最少的編輯操作次數。這里的編輯操作共有“插入”、“刪除”和“替換”三種。例如:

我是中國人 -> 你是中國人 (把“我”替換為“你”)

我是中國人 -> 我愛中國人 (把“是”替換為“愛”)

我是中國人 -> 是中國人(把”我”刪除)

利用這種方法對兩個句子進行相似度比較就像引言中分析的,其優點是簡單,速度快。但是缺點也十分明顯,由于編輯操作缺乏一定的靈活性,使得其無法進一步的判斷語義層面的含義,比如同義詞,同類、異類詞等,因此,該方法適合于句子間的模糊匹配。

2.2 Word2Vector

Word2Vector是一種將詞匯表示轉化為空間向量的技術,主要利用了深度學習的思想對語料進行訓練,通過將句子進行分詞,然后將每個詞匯映射成N維的向量,這樣可以將兩個詞匯的相似度比較轉化為對兩個向量的相似度比較,可以利用cosine 相似度、歐氏距離等數學工具對詞匯進行語義分析,其采用了一個具有三層的神經網絡,并且根據詞頻用Huffman編碼技術將相似詞頻詞匯的隱藏層激活的內容出于大致相同的位置,如果哪個詞匯出現的頻率很高,那么它激活的隱藏層的數目就很少,通過這樣處理可以使得計算的復雜度大幅度的降低。最后,通過Kmeans聚類方法,將相似的詞向量聚在一起,最后形成了Word2Vector的詞聚類模型。

Word2Vector的輸出結果可以利用在NLP的很多地方,比如聚類,查找一個詞的同義詞,或者進行詞性的分析等。

3 基于Word2Vector與編輯距離的句子相似度計算方法

3.1 問題描述

3.3 按照Word2Vector的詞向量距離來定義編輯操作的系數

由Word2Vector訓練好的模型會將各個詞匯生成一個與其相對應的詞向量,計算兩個詞匯對應的詞向量便可以知道這兩個詞匯的相似度。如果值為1,說明這兩個詞匯完全一致,如果為0,則表示完全沒有關系。

這里考慮一種情形,當利用替換操作進行兩個詞匯的替換時,如果兩個詞匯意思是相近的,那么它的替換代價會相應的低一點,反之,則會相應的高。舉個例子:

我愛故宮

我愛天安門

我愛蘋果

這三個句子我們可以知道1,2兩句更加的接近,因為它代表的都是景點。因此待匹配的句子1應該會匹配上句子2。為了將詞語的相似度考慮進去,這里引入Word2Vector的詞向量來改進替換操作的系數。

假設兩個詞匯的向量距離為k,k∈[0,1]。考慮到k的值的大小與編輯距離的大小是相反的,這里將更新后的替換操作的系數設定為1/(1+k)。這樣更新后的替換操作會根據不同詞匯之間的距離發生變化,變化范圍在[0.5,1]之間。而且這個值的范圍不會打破編輯操作里面的平衡,即替換=插入+刪除。更新后的編輯距離公式L=a+1/(1+k)*b + c。

4 實驗及結果分析

為了驗證改進的編輯距離算法的有效性,本文自行構造了實驗所需的句子集合,本文所用的測試句子一共有400句。其中380句為來自各個不同領域類型的句子。比如,體育,娛樂,軍事,文化,科技,教育等。另外20句為沒有意義的干擾句。這里從380個句子中挑選100句作為參考句子,通過人工評價,比較測試結果。這里評價按照結果的質量分為3類:1、準確,2、相關,3、不相關。其中查準率P的定義如下所示:

通過實驗可以發現,經過改進的編輯距離句子相似度匹配算法在準確度上有了一定的提高和改進,其中原因便是調整后的編輯距離算法將同義詞近義詞等通過詞向量給計算出來。但是在實驗中也發現了一個現象,就是相對來說判斷準確的句子都是一些短小句,即長度不是很長的句子,而判斷不相關的句子明顯長度要更長一些。事實也是如此,當句子的長度較長時,通過分詞將一個句子分為一個個短的詞匯來利用詞向量來理解會破壞句子的整體含義。

5 結束語

本文通過利用Word2Vector模型將詞向量計算引入到編輯距離算法的編輯操作中,從而使得改進后的編輯算法對句子具有一定的語義理解能力。通過實驗也比較好的驗證了此方法的有效性,尤其是對近義詞與同義詞的理解上有了很大的提升,而算法本身的時間復雜度相較于編輯距離算法則沒有改變多少。

另外,通過實驗也發現,此方法對短句子的效果非常的明顯,而對于一些長句則還是具有較大的誤差。從對句子本身的分析角度上看,還需要通過對句子進行建模才可以達到比較好的理解匹配。

參考文獻:

[1] 李彬, 劉挺, 秦兵, 等. 基于語義依存的漢語句子相似度計算[J]. 計算機應用研究, 2003, 20(12): 15-17.

[2] 孔勝, 王宇. 基于句子相似度的文本主題句提取算法研究[J]. 情報學報, 2011, 30(6): 605-609.

[3] 賈明靜, 董日壯, 段良濤. 問句相似度計算綜述[J]. 電腦知識與技術: 學術交流, 2014 (11): 7434-7437.

[4] 賈熹濱, 李寧, 靳亞. 用于文本情感極性分析的動態卷積神經網絡超限學習算法[J]. 北京工業大學學報, 2017, 43(1): 28-35.

[5] Xu G, Cao Y, Zhang Y, et al. TRM: Computing Reputation Score by Mining Reviews[J]. 2015.

[6] 萬翔, 劉挺, 秦兵, 等. 基于改進編輯距離的中文相似句子檢索[J]. 高技術通訊, 2004, 14(7): 15-19.

[7] 汪衛明, 梁東鶯. 基于語義依存關系匹配的漢語句子相似度計算[J]. 深圳信息職業技術學院學報, 2014 (1): 56-61.

[8] 裴婧, 包宏. 漢語句子相似度計算在 FAQ 中的應用[J]. 計算機工程, 2009, 35(17): 46-48.

篇9

關鍵詞: 圖像處理; Canny算子; DSP優化; 圖像快速分割

中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2014)06?0008?04

0 引 言

Canny算子屬于圖像處理和計算機視覺中的重要研究領域――邊緣檢測問題。邊緣檢測對后續的圖像分析和識別意義重大。例如,在鏡檢細胞圖像識別中,邊緣檢測就是要把從采集到的圖像中各種有形成分準確分離出來,進入后端進行特征建模與識別,邊緣檢測是整個系統的關鍵和核心,承上啟下,好的檢測效果是系統實現前提[1],快速檢測是智能系統的內在要求。

John F.Canny將邊緣檢測問題歸結為檢測圖像梯度函數的極大值問題,提出了邊緣檢測最優算法的三個評價準則,并基于該準則開發了一種多級邊緣檢測算法。目前,Canny算子在生物醫學,智能監控,航空航天等領域應用廣泛,并由學者和工程人員不斷加以改進和優化。例如韓慧妍等針對高斯濾波器的方差以及滯后閾值的選擇需要人工指定的問題,將形態學平滑和Otsu(最大類間方差法)方法引入Canny算子[2]。洪運國針對間斷的邊緣問題,提出矩量保持法來求取最優閾值等[3]。

眾多Canny的改進都體現在算法思想上,并在Windows操作系統和通用PC中得到廣泛應用,然而,在嵌入式平臺如DSP加以應用時,很少細致深入地研究實用有效的優化方法使得Canny算子在DSP平臺高效率運行。例如金澤安在其學位論文中,詳盡設計了基于DSP的紅細胞圖像處理系統,但在圖像處理算法性能優化方面只做了粗略的優化方法介紹[4]。通過詳細分析Canny算子原理基礎上,結合DSP特性,將矢量化打包數據處理在高斯濾波過程加以應用,提高運算并行性,并在邊緣計算過程中,靈活地使用對齊和非對齊的寬存儲器訪問,推導出梯度和方向的等價計算公式,四鄰域、八鄰域的等價的連續點四領域、八鄰域模板。

1 Canny算法實現步驟

經典著名的Canny準則是指:

(1) 完全性。對邊緣檢測的錯誤率盡可能低。

(2) 定位性。檢測結果和實際情況盡可能接近。

(3) 最小性。圖像中的邊緣應該只被檢測一次[5]。

基于邊緣檢測效果的三準則,結合原始Canny算子及改進思想,實現了顯微細胞圖像Canny分割,算法思想和步驟如下描述:

Step 1:用二維高斯濾波模板進行卷積以消除雜點,采用的模板計算公式如下:

濾波過程即將原輸入圖像與高斯模板進行卷積,濾波長度依據參數sigma而定,用公式表示如下:

Step 2:計算差分圖像。一般采用2×2鄰域范圍,原圖中每一點水平方向和垂直方向的差分計算公式如下:

式中IG為差分圖像的輸入,即二維高斯濾波后的結果;Δx為水平方向差分;Δy為垂直方向差分。

Step 3:計算弧度和梯度,公式如下:

Step 4:對梯度幅值進行非最大值抑制。若某個像素的灰度值與其梯度方向上前后兩個像素的灰度值相比不是最大的,那個這個像素置為255(白點),即不是邊緣 。

Step 5:使用累計直方圖計算兩個閾值。凡是大于高閾值的一定作為邊緣,像素點置0;凡是小于低閾值的一定不是邊緣,像素點置255;若檢測結果位于兩者之間,檢測其鄰接像素中超過高閾值的邊緣像素:存在則為邊緣點,否則非邊緣點[6]。

以上步驟結束,由輸入的原圖像得到一副二值邊緣圖。

2 Canny算子的DSP優化

在DSP平臺編程實現和優化Canny算子時,需要根據特定處理器的特點來展開,主要參考數據總線寬度,核內功能單元、寄存器等。

2.1 TMS320C6678特性和優化概述

TMS320C6678在單芯片上集成8顆1.25 GHz C66X核,支持定點運算,字寬一般為16位;支持浮點運算,字寬可為32位、40位、48位、64位。每個核具有8個功能單元(.M1,.L1,.D1,.S1.,M2,.L2,.D2,.S2),2個寄存器組(A,B兩組64個寄存器)和2條數據通路。每個C66X核的.M單元在每個時鐘周期內能夠執行以下定點操作:4個32×32 b乘法,16個16×16 b乘法,4個16×32 b乘法,8個8×8 b乘法, 4個16×16 b乘法和加減運算。.L和.S單元支持64 b操作數據,如此可以容納多算術、邏輯和數據打包指令并行處理。還可以通過長型操作數,最長可達128位,完成雙倍數據的轉換[7]。

在DSP平臺上,數據傳輸的設計是圖像系統的關鍵環節,CPU處理任務時的速度很大程度都受到外部存儲器的限制[8]。TMS320C6678片內存儲器含寄存器、Cache、L2、共享存儲器,訪問速度快,然而容量卻非常有限,當圖像數據量較大時,無法將待分割的整幅圖像和一些中間結果置于片內進行處理。例如對800×600、24位BMP圖像數據處理,其大小為1.37 MB,考慮到C6678片內存儲器的大小,分割的圖像數據和中間結果分布在DDR,因此,在任務處理過程中,CPU直接訪問外部存儲器接口的情況下,頻繁與外部存儲器發生數據交互大大影響程序的執行效率。

針對以上問題,實現了基于矢量化打包數據處理實現預處理過程(高斯濾波)提高算法的并行能力,在分割過程(邊緣計算)中靈活運用對齊和非對齊的寬存儲器訪問提高存儲器讀/寫效率,另外,還參考的一般的優化方法,如避免跳轉,展開不必要的循環等。

2.2 矢量化打包數據處理高斯濾波

高斯濾波是分割處理一個重要過程,在實現過程中,將輸入圖像與高斯模板進行卷積,橫向濾波時的單個像素點的濾波的濾波結果示意圖如圖1所示,縱向過程與之類似。

采用乘累加容易實現高斯濾波,其偽代碼如下(橫向為例):

采用以上方式實現的高斯濾波,代碼包含三重循環,代碼前后相關性大,不利于編譯器優化,每計算出單點的濾波結果,需要訪存N(N為濾波器長度)。針對該過程,采用矢量化的打包數據處理對高斯濾波進行優化,其根本思想是利用TMS320C6678在一個時鐘周期內能夠執行多個乘法運算,從而將濾波展開成多操作并行的代碼結構,另外,利用高斯模板的對稱結構,將兩次乘法運算優化為一次加法和乘法。具體實現步驟如下描述:

(1) 為更有效地讀取數據,讀取和存儲必須向量化。待處理數據最好在內存空間連續存儲,若不連續,采用額外的數據打包操作,準備好數據。

(2) 在讀取數據時,需要將一次并行處理的數據全部讀入,這一步需要采用寬存儲器對連續數據進行訪問,具體寬度根據需要并行的操作、處理器并行操作的能力、處理器單次最大訪問寬度而定。

最后,將運算相關的指令合并成intrinsic函數[9},以充分利用C66x的特性。intrinsics函數直接調用某些匯編語句,其前綴以下劃線表明,和普通函數調用方法相同。如_mpy2實現將輸入的兩個操作數的高低16位相乘,_swap4將操作數高低半字中的每一對字節分別做大端終結交換,_dopt2實現低16位乘積和高16位乘積相加[10]。實現的矢量化打包數據處理高斯濾波偽采用以上方法,分解了濾波長度帶來的第三重循環,多次調用內聯函數,執行效率高,充分利用C66x在一個周期內,完成多個16×16的乘法運算的性能,單像素結果需要進行7次乘累加的操作,可在一個周期內并行完成,以上優化思想和代碼結構在DSP平臺運行,極具優勢。另外,進行縱向濾波處理,由于輸入圖像在內存一般采用按行優先存儲,需要采用額外的數據打包處理,其他過程類似。

2.3 寬存儲器訪問計算邊緣

寬長度存儲器訪問是指充分利用C6x系列DSP一次讀取32 位數的特性,并利用一個指令周期能讀取多個數據的特點在DSP處理過程中,盡可能多的將所需短字長操作數讀入,如一次讀入2×32 b,4×16 b,甚至8×8 b等,可成倍減少與外部存儲器發生交互,是DSP優化過程中一個重要的優化手段。在實現C6678 DSP平臺的Canny算法時,不止是在高斯濾波的處理過程中,計算圖像梯度信息,進行非最大抑制等過程中也同樣采用寬長度存儲器訪問,脫離傳統的按單位像素交互圖像數據的思維和編程方式,結合具體芯片的處理性能和應用程序要求實現和優化Canny算子,例如C6678甚至支持128 b的超長數據,在訪問和保存中間圖像結果時,具體采用的數據位寬需要結合系統對精度的要求,當用16位來表示梯度信息,即C語言中的short類型,采用64 b寬存儲器訪問,便推導出梯度計算公式的等價公式如下:

采用寬存儲器非對齊數據訪問可以從DSP內存中任意起始地址開始讀取和存儲2 B,4 B,8 B的數據,分別使用(&)_mem2_(const),(&)_mem4_(const),(&)_mem8_(const)函數。如此,便可以將圖像處理領域中頻繁使用的四鄰域模板進行推導,處理具體任務時,將四領域模板升級為連續四點四鄰區,連續八點四鄰區,其示意圖如圖3所示。

圖3(a)為四鄰域模板示意圖, (b)和(c)為分別采用4 B和8 B訪問時,鄰域模板示意圖。對(b)和(c)圖像進行處理的前提和依據是:連續4點的四鄰域在內存存儲中也是連續的(不包含邊界),連續訪問的4點,在物理位置上其相關鄰點也連續。如此,可成倍節省外部存儲器訪問操作時間。訪問(a)的四鄰域點,需要4次仿存,采用推導出等價模板后,處理連續四點和八點只需4次訪問。在Canny邊緣計算過程中,需對輸入逐點遍歷,如計算梯度時遍歷整幅圖像灰度,非最大抑制時遍歷梯度和方向等,以上等價模板思想,當需要處理圖像的八鄰域或在其他比較規整的膨脹和腐蝕模板同樣適應。

3 硬件仿真結果

硬件平臺采用TMS320C6678LE評估板,開發軟件采用CCS V5.3,量化位數16位,對一副800×600的顯微細胞圖像進行處理,分割效果良好,見圖4。此外,在優化前后,分別對Canny算法步驟進行分析和測試,耗時統計采用TSCL和TSCH寄存器,結果見表1,所統計的結果均是在勾選相同的編譯器優化選項后的比對。

4 結 語

在DSP平臺中,采用以上思想進行優化后,對同樣的圖像進行處理,相對于原算法,性能可以提高近3倍,在差分圖像計算時,效果極為明顯。在DSP系統設計中,頻繁地直接外部存儲器接口訪問,是系統性能提升的瓶頸,優化結果表明,采用數據打包處理和寬存儲器訪問方式能在一定程度上解決該問題,雖不能實現數量級的優化,但研究的優化方法同樣可以在工程中作為輔助的優化策略,并且具有實際優化效果。

圖4 分割前后的顯微細胞圖像

表1 耗時測試仿真結果 cycle

參考文獻

[1] 梁光明.體液細胞圖像有形成分智能識別關鍵技術研究[D].長沙:國防科技大學,2008.

[2] 韓慧妍,韓燮.形態學和Otsu方法在Canny邊緣檢測算子中的應用[J].微電子學與計算機,2012,29(2):156?159.

[3] 洪運國.基于改進Canny 算子和神經網絡的人體行為識別模型[J].計算機工程與應用,2013,49(8):202?205.

[4] 金澤安.基于DSP紅細胞圖像處理技術[D].南京:南京理工大學,2009.

[5] 孫興華,郭麗.數字圖像處理:編程框架、理論分析、實例應用和源碼實現[M].北京:機械工業出版社,2012.

[6] 左飛,萬晉森,劉航.數字圖像處理原理與實踐:基于Visual C++開發[M].北京:電子工業出版社,2011.

[7] Texas Instruments. TMS320C66x DSP CPU and instruction set reference guide [M]. USA: TI, 2010.

[8] QURESHI Shehrzad. Embedded image processing on the TMS320C6000? DSP: examples in code composer studio and MATLAB [M]. [S.l.]: Springer Verlag, 2005.