卷積神經網絡意義范文
時間:2024-03-29 18:17:01
導語:如何才能寫好一篇卷積神經網絡意義,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞關鍵詞:人臉識別;卷積神經網絡;圖像識別;深度學習;模式識別
DOIDOI:10.11907/rjdk.171043
中圖分類號:TP317.4
文獻標識碼:A文章編號文章編號:16727800(2017)005018603
0引言
人臉識別是近年來模式識別、圖像處理、機器視覺、神經網絡及認知科學領域的研究熱點[12]。所謂人臉識別,是指給定一個靜態人臉圖像或動態視頻,利用存儲有若干已知身份的人臉數據庫驗證單個或多個人的身份[1]。作為生物特征識別的一個重要方面,人臉識別有著廣泛的應用場景,如:檔案管理系統、公安系統的犯罪身份識別、銀行和海關的監控、安全驗證系統、信用卡驗證等領域。在人臉識別巨大魅力的影響下,國內互聯網公司也開始了人臉識別應用的探索,如百度推出的人臉考勤系統、阿里支付寶的刷臉登錄等功能都是人臉識別的具體應用。目前,人臉識別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區別分析,Belhumeur 等[4]提出了Fisherface方法;基于統計理論,劍橋大學的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過多級自組織映射神經網絡(SOM)[6]與卷積神經網絡相結合進行人臉識別。上述方法雖然獲得了良好的識別正確率,但需要人工參與特征提取,然后將提取的特征送入分類器進行識別,過程較為復雜。
卷積神經網絡[79]是近年發展起來,并引起廣泛重視的一種高效深度學習識別算法,其已成為當前語音分析和圖像處理領域的研究熱點。相比傳統的神經網絡而言,卷積神經網絡具有權值共享、局部感知的優點。局部感知的網絡結構使其更接近于生物神經網絡,權值共享大大減少了模型學習參數的個數,同時降低了神經網絡結構的復雜性。在圖像處理領域,卷積神經網絡的優點體現得更為突出,多維的圖像數據可以直接作為網絡的輸入,特征提取和分類均集成在網絡中,避免了傳統識別算法中復雜的特征提取和訓練分類器過程。除此之外,卷積神經網絡對圖像中的位移、比例縮放、旋轉、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統人臉識別算法特征提取和訓練分類器困難的問題,本文借鑒Lenet-5[10]的結構,設計一個適合ORL數據集人臉識別任務的卷積神經網絡結構。
1卷積神經網絡
1.1用于ORL人臉識別的CNN
本文提出的7層卷積神經網絡模型由輸入層、2個卷積層、2個降采樣層、一個全連接層和一個Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區域的大小為2×2,采用Average Pooling(相鄰小區域之間無重疊),激活函數均采用Sigmoid函數。每一個卷積層或降采樣層由多個特征圖組成,每個特征圖有多個神經元,上層的輸出作為下一層的輸入。此外,本文實驗學習率的取值為常數1.5,該卷積神經網絡結構如圖1所示。
1.2卷積層
卷積神經網絡中的卷積層一般稱C層[11](特征提取層)。卷積層的輸入來源于輸入層或者采樣層。卷積層中的每一個特征圖都對應一個大小相同的卷積核,卷積層的每一個特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對應元素累加后加一個偏置,最后通過激活函數得到。假設第l層榫砘層,則該層中第j個特征圖的計算表達式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
這里的Mj表示選擇的上一層輸出特征圖的集合。
1.3降采樣層
降采樣層是對上一層的特征圖進行下采樣處理,處理方式是在每一個特征圖內部的相鄰小區域進行聚合統計。常見的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區域內像素的平均值,而Max Pooling是取小區域內像素的最大值。降采樣層只是對輸入的特征圖進行降維處理,不改變特征圖的個數。假設down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個特征圖的計算表達式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4輸出層
卷積神經網絡的輸出層一般為分類器層,常用的有徑向基(RBF)函數輸出單元、Sigmoid輸出單元和Softmax回歸分類器。在ORL人臉識別任務中,采用Sigmoid函數輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數,每一個單元輸出值是0-1范圍內的一個正數,代表該樣本屬于該單元對應類別的概率。數值最大的那個單元即為樣本的預測類別。假設x為全連接層的輸出,則輸出層輸出結果的計算表達式如下:
y=f(wTx+b)(3)
其中,f表示激活函數,這里采用Sigmoid函數,Sigmoid函數表達式如下:
f(x)=11+e-x(4)
2實驗結果與分析
實驗在Windows7 64位下的Matlab 2014a中進行,采用Matlab深度學習工具箱DeepLearnToolbox。PC的內存8G,CPU主頻為3.2GHZ。
ORL人臉數據集是在1992年至1994年之間由AT &T Cambridge實驗室拍攝的人臉圖像所構成。數據集中包含40個不同人物的臉部圖像,每個人物包含10張圖像,總共400張。每個類別中的臉部圖像在不同的時間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開狀態,面部是否帶有微笑的表情等;③一些面部細節上的差異,如是否佩戴眼鏡等。該數據集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。
圖2為ORL數據集中部分人臉圖像。數據集中每個原始圖像大小為92*112像素,本文實驗中對這些圖像進行預處理,使每一幅圖像的尺寸調整為28*28,并對每一副圖像進行歸一化處理,這里采用簡單的除255的方式。隨機選取每一個類別的8張圖像作為訓練樣本,剩下的2張作為測試樣本。因此,訓練集有320個樣本,測試集有80個樣本。
2.1改變C3層卷積核個數對網絡的影響
卷積神經網絡性能的好壞與卷積層卷積核的個數密切相關,但每一個卷積層應該設置多少個卷積濾波器,目前并沒有數學理論指導。為了研究卷積核個數對網絡最終識別準確率的影響,本文保持C1層卷積核個數不變,通過改變C3層卷積核的個數,形成新的網絡結構,用訓練集訓練網絡,訓練迭代次數均為60次,然后用測試集對每一種網絡結構的性能進行測試。實驗結果如表1所示。
從表1可以看出,當C3層有10個卷積核時,網絡模型對測試集的識別正確率最高。卷積核的個數與識別準確率并不成正比關系,當卷積核個數過多時,網絡的識別準確率會下降,這是因為在卷積核個數增加的同時,需要學習的參數也隨之增加,而數據集中訓練樣本的規模較小,已不能滿足學習的要求。
2.2改變C1層卷積核個數對網絡的影響
由上述實驗結果可知,C3層卷積核個數為10時,網絡識別效果最好。因此,為了研究卷積層C1層卷積核個數對識別準確率的影響, C3層保留10個卷積核,改變C1層卷積核的個數構造新的網絡結構,用測試集針對不同網絡結構就測試集和訓練集的識別準確率進行測試。實驗結果如表2所示。
從表2的實驗結果可以得到相同結論:卷積層卷積核的個數并非越多越好,卷積核個數過多,網絡需要學習的參數也隨之增加,當訓練集中樣本個數無法滿足學習需要時,網絡識別準確率就會下降。
2.3與其它算法比較
為進一步說明本文所提卷積神經網絡結構的有效性和優越性,將該結構(C1層6個卷積核,C3層10個卷積核,學習率1.5)的實驗結果與其它識別方法在ORL數據集上的實驗結果進行對比,結果如表3所示。可以看出,本文所提方法比Eigface、ICA的識別效果好,與2DPCA方法的識別準確率一樣,比FisherFace方法的識別準確率只低了0.20%,這進一步證實了本文所提網絡結構的有效性。
3結語
本文在理解Lenet-5結構的基礎上,提出一種適用于ORL人臉數據集的卷積神經網絡結構。實驗結果表明,本文提出的卷積神經網絡結構,不僅避免了復雜的顯式特征提取過程,在ORL數據集上獲得98.30%的識別正確率,而且比大多數傳統人臉識別算法的效果都好。此外,本文還通過大量驗就每個卷積層卷積核個數對網絡識別準確率的影響進行了詳細研究與分析,這對設計CNN網絡結構具有一定的參考意義。
參考文獻參考文獻:
[1]李武軍,王崇駿,張煒,等.人臉識別研究綜述[J].模式識別與人工智能,2006,19(1):5866.
[2]張翠平,蘇光大.人臉識別技術綜述[J].中國圖象圖形學報,2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吳學毅,劉文峰.人臉識別綜述與展望[J].計算機與信息技術,2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陳耀丹,王連明.基于卷積神經網絡的人臉識別方法[J].東北師范大學學報:自然科學版,2016,48(2):7076.
[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識別的卷積神經網絡[J].南京郵電大學學報:自然科學版,2016,36(1):1622.
[9]李彥冬,郝宗波,雷航.卷積神經網絡研究綜述[J].計算機應用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
篇2
當今的社會是信息的社會。要使信息得到及時利用,為國民經濟和科學技術以及國防工業的發展服務,必須對信息數據的采集、加工處理、傳輸、存儲、決策和執行等進行全面的技術革新,以適應社會發展形式的需求。因此,信息科學技術有著極其廣泛的重要應用領域,如通信、雷達、聲納、電子測量儀器、生物醫學工程、振動工程、地震勘探、圖像處理、計算機科學等。各領域的電子信息系統往往具有不同的性能和特征,但是電子信息系統設備的設計都涉及到信息表征和信息處理技術,如果這種信息科技能獲得新的突破,電子信息系統產品將走上新的臺階。
當前信息系統智能化和具有高的魯棒性及容錯性是值得研究的重大問題,雖然人工智能和專家系統已取得好的成績,但還不適應信息社會發展的需求,需尋求新的發展途徑。21世紀被稱為“智能化世紀和人工神經網絡世紀”,信息科學與腦科學、認知科學、神經生物學、計算機科學、非線性科學、數學、物理學諸學科相結合所產生的神經計算科學,為實現新的信息表征和信息處理提供了新的手段,將使信息技術和信息系統智能化得到飛躍的發展。
21世紀是信息社會的智能化時代,信息高速公路的發展加速了通信技術和多媒體通信系統進入網絡化、智能化進程;開拓國際互聯網,使千家萬戶能在因特網和大型計算機網絡上搜索和瀏覽各種信息,這都涉及到通信系統和信息處理系統的高度智能化問題。
現代信息處理要解決的問題往往是很復雜的,它要完成由輸入空間到輸出空間的映射,這個映射可以是線性的,也可以是非線性的,所以信息處理系統是有序結構的物理系統中的映射,恰好是與神經網絡信息處理同構。
2 人工神經網絡信息處理
一般來說,智能信息處理可以劃分為兩大類,一類為基于傳統計算機的智能信息處理,另一類為基于神經計算的智能信息處理。前者信息系統包括智能儀器、自動跟蹤監測儀器系統、自動控制制導系統、自動故障診斷和報警系統等。在人工智能系統中,它們具有模仿或代替與人的思維有關的功能,通過邏輯符號處理系統的推理規則來實現自動診斷、問題求解以及專家系統的智能。這種智能實際上體現了人類的邏輯思維方式,主要應用串行工作程序按照一些推理規則一步一步進行計算和操作,應用領域很廣。后者是用人工神經網絡來模仿延伸人腦認知功能的新型智能信息處理系統,即仿造人腦的思維、聯想記憶、推理及意識等高級精神活動的智能,這類神經智能系統可以解決傳統方法所不能或難以解決的問題。例如美國研制出的一種電子“偵探”(蘇聯《科學與生活》,1990年),就是用神經網絡做的能辨識人面孔的智能系統,只要讓它看一下某人或他的照片就能記住描述此人面貌的256個數字參數,同時能記住達500人,思考辨認時間總共為1s。人工神經網絡系統具有很高的容錯性和魯棒性及自組織性,即使連接線被破壞了50%,它仍能處在優化工作狀態,這在軍事系統電子設備中有著特別重要的意義,故美國無人偵察飛機已用上這種神經信息系統。美國許多公司生產的神經網絡芯片及神經智能系統已商品化。今年最新報導:美Attrasoft公司做出世界上最大的百萬個神經元的神經網絡(軟件)。
3 盲信號處理技術
盲信號處理包括多個信源混合的盲源分離、多通道傳輸信道的參數估計和系統辨識、盲解卷積和盲均衡技術、盲陣列信號處理和盲波束形成技術等,在通信、雷達、聲納、控制工程、地震勘探、生物醫學工程等領域有著極其重要的應用價值,是國際上非常重視的熱門研究課題。從數學上講,盲信號處理問題可以用X(t)=AS(t)來描述,這里X(t)是已知觀測數據矢量,而信號矢量S(t)和系統參數矩陣A都是未知的,如何只由觀測矢量X(t)來推求S(t)或A,其解將存在不定因素,可能有許多不同的兩個量相乘而得到同一個觀測數據X(t)。求解這類問題是一個國際性的盲處理難題,但該問題有很高的實用價值。圖像、語聲、中文詩詞及英文文字等多媒體信息混合后的盲分離問題,最高信號干擾之比高于70dB。
篇3
關鍵詞:蛋白質二級結構預測;基團編碼;正交編碼;SVM
0引言
氨基酸序列的研究是生物信息學中對生物序列展開探討設計的主要工作,氨基酸序列決定了蛋白質的空間結構,而蛋白質的空間結構決定了蛋白質生理功能的多樣性。在利用x射線結晶學及核磁共振等技術對蛋白質結構進行探測時發現,蛋白質結構有4個層次,蛋白質的二級結構是認識了解蛋白質的折疊模式和三級結構的基礎,進一步為研究蛋白質的功能以及彼此之間的相互作用模式提供結構基礎,同時還可以為新藥研發提供幫助。故研究蛋白質的二級結構具有重要的意義。
篇4
關鍵詞:AlphaGo;人工智能;圍棋;未來展望
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-2064(2017)07-0193-02
1 圍棋與人工智能
圍棋作為中國傳統四大藝術之一,擁有著幾千年的悠久歷史。圍棋棋盤由19條橫線和19條豎線組成,共有19*19=361個交叉點,圍棋子分為黑白兩種顏色,對弈雙方各執一色,輪流將一枚棋子下在縱橫交叉點上,終局時,棋子圍上交叉點數目最多的一方獲勝。圍棋棋盤上每一個縱橫交叉點都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達3^361種局面;圍棋的每個回合有250種可能,一盤棋可長達150回合,所以圍棋的計算復雜度為250^150,約為10^170,然而全宇宙可觀測的原子數量只有10^80,這足以體現圍棋博弈的復雜性和多變性。
人工智能(Artificial Intelligence,AI)主要研究人類思維、行動中那些尚未算法化的功能行為,使機器像人的大腦一樣思考、行動。長期以來,圍棋作為一種智力博弈游戲,以其變化莫測的博弈局面,高度體現了人類的智慧,為人工智能研究提供了一個很好的測試平臺,圍棋人工智能也是人工智能領域的一個重要挑戰。
傳統的計算機下棋程序的基本原理,是通過有限步數的搜索樹,即采用數學和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優路徑,使得棋局勝算最大。這種下棋思路是充分發揮計算機運算速度快、運算量大等優勢的“暴力搜索法”,是人類在對弈規定的時間限制內無法做到的。但是由于圍棋局面數量太大,這樣的運算量對于計算機來講也是相當之大,目前的計算機硬件無法在對弈規定的時間內,使用計算機占絕對優勢的“暴力搜索法”完成圍棋所有局面的擇優,所以這樣的下棋思路不適用于圍棋對弈。
搜索量巨大的問題一直困擾著圍棋人工智能,使其發展停滯不前,直到2006年, 蒙特卡羅樹搜索的應用出現,才使得圍棋人工智能進入了嶄新的階段,現代圍棋人工智能的主要算法是基于蒙特卡洛樹的優化搜索。
2 圍棋人工智能基本原理
目前圍棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind創造的AlphaGo圍棋人工智能系統。它在與人類頂級圍棋棋手的對弈中充分發揮了其搜索和計算的優勢,幾乎在圍棋界立于不敗之地。
AlphaGo系統的基本原理是將深度強化學習方法與蒙特卡洛樹搜索結合,使用有監督學習策略網絡和價值網絡,極大減少了搜索空間,即在搜索過程中的計算量,提高了對棋局估計的準確度。
2.1 深度強化學習方法
深度學習源于人工神經網絡的研究,人類大量的視覺聽覺信號的感知處理都是下意識的,是基于大腦皮層神經網絡的學習方法,通過模擬大腦皮層推斷分析數據的復雜層狀網絡結構,使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象,其過程類似于人們識別物體標注圖片。現如今,應用最廣泛的深度學習模型包括:卷積神經網絡、深度置信網絡、堆棧自編碼網絡和遞歸神經網絡等。
強化學習源于動物學習、參數擾動自適應控制等理論,通過模擬生物對環境以試錯的方式進行交互達到對環境的最優適應的方式,通過不斷地反復試驗,將變化無常的動態情況與對應動作相匹配。強化學習系統設置狀態、動作、狀態轉移概率和獎賞四個部分,在當前狀態下根據策略選擇動作,執行該過程并以當前轉移概率轉移到下一狀態,同時接收環境反饋回來的獎賞,最終通過調整策略來最大化累積獎賞。
深度學習具有較強的感知能力,但缺乏一定的決策能力;強化學習具有決策能力,同樣對感知問題無能為力。深度強化學習方法是將具有感知能力的深度學習和具有決策能力的強化學習結合起來,優勢互補,用深度學習進行感知,從環境中獲取目標觀測信息,提供當前環境下的狀態信息;然后用強化學習進行決策,將當前狀態映射到相應動作,基于初期匯報評判動作價值。
深度強化學習為復雜系統的感知決策問題提供了一種全新的解決思路。
2.2 蒙特卡洛樹搜索
蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統計理論為指導的強化學習方法,它通常解決某些隨機事件出現的概率問題,或者是某隨機變量的期望值等數字特征問題。通過與環境的交互,從所采集的樣本中學習,獲得關于決策過程的狀態、動作和獎賞的大量數據,最后計算出累積獎賞的平均值。
蒙特卡洛樹搜索算法是一種用于解決完美信息博弈(perfect information games,沒有任何信息被隱藏的游戲)的方法,主要包含選擇(Selection)、擴展(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個步驟。
2.3 策略網絡與價值網絡
AlphaGo系統擁有基于蒙特卡洛樹搜索方法的策略網絡(Policy Network)和價值網絡(Value Network)兩個不同的神經網絡大腦,充分借鑒人類棋手的下棋模式,用策略網絡來模擬人類的“棋感”,用價值網絡來模擬人類對棋盤盤面的綜合評估。
AlphaGo系統主要采用有監督學習策略網絡,通過觀察棋盤布局,進行棋路搜索,得到下一步合法落子行動的概率分布,從中找到最優的一步落子位置,做落子選擇。DeepMind團隊使用棋圣堂圍棋服務器上3000萬個專業棋手對弈棋譜的落子數據,來預測棋手的落子情況。期間,系統進行上百萬次的對弈嘗試,進行強化學習,將每一個棋局進行到底,不斷積累“經驗”,學會贏面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網絡使用百萬次對弈中產生的棋譜,根據最終的勝負結果來進行價值網絡訓練,預測每一次落子選擇后贏棋的可能性,通過整體局面的判斷來幫助策略網絡完成落子選擇。
3 圍棋人工智能意義
經過比賽測試證明,AlphaGo系統的圍棋對弈能力已經達到世界頂級棋手水平。一直以來,圍棋因為復雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領域成為一個具有代表性的難度挑戰。目前的硬件水平面對如此巨大的搜索空間顯得束手無策,AlphaGo系統基于有監督學習的策略網絡和價值網絡大大減少搜索空間,在訓練中開創性地使用深度強化學習,然后結合蒙特卡洛樹搜索方法,使得系統自學習能力大大提高,并且AlphaGo系統在與人類頂級棋手對弈中取得的連勝卓越成績,櫧湓諶斯ぶ悄芰煊虻於了堅實的里程碑地位。
雖然圍棋人工智能取得了如此優秀的成績,但是也僅僅是它在既定規則內的計算處理能力遠遠超過了人類的現有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領域,目前的人工智能水平是遠遠達不到的。但是隨著科技的進步和人類在人工智能領域的研究深入,人工智能與人類的差距會逐漸減小,像圍棋人機大戰人工智能連勝人類這樣的例子也可能在其他領域發生,這就意味著人工智能的發展前景十分可觀。
4 結語
人類和人工智能共同探索圍棋世界的大幕即將拉開,讓人類棋手結合人工智能,邁進全新人機共同學習交流的領域,進行一次新的圍棋革命,探索圍棋真理更高的境界。
參考文獻
篇5
Master的“過人之處”
2016年年末,圍棋界對阿爾法狗留下的心理陰影正在消散,這不單是因為在線圍棋網站上冒出了更多AI棋手―如日本的DEEPZEN、中國的“絕藝”――更重要的是,人類棋手在與之較量時互有勝負。特別是當中國第一高手柯潔曾完勝“絕藝”的升級版“刑天”(被認為棋力相當于阿爾法狗)一局并宣稱可以找到AI漏洞后,人類棋手歡欣鼓舞。
可是,Master就是在這樣的背景下登場并毫無懸念地收割勝利的。賽后,棋圣聶衛平感喟“我們無法像電腦那樣從不犯錯”,而柯潔則連連慨嘆,“人類數千年的實戰演練進化,計算機卻告訴我們全都是錯的……”那么,Master究竟強在哪里呢?阿爾法狗研發團隊的黃士杰博士表示,其“過人之處”即在于背靠多組超級計算機組成的卷積神經網絡,這使得Master不僅具備類似人腦的“策略網絡”(選擇某一手棋的最優下法),更擁有人類難以企及的“價值網絡”(判斷每一步靜態棋局的精準勝率)。與此同時,Master還可以通過每天自我對弈數十萬局來增長棋力――人類棋手一年最多下1000局。由此,Master得以拋開事倍功半的窮舉分析,并以閃電般的高效應對使人類棋手難以招架。
電腦將“學會”文化創意
對計算機而言,一切任務都是邏輯運算,而算法和算力是提升效率的主要指標。優化算法可以更輕易地解決問題,提升算力則能在單位時間內獲得更多成果。當一項活動具備邏輯運行特征時,即可交由計算機執行;其中的變化規則越多地被掌握,計算機越是容易立于不敗之地。國際象棋就是一個例子,由于棋路變化相對簡單,今天安裝在手機上的對弈程序都已經有了國際特級大師的棋力。專業級弈棋程序(如Rybka)幾乎已經算盡棋路,在與人類棋手對決時穩居上風。
常人的直覺是,計算方面輸給電腦是正常的,文化創意方面人類則是永遠的贏家。而事實上,文藝創作活動也可以通過算法轉化為邏輯運算。著名科幻作家劉慈欣就曾開發過一款寫詩軟件,設定創作一首三行詩,韻腳為a,按下“生成”就跳出結果:“伏特加,請霧化吧!懸崖,請磁化吧!我們都是嘩嘩啦啦的籌碼,我們要掙扎!”而如果在這一領域樹立一尊“圣杯”,那無疑是嘗試創造博爾赫斯筆下的“通天塔圖書館”。這座由小說家臆想出來的圖書館中,收藏著以不同字符、數字、標點符號組合而成的所有文本――既包括我們讀過的書,也包括消逝在歷史塵埃中的書,更包括尚未被寫出的書……計算機通過羅列全部組合的方式來締造這個圖書館,不斷優化的算法會通過剔除大量無意義結果來為算力減壓。
當代的計算機尚無法構建這個圖書館,正如它們還無法窮盡圍棋套路的變化那樣。但處理器性能是以指數級速度發展的,1946年人類第一臺電子計算機“埃尼阿克”的算力在今天連手持計算器都不如,我們又怎能設想一個世紀后的電腦將強大到何種程度呢?可以確定的是,一旦計算機可以“創作”,那么它也必然會攻克音樂、繪畫等人文藝術領域,人類靈感創意的專屬領地將遭遇機器邏輯的入侵。
與AI共生的未來
AI(人工智能)有強、弱之分。弱人工智能只擅長某個特定領域,比如駕駛、裝配或掃地吸塵。阿爾法狗亦屬于此,但它的本質是一種深度學習引擎,而不是只會下圍棋。按照谷歌公司的藍圖,它將被運用在協助判斷早期病癥等領域。強人工智能將擁有類似人類的語言、情感以及思維能力,它們在很多方面會超越人類本身,因此研發的意義不是為解決某種具體問題,而是用它們來開創出更多視界。
篇6
關鍵詞:圖像識別;OCR;題庫采集;移動終端;特征建模
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2016)12-0075-04
采集題庫的現狀
隨著經濟和社會的發展、“互聯網+”的廣泛應用及教育觀念的更新,我們迫切需要科學、方便、完善的網絡型題庫管理系統。試題庫建設是教育現代化的需要,是考教分離、最大限度提高辦學效益的需要,因此,進行區域網絡試題庫系統的建設和研究具有十分重要的意義。
受限于教材版本和區域應用層面的需求,采購商業化的題庫并不能完全滿足教育教學的實際要求。手握大量紙質試卷的老師們,迫切需要一個錄入神器,方便快捷地將其錄入到題庫系統里。
利用基于移動終端的圖像文字識別技術將文字和圖片迅速錄入題庫是我們在移動端系統開發的應用亮點。它能夠大幅提高對質量不高圖像的識別率,其關鍵算法對圖像的噪聲、亮度明暗不一致和規格凌亂的問題進行了很好的處理。它能夠將圖像上傳到服務器進行在線識別,在識別過程中先對圖像進行消噪,然后對亮度進行均衡處理及對圖像閾值分割,提高了圖像識別的成功率。
題庫采集系統工作流程
題庫采集主要分為圖像采集、圖像識別和標注三個過程。整體的工作流程包括:①系統啟動,進入主界面,可選擇開始拍攝閱卷或讀取設備中已有的圖像,如選擇拍攝題目,進入圖像采集模塊,調用移動設備的攝像頭進行拍攝,拍攝成功后,跳轉至識別界面,如選擇讀取相冊已有圖像也跳轉至識別界面。②在識別界面上顯示出拍攝或者讀取的相冊圖像,首先調用圖像預處理模塊對圖像進行預處理,輸出預處理后的圖像,然后調用圖像校正模塊對預處理圖像進行校正,輸出校正圖像,最后調用圖像識別模塊對校正圖像進行識別,輸出識別結果。③調用標注模塊對識別結果進行分類管理,為題目添加系統屬性,如學科、章節、知識點類目、題型、難度系數等標簽。圖1為題庫采集系統工作流程示意圖。
OCR智能模型設計思路
在人工智能領域,模擬人類圖像識別活動的計算機程序,人們提出了不同的圖像識別模型――模板匹配模型。這種模型認為,識別某個圖像,必須在過去的經驗中有這個圖像的記憶模式,又叫特征模型。當前的刺激如果能與大腦中的模型相匹配,這個圖像也就被識別了。例如,有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。圖像識別中的模型識別(Pattern Recognition)利用計算機和數學推理的方法對形狀、模式、曲線、數字、字符格式和圖形自動完成識別、評價的過程。
那么如何通過模型的學習提高OCR的智能判斷水平呢?我們主要從以下三個方面做了實踐研究。
1.采集識別優化
(1)二值化處理
二值圖像在數字圖像處理中占重要地位,其在處理實際圖像過程中地位更加突出。要應用二值圖像,掃描文檔之后的第一步就是對灰度圖像根據所選閾值進行二值化處理。二值圖像是像素值為0或255的像素點集合,如此一來,圖像的數據量大大減少,但圖像的基本輪廓信息得以保留。此項的關鍵是所選取的閾值是否得當,不當則會減弱二值圖像的處理效果。常用的閾值選取方法有固定閾值法、平均閾值法、直方圖法、Means法四種。
谷歌公司在HP公司Tesseract光學字符識別引擎的基礎上做了深度加工,其中對閾值的自適應分類器和兩步矯正法的應用大大提高了文本的識別效率。近幾年來,百度針對商業運用開發了自然場景OCR API服務,依托百度的OCR算法,提供了整圖文字檢測、識別、整圖文字識別、整圖文字行定位和單字圖像識別等功能。目前火熱的作業幫APP就是基于百度識別API做的延伸產品(如圖2)。
(2)圖像去噪與矯正
任何一幅原始圖像,在其獲取和傳輸的過程中,都會受到各種噪聲的干擾,使圖像質量下降,淹沒其特征,對圖像分析非常不利。為抑制噪聲、改善圖像質量所進行的處理被稱為圖像平滑或去噪。
圖像平滑是用于突出圖像的寬大區域和主干部分(低頻部分)或抑制圖像噪聲和干擾(高頻部分),使圖像平緩漸變,減小突變梯度,改善圖像質量的圖像處理方法。它屬于圖像增強的一部分,主要的圖像平滑方法有均值濾波、中值濾波、灰度形態學濾波、小波濾波、高斯低通濾波以及統計方法濾波。
已獲得的文本圖像有些不可避免地會發生傾斜,這樣會給后面文字的行切分和列切分以及文字的識別帶來困難,所以需要對獲取的圖像進行傾斜校正。圖像的傾斜校正最關鍵的是傾斜角的檢測,我們主要采用平行四邊形法進行文本圖像的校正(如圖3)。根據拍攝者給出的一系列文件位置點,用位置點的坐標結合模型擬合出文本線,根據文本線與水平線之間的差距進行精確恢復,以得到水平分布的文本行。
2.特征提取與建模
特征提取是圖像識別的重要步驟,為了保證后續處理的質量,生成的特征要具備描述物體的典型特性,如獨特性、完整性、幾何變換下的不變性、靈敏性以及抽象性。我們設計的系統的特征模型包括文字特征、圖片特征、公式特征等。
提取圖像特征關系可以有兩種方法:一是對圖像進行合理地分割,劃分出圖像中所包含的對象或區域,然后根據這些區域提取圖像特征,并建立索引;二是簡單地將圖像均勻地劃分為若干規則子塊,然后對每個圖像子塊提取特征,并建立索引。
圖像特征建模的基本原則是根據圖像的視覺內容和可獲得的指導信息來確定對應的文本語義描述。在圖像標注任務中會涉及兩種不同的媒體:一是圖像,二是文本。這兩種媒體具有良好的互補性,可以協作傳遞信息,正所謂“圖文并茂”。由這兩種媒體可以產生4種關系,即圖像間關系(IIR)、詞間關系(WWR)、由圖像到詞的關系(IWR)和由詞到圖像的關系(IR)。
3.基于標注模型的學習與訓練
我們通常采用兩兩圖像之間的視覺相似性(pairwise similarity)來建立以圖像為節點的相似圖,但這種方式由于沒有考慮到數據集或某個數據子集內的結構分布信息,效果不能令人滿意。因此我們引入了第二個以詞為節點的圖學習過程,用來實現對圖像標注的改善。
最常見的是屬性相關性,如“李白”是“古詩文”的關系。除此之外,詞匯之間還存在多種相關性,如“凸透鏡”與“光”之間有著很強的聯系,這種相關性不依賴于特定數據集,它是人們在生活中大量知識的積累和反映。當一幅圖像已被標為“凸透鏡”“光”等詞匯后,初中物理作為該圖像標注詞匯的概率就會相應提升。為了獲取這種相關信息,一種方法是從訓練數據集中利用已標注詞匯間的共生概率來計算詞匯間的關系。該方法基于已標注信息,相對準確,但它不能反映更廣義的人的知識。于是,我們可以采用另一種方法,利用具有大量詞匯的、包含了人的知識的結構化電子詞典來計算詞匯間的關系。與統計方法相比,詞典包括了更加完整的大數據關聯信息。由此我們設計了基于標注的模型學習體系(如下頁圖4),通過提取題目圖像的特征點綁定其隱形屬性,再與拍攝者提供的顯性屬性做比對,進行數據建模,并引導系統修正其三大特征庫(文字、圖片、公式),實現自我學習。
需要注意的是,基于標注信息描述由圖到標簽的關系,更適合按照多標記分類(multilabel classification)問題來解決。具體而言,假設標注詞匯服從多項式分布,由此將圖像標注歸為多類別分類問題,而題庫的分類方式恰恰符合這樣的多標記模型(相對固定是顯性標簽:學科、學段、知識點、章節、難度等)。
注意事項
1.基于API方式的接入能使產品得到快速開發
例如,當前百度通過專業服務分發平臺APIStore開放百度文字識別技術,讓開發者可以零成本使用基于移動應用的OCR技術,為開發者創新應用提供了更多的選擇。
2.題庫特征建模要考慮學科特征
實踐證明,文科和理科的題目有著截然不同的特征屬性,如語文更注重詞匯與語法方面的訓練,而數學包含了大量的公式和二維化的圖像。往往數學在小學和中學階段的題目也會表現出不同的特征屬性,在建模的同時要注意抽取。
3.未來的方向是要構建基于題庫圖像模型的題庫推送規則
當題庫的建構達到一定數量之后,我們要將圖像和翻譯成的題目都保存下來,再根據拍攝者的需求做相關的推送,根據其使用的情況(如點擊率、評價等)再對模型進行修正。
從目前的技術發展角度看,突破性來自于機器語言翻譯方面的研究成果:通過一種遞歸神經網絡(RNN)將一種語言的語句轉換成向量表達,并采用第二個RNN將向量表達轉換成目標語言的語句。而谷歌將以上過程中的第一種RNN用深度卷積神經網絡CNN取代,這種網絡可以用來識別圖像中的物體。此種方法可以實現將圖像中的對象轉換成語句,對圖像場景進行描述。概念雖然簡單,但實現起來十分復雜,科學家表示,目前實驗產生的語句合理性不錯,但還遠談不上“完美”,這項研究目前還處于起步階段。相信在不久的將來此項發明將應用于教學領域,那么基于云模式下的圖像識別系統將得到一個質的飛躍,它也將使圖像識別與深度學習更加緊密地聯系在一起,最終實現系統對互聯網上教育資源摘取和自學習的強大功能。
參考文獻:
[1]黃明明.圖像局部特征提取及應用研究[D].北京:北京科技大學,2016.
[2]劉淼,楊鎮豪,謝韻玲,謝冬青,唐春明.Android圖文同步識別系統的設計和實現[J].計算機工程與設計,2014(06).
[3]李龍卓.基于形狀特征的圖像檢索技術研究[D].青島:青島科技大學,2015.
[4]付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計算機工程與應用,2015(05).
篇7
論文摘要:當點擴展函數未知或不確知的情況下,從觀察到的退化圖像中恢復原始圖像的過程稱為圖像盲復原。近年來,圖像盲復原算法得到了廣泛的研究。本文在介紹了盲圖像恢復算法的現狀的基礎上進一步研究其的發展方向。
一、引言
圖像恢復是圖像處理中的一大領域,有著廣泛的應用,正成為當前研究的熱點。圖像恢復的主要目的是使退化圖像經過一定的加工處理,去掉退化因素,以最大的保真度恢復成原來的圖像。傳統的圖像恢復假設圖像的降質模型是己知的。而許多情況下,圖像的降質模型未知或具有較少的先驗知識,必須進行所謂的盲恢復。其重要性和艱巨性而成為一個研究熱點。目前所能獲取的觀測圖像是真實圖像經過觀測系統成像的結果。由于觀測系統本身物理特性的限制,同時受觀測環境的影響,觀測圖像和真實圖像之間不可避免地存在著偏差和失真,稱觀測系統對真實圖像產生了降質。圖像恢復的目的就是根據降質的觀測圖像分析和計算得出真實圖像。
二、圖像盲恢復算法的現狀
總體來說,圖像盲復原方法主要分為以下兩類:一是首先利用真實圖像的特別特征估計PSF,然后借助估計得到的PSF,采用經典的圖像復原方法進行圖像的復原。這類方法將PSF的估計與圖像的復原過程分為2個不同的過程,因而具有較少計算量的特點;二是PSF辨識和真實圖像估計相結合,同時辨識PSF和真實圖像。這類算法較為復雜,計算量較大。另外,對于點擴展函數也考慮了空間變化的復雜情況。針對目前的盲復原算法的現狀,根據退化模型的特點,重新將算法分為空間不變的單通道盲復原算法、空間不變多通道盲復原算法和空間變化圖像盲復原算法3類。
(一)單通道空間不變圖像盲復原算法
在這類算法中,最為常用的是參數法和迭代法。
1)參數法。所謂參數法,即模型參數法,就是將PSF和真實圖像用某一類模型加以描述,但模型的參數需要進行辨識。在參數法中,典型的有先驗模糊辨識法和ARMA參數估計法,前者先辨識PSF的模型參數,后辨識真實圖像,屬于第1種類型的圖像盲復原算法,因而計算量較小;后者同時辨識PSF和真實圖像模型參數,屬于第2種類型圖像盲復原算法。
2)迭代法。所謂的迭代法,不是通過建立模型而是通過算法的迭代過程,加上有關真實圖像和PSF的約束來同時辨識PSF和真實圖像的方法。迭代法是單通道
圖像盲復原算法中應用最廣泛的一類算法,它不需建立模型,也不要求PSF為最小相位系統,因而跟實際更為接近。在這類算法中,迭代盲復原算法(IBD),基于非負性和決策域的遞歸逆濾波器算法(NAR2RIF),基于高階統計特性的最小
熵算法等最為典型。
(二)多通道二維圖像盲復原
多通道二維圖像盲復原,這類方法將數字通訊領域應用的一維多通道盲原分離算法擴展到二維情況并用于圖像的盲恢復。這類算法中有兩種代數方法,一種是先辨識模糊函數,再采用常規的恢復算法進行復原;另一種是直接對逆濾波器進行估計。此類算法的優點在于不需對初始圖像進行估計,也不存在穩定性和收斂性問題,對圖像以及模糊函數的約束是松弛的,算法具有一般性。但是第1種算法要求采用復原算法具有收斂性;第2種算法對噪聲敏感。
(三)空間改變的圖像盲復原方法
在許多實際的應用中,模糊往往是空間變化的,但由于處理工作的難度,目前的研究較少,基本有相關轉換恢復和直接法兩類。
相關轉換恢復的基本思想是區域分割,即將整幅圖像分為若干局部區域,然后假設在各個局部區域模糊是空間不變的,利用空間不變的圖像復原有關算法進行復原。這類方法都是基于窗口的模糊辨識技術,圖像的估計取決于窗口的大小,由于模糊參數是連續變化的,在范圍較大時空間不變的假設是不成立的,因而模糊的估計精度較差,而且這種方法只能針對部分空間變化的模糊進行處理,缺乏通用性;其次在區域的邊上存在振鈴現象。
直接法的基本思想是直接對圖像進行處理。如采用簡化的二維遞推卡爾曼濾波器進行圖像模型和模糊模型的直接轉換方法,其缺點是只能針對有限的模型,而且模型數增加,計算量會顯著增大;采用共軛梯度迭代算法,但只見到一個31×31的文本圖像處理的結果報道,對于大圖像處理效果尚需進一步的研究;將空間變化圖像系統建立成馬爾苛夫隨機模型,對復原過程,采用模擬退火算法進行最大后驗估計的方法,這種方法避免了圖像的窗口化,并能克服模糊參數不連續性造成的影響,但這種方法只能局限于將模糊過程建立成單參數的馬爾苛夫隨機模型的情況,而且計算量也較大。
三、圖像盲恢復的應用前景
(1)現有算法的改進以及新的算法研究。現有各種算法還存在許多不足,有必要對算法進一步改進。如IBD算法中,如何選擇初始條件才能保證算法的收斂;如何選擇算法終止條件才能保證恢復的質量;如何選擇濾波器中的噪聲參數才能減少噪聲的影響。又如NAR2RIF算法中,如何進一步解決噪聲敏感問題,支持域的確定以及如何將算法擴展到非均勻背景的情況等。提出新的算法更好地解決圖像盲復原問題,也是今后研究的熱點。
(2)基于非線性退化模型的圖像盲復原算法。在實際應用中,嚴格來講,所有的退化模型都是非線性的。對模型采用線性化的方法進行近似處理,雖然算法簡單,但對非線性嚴重的情況處理效果并不理想。基于多項式以及神經網絡兩種參數模型處理非線性信號盲分離算法,算法擴展到二維圖像情況需要進一步研究。研究基于非線性退化模型的圖像盲復原算法也是下一步研究方向之一。
(3)去噪處理算法研究。加性噪聲的存在,使圖像的復原問題變成了一個病態問題,而且由于一般假設只知道噪聲的統計特性,因此要從退化圖像中完全去除噪聲是不可能的。另外,由于噪聲的存在,恢復的效果并不理想,結合降噪的圖像盲恢復的算法研究有很現實的意義,這方面也進行了部分工作。為克服噪聲的影響,一般采用先進行降噪,后進行復原;二是將降噪和復原同時進行這兩類方法。目前,大多數算法中將噪聲描述成高斯噪聲進行研究,在實際應用時有較大局限性。對于非高斯情況的研究采用基于噪聲的高階統計特性的去噪算法研究也是很重要的研究方向,也可采用其他類型的方法進行降噪,利用自組織映射的非線性獨立組件分析方法進行圖像降噪處理算法。
(4)實時處理算法。算法的的復雜性是制約算法應用的一個重要方面。可采用正則化的離散周期Radon變換的方法將二維的卷積轉化為一維進行處理,以提高算法的速度;也可采用神經網絡的實時處理算法。算法的實時性是算法實際應用的先決條件。
(5)應用研究。算法的應用是推動算法研究的動力。雖然圖像盲復原算法在天文學、醫學、遙感等方面獲得了較大的應用,但將算法應用到一般的工業圖像實時檢測、機器視覺、網絡環境下的圖像傳輸恢復、刑事偵破等方面還有大量的工作要做。
參考文獻:
[1]薛梅,楊綠溪.用于含噪二值圖像的改進NAS-RIF圖像盲復原算[J].數據處理.2006.17.(2).
篇8
2.有扭仿射李代數(g)[σ]-模范疇C的分類高永存,田亞男,GAOYong-cun,TIANYan-an
3.信息粗交流在價格形成機制中的作用研究昝廷全,趙永剛,ZANTing-quan,ZHAOYong-gang
4.基于截斷模型的收獲度的實證分析張輝,龍學鋒,ZHANGHui,LONGXue-feng
5.序列圖像的高精度面繪制方法劉宏,閔曙輝,LIUHong,MINShu-hui
6.一種改進的后散射型光電煤塵傳感器梁紅,王鳳簫,LIANGHong,WANGFeng-xiao
7.基于固定效應模型研究我國居民教育投資的差異性孫靖,張輝,SUNJing,ZHANGHui
8.NGB主要接入技術方案分析胡睿,彭濤,楊易,HURui,PENGTao,YANGYi
9.基于灰色相對關聯度的圖像邊緣檢測算法齊英劍,李青,吳正朋,QIYing-jian,LIQing,WUZheng-peng
10.MPEG幀轉換為DAB幀的研究與實現沈向輝,劉月萍,SHENXiang-hui,LIUYue-ping
11.基于用戶總體滿意度的遺傳任務調度算法王曉光,王永濱,楊曉剛,WANGXiao-guang,WANGYong-bing,YANGXiao-gang
12.多媒體語言實驗室的構建與應用詹群,朱兵,ZHANQun,ZHUBing
13.漏泄式音頻發射系統在聽力教學中的應用吳和敏,WUHe-min
14.高清攝像機技術參數規范研究王鴻濤,史萍,王世平,WANGHong-tao,SHIPing,WANGShi-ping
15.一族具有四階收斂的迭代算法姜亞健,劉停戰,劉偉,JIANGYa-jian,LIUTing-zhan,LIUWei
16.多聲道環繞聲傳聲器技術原理與應用俞锫,YUPei
1.質量概念的意義黃志洵,HUANGZhi-Xun
2.博弈論的粗集模型昝廷全,朱天博,ZANTing-quan,ZHUTian-bo
3.一種改進的基于支持向量機與波導理論的電磁參數提取方法研究肖懷寶,周建威,逯貴禎,夏禹,XIAOHuai-bao,ZHOUJian-wei,LUGui-zhen,XIAYu
4.預失真系統的采樣率和濾波器帶寬的設計張鵬,楊剛,楊霏,劉昌銀,ZHANGPeng,YANGGang,YANGFei,LIUChang-yin
5.MIMO-OFDM系統的一種新的半盲估計胡峰,李建平,劉瑞奇,HUFeng,LIJian-ping,LiuRui-qi
6.基于ARMLinux舞臺調光臺的研究與實現中國傳媒大學學報自然科學版 任慧,郭振華,董保華,林倩,RENHui,GUOZhen-Hua,DONGBao-Hua,LINQian
7.基于Matlab的OFDM仿真實現及性能分析王玲,逯貴禎,肖懷寶,WANGLing,LUGui-zhen,XIAOHuai-bao
8.BICM-ID系統的四維16QAM星座映射設計張華清,ZHANGHua-qing
9.CMTS雙下行信道的研究朱紅旭,劉劍波,ZHUHong-Xu,LIUJian-bo
10.環形地共面波導饋電的超寬帶天線設計郭慶新,李增瑞,居繼龍,GUQing-xin,LIZeng-rui,JUJi-long
11.時間頻率基準源的原理和設計楊剛,劉晉,YANGGang,LIUJin
12.新型斬控式正弦波舞臺調光器的研究與實現李真,董保華,任慧,郭振華,LIZhen,DONGBao-hua,RENHui,GUOZhen-hua
13.超窄帶調制技術與FM結合的雙模式傳輸付志躍,張華清,FUZhi-yue,ZHANGHua-qing
14.一種基于ARM-Linux的調頻廣播監測接收機的設計徐博堯,楊剛,XUBo-yao,YANGGang
15.研究生科技論文規范化的兩個問題王謙,WANGQian
16.證券印花稅調整對股市流動性及波動性影響的實證分析李文磊,楊茜,黃媛,張婭,LIWen-lei,YANGXi,HUANGYuan,ZHANGYa
1.微波衰減測量技術的進展黃志洵,曲敏,HUANGZhi-Xun,QUMin
2.制度邊界的粗集模型研究昝廷全,楊婧婧,ZANTing-quan,YANGJing-jing
3.EPON寬帶接入網DBA技術的研究帥千鈞,李鑒增,SHUAIQian-jun,LIJian-zeng
4.劇院HVAC系統噪聲評價方法研究蔣昭旭,任慧,蔣偉,張晶晶,JIANGZhao-xu,RENHui,JIANGWei,ZHANGJing-jing
5.BICM-ID系統的多維星座映射設計張華清,ZHANGHua-qing
6.DRM系統中電子節目指南信息編碼傳輸的研究與實現沈向輝,SHENXiang-hui
7.基于支持向量機與開口波導法的電磁參數提取方法研究肖懷寶,逯貴禎,李曉茹,XIAOHuai-bao,LUGui-zhen,LIXiao-ru
8.基于DAB的一種刪除卷積碼的編碼算法的仿真與驗證李鑫,鄧綸暉,LIXin,DENGLun-hui
9.TinyOS下的串口通信研究與實現劉宣旺,陳遠知,章必成,楊仕勇,LIUXuan-wang,CHENYuan-zhi,ZHANGBi-cheng,YANGShi-yong
10.適用于電場探頭的垂直腔面發射激光器的PSpice模型朱廣超,林金才,逯貴禎,王超,ZHUGuang-chao,LINJin-cai,LUGui-zhen,WANGChao
11.DRM開源軟件接收系統石東新,李朝暉,SHIDong-xin,LIZhao-hui
12.環境稅征收的博弈分析龍學鋒,黃媛,馬麗麗,李文磊,LONGXue-feng,HUANGYuan,MALi-li,LIWen-lei
13.運動模糊圖像復原技術的改進算法高文碩,鄭偉偉,楊磊,GAOWen-shuo,ZHENGWei-wei,YANGlei
14.LDPC碼在AWGN信道中的性能研究邵麗娜,史萍,駱超,SHAOLi-na,SHIPing,LUOChao
15.高標清信號上下變換的實現方法李鍵,LIJian
1.現代物理學中的負參數研究黃志洵,HUANGZhi-xun
2.國際貿易系統化水平研究昝廷全,陳國珍,應思思,ZANTing-quan,CHENGuo-zhen,YINGSi-si
3.K(m,n,1)方程的緊支集精確解朱永貴,吳聯仁,周瑩,王敏,ZHUYong-gui,WULian-ren,ZHOUYing,WANGMin
4.廣義Toroidal李超代數的不可約可積表示付佳媛,FUJia-yuan
5.PIN二極管在可重構天線中的作用的研究周彬,逯貴幀,ZHOUBin,LUGui-zhen
6.基于馬爾科夫隨機場的合成孔徑雷達圖像分割方法王玲,逯貴禎,肖懷寶,WANGLing,LUGui-zheng,XIAOHuai-bao
7.路由器緩存容量的分析研究張博,顏金堯,ZHANGBo,YANJin-yao
8.基于PeerCast的P2P流媒體系統鄭春浩,顏金堯,ZHENChun-hao,YANJin-yao
9.快速黑白圖像自動上色技術研究曾靚,楊盈昀,ZENGLiang,YANGYing-yun
10.基于DVB-T的OFDM系統的信道估計研究張華清,吳娛,ZHANGHua-qing,WUYu
11.網絡不良視頻信息過濾系統的研究與實現謝志揚,史萍,XIEZhi-yang,SHIPing
12.基于FPGA的PCI接口中的DMA傳輸模塊設計胡南,鄧綸暉,HUNan,DENGLun-hui
13.基于五株全相位采樣提升小波的圖像融合孫壽燕,張彬,SUNShou-yan,ZHANGBin
14.中國傳媒大學學報自然科學版 移動多媒體廣播系統中LDPC編碼器的設計與實現尹航,胡志強,肖如吾,YINHang,HUZhi-qiang,XIARu-wu
1.消失態與Goos-H(a)inchen位移研究黃志洵,HUANGZhi-Xun
2.雙重分解法及其與Adomian分解法的比較潘平,朱永貴,PANPing,ZHUYong-gui
3.一種實現IBOC數字音頻廣播系統中復用技術的方法周敏,李建平,宋金寶,ZHOUMin,LIJian-ping,SONGJin-bao
4.關于相對論中的質量和動量張操,TSAOChang
5.DVB.S信號干擾Matlab仿真研究劉凱,陳遠知,LIUKai,CHENYuan-zhi
6.OFDM系統峰均比壓縮技術的研究智慧川,曾志斌,ZHIHuic-huan,ZENGZhi-bin
7.基于WSN與RFID的智能倉庫管理系統設計章必成,劉宣旺,陳遠知,楊仕勇,ZHANGBi-cheng,LIUXuan-wang,CHENYuan-zhi,YANGShi-yong
8.一種基于H.264的快速運動估計算法吳小敏,徐偉掌,WUXiao-min,XUWei-zhang
9.模擬退火算法研究混合結構吸波材料特性肖懷寶,逯貴禎,關亞林,XIAOHuai-bao,LUGui-zhen,GUANYa-lin
10.證券交易印花稅對股市波動性影響的實證研究肖延慶,龍學鋒,李文磊,XIAOYan-qing,LONGXue-feng,LIWen-lei
11.基于DRO耦合技術的S頻段低噪聲振蕩源的設計研究王三川,WANGSan-chuan
12.MPEG-4實時編碼的Cache算法優化胡志強,HUZhi-qiang
13.基于DMB-TH的LDPC碼性能分析張華清,ZHANGHua-qing
14.基于PML和有限元法求解二維時諧散射問題康彤,陳濤,涂中華,趙孟洲,KANGTong,CHENTao,TUZhong-hua,ZHAOMeng-zhou
1.論單光子研究黃志洵,HUANGZhi-Xun
2.手機輻射生物效應的量子理論研究李旸,逯貴禎,LiYang,LuGui-zhen
3.數目可變多目標的實時跟蹤馬艷,王京玲,劉劍波,MaYan,WangJing-Ling,LiuJian-bo
4.基于EM算法的MIMOOFDM系統信道估計胡高平,程艷,HuGao-ping,ChengYan
5.二進制與非二進制Turbo碼性能研究駱超,史萍,LUOChao,SHIPing
6.DAB復用系統中數據服務器的設計與實現孟祁,沈向輝,MENGqi,SHENXiang-hui
7.基于嵌入式Linux的Web遠程繼電器控制系統的設計實現丁天然,王樂,DINGTian-ran,WANGLe
8.SlaveFIFO模式下CY7C68013和FPGA的數據通信馬俊濤,李振宇,MAJun-tao,LIZhen-yu
9.基于均值漂移的SAR圖像分割方法研究逯貴禎,王玲,肖懷寶,LUGui-zhen,WANGLing,XIAOHuai-bao
10.廣播電視輿情分析研究宋金寶,柴劍平,闞锎,SONGJin-bao,CHAIJian-ping,KANKai
11.室內電波傳播預測與實驗研究王宜穎,林金才,逯貴禎,曾冬冬,劉子菡,WANGYi-ying,LINJin-cai,LUGui-zhen,ZENGDong-dong,LIUZi-han
12.基于PSO-BP算法的微帶天線諧振頻率神經網絡建模董躍,田雨波,DONGYue,TIANYu-bo
13.演藝燈光網絡控制系統設備識別機制的研究白石磊,任慧,蔣偉,劉榮,蔣玉暕,BAIShi-lei,RENHui,JIANGWei,LIURong,JIANGYu-jian
14.中國傳媒大學學報自然科學版 數學離散選擇模型實證研究雙語課程教學模式張輝,謝秋霞,ZHANGHui,XIEQiu-xia
篇9
1影像組學的定義及方法概述
隨著醫學影像技術及成像手段的快速發展,所產生的醫學圖像數據量也越來越大,對圖像獲取和存儲方面的質量控制,使得規范化、多模態的影像大數據集的建立成為可能。過去處理及使用小樣本量圖像數據的方法和模式,顯然不能對圖像的大數據信息進行充分的挖掘和利用。荷蘭學者Lambin于2012年首次提出了影像組學(Radiomics)的概念[9],作為一種新興的利用醫學影像大數據對疾病進行定量分析預測的方法,可以從醫學圖像中獲得更多客觀定量、肉眼難以鑒別的影像學特征,再將其轉換為可挖掘的高維數據信息,從而實現圖像到數據的轉換[10,11]。通過大量的自動化數據特征化算法的使用,影像組學能有效實現圖像的采集與重組、病灶的分割及勾畫,并通過對病灶影像組學特征的提取與篩選,最終完成影像組學模型的建立[11,12]。近些年來,影像組學已廣泛應用于不同疾病的研究之中,在疾病檢測、診斷、鑒別診斷及預后評估方面發揮著越來越重要的作用。此外,深度學習(Deeplearning)等人工智能技術的突破性發展,減少了傳統影像組學人工提取數據特征的步驟,極大地縮短了從病灶影像組學特征提取到最終影像組學模型建立的時間,進一步促進了影像組學技術在醫學圖像處理等諸多領域的應用研究。
2影像組學在肝臟非腫瘤性病變中的研究進展
2.1肝纖維化及肝硬化的診斷評估
肝纖維化是各種慢性肝病發展為肝硬化或肝癌的過渡階段,主要是由含大量膠原蛋白的細胞外基質(extracellularmatrix,ECM)過度沉積于肝小葉周圍所引起,這些過度沉積的ECM阻礙正常肝細胞與血液間的物質交換,并最終引起肝細胞的的壞死、變性,從而誘發了肝纖維化等一系列的慢性肝損傷的過程。組織學上肝纖維化及部分肝硬化經治療后可逆[14],因此早期精準地評估肝纖維化程度對于患者的治療及預后十分重要。作為診斷是否存在肝纖維化和評估肝纖維化分期的“金標準”的肝活組織穿刺檢查有創、可重復性差,并且肝纖維化的不均質性、穿刺活檢樣本量較少等因素,均會影響肝纖維化分期的準確性[13,14]。影像組學作為一種無創性的方法,可以對肝纖維化及肝硬化程度進行更加準確的評估。Park等[7]回顧性搜集436例不同肝纖維化患者的釓塞酸二鈉增強MRI圖像并構建影像組學肝纖維化指數模型,通過與肝活檢結果對比并內部驗證剔除相關性較低的特征,最終建立與肝纖維化分期相關性較高的模型,進行前瞻性驗證后發現其診斷F2~F4、F3~F4級肝纖維化及F4級肝硬化的敏感度和特異度分別為71%、78%,79%、82%,92%、75%;表明基于釓塞酸二鈉增強掃描肝膽期圖像的影像組學分析能較為準確地進行肝纖維化的診斷及分期。Wang等[15]搜集12個臨床醫學中心,398例患者共1990幅超聲二維剪切波彈性成像圖像,采用深度學習算法之一的卷積神經網絡(convolutionneuralnetwork,CNN)建立了超聲彈性成像深度學習影像組學模型,并以肝活檢作為金標準進行模型診斷效能的評估,結果顯示該模型可顯著提高對肝纖維化分期的準確性,其對肝硬化(F4)、晚期纖維化(≥F3)和顯著性纖維化(≥F2)診斷的曲線下面積(AUC)值分別高達0.97、0.98和0.85,表現出極佳的診斷效能。有研究[16]采用紋理分析的方法對212例不同病理分期肝纖維化患者和77名志愿者肝臟多層螺旋CT圖像進行分析后發現,隨著肝纖維程度的逐步加重,由紋理分析所獲得的峰度和偏斜度是逐步減低的,而平均灰度強度、熵則表現為依次增高,在區分不同分期肝纖維化和肝硬化時均顯示出較高的診斷效能,特別是在診斷肝硬化(≥F4)時,峰度和偏斜度的診斷的AUC值分別為0.86、0.87,表明紋理分析不僅有助于檢測肝纖維化的存在,還可用于肝纖維化的分期。綜上所述,基于多種成像手段所構建的影像組學模型對肝纖維化及肝硬化均表現出較高的評估診斷效能,故影像組學的發展,可能為臨床上早期發現、及時準確評估肝纖維化及肝硬化程度提供幫助,但基于不同成像手段所建立的影像組學模型間性能差異的研究,有待進一步的探索。
2.2門靜脈高壓及GOV破裂出血風險的評估
肝硬化失代償期常伴隨門靜脈高壓癥的出現,其嚴重程度與肝硬化所導致的相關并發癥如GOV、肝性腦病、腹腔積液等密切相關,因此,準確地評估門靜脈高壓程度十分重要。但是,目前評估門靜脈壓力變化的金標準肝靜脈壓力梯度(hepaticvenouspressuregradient,HVPG)為有創檢查、且費用較高,不利于臨床常規開展[17,18]。GOV破裂出血是晚期肝硬化最常見、最嚴重的并發癥,也是患者死亡的主要原因,相關研究顯示近50%門靜脈高壓癥患者可出現GOV,在肝功能C級的患者中,GOV出現概率高達85%,食管胃十二指腸內鏡是診斷GOV的“金標準”[19],主要通過觀察內鏡下GOV的范圍、程度及“紅色征”等進行出血風險的評估,但內鏡檢查對于GOV程度嚴重的患者可重復性差。影像組學的出現,為門靜脈高壓及GOV破裂出血風險的無創性評估提供了新的選擇。Liu等[20]基于222例不同程度門靜脈高壓患者的增強CT圖像構建了臨床顯著性門靜脈高壓(clinical-lysignificantportalhypertension,CSPH)的非侵入性影像組學模型,并通過4個外部驗證隊列中163例患者,對該模型的診斷性能進行了前瞻性檢驗,結果顯示該模型不僅在內部驗證集中診斷CSPH的AUC值高達0.849,在4個外部前瞻性驗證隊列中,該模型診斷CSPH的AUC值也分別高達0.889、0.800、0.917、0.827,提示該影像組學模型可作為無創檢測肝硬化CSPH的一種準確方法。Yang等[21]通過分析兩個臨床醫學中心共295例乙肝肝硬化患者的肝臟三期增強CT圖像,從門靜脈期CT圖像提取出21個與GOV出血關系密切的影像組學特征,并結合了3個臨床特征(性別、門靜脈高壓、門靜脈栓子有無),建立了用于預測乙肝肝硬化患者繼發GOV出血的CT影像組學模型,結果表明該影像組學模型的預測效能明顯優于臨床模型(AUC0.83vs0.64),對于GOV破裂出血的預測,在訓練隊列與驗證隊列中,該模型預測的準確率分別為76%、73%,是一種有效預測GOV破裂出血的無創性方法。此外,還有研究[22]基于169個門靜脈高壓患者的CT圖像,建立了一個肝、脾特征聯合的影像組學模型,并對62例接受GOV治療的患者進行了驗證隊列研究,結果表明該模型不僅可以用于門靜脈高壓的診斷,還可用于GOV出血復發風險的預測,以29.102mmHg為最佳截斷值時,相應的AUC可高達0.866,提示該影像組學模型可作為無創、精準預測繼發于門靜脈高壓癥的GOV治療效果的有效的參考指標。影像組學無創、可重復性強,在門靜脈壓力及GOV出血風險的評估中潛力巨大,但模型預測效能的穩定性及泛化能力,仍需進一步的臨床研究進行證明。
2.3肝臟儲備功能的評估
肝臟儲備功能狀態的準確評估,關乎肝病患者,尤其是肝癌患者治療方式的選擇及預后[23]。Child-Pugh分級評分系統是臨床應用最廣泛的肝臟儲備功能評分標準,但Child-Pugh分級具有高度的變異性,易受患者膽汁排泄、門靜脈栓子形成等因素的影響,從而影響臨床工作中對患者肝臟儲備功能評估的準確性[24,25]。影像組學通過高通量的提取和處理圖像信息,可以對疾病進行更準確、更全面的評估。Simp-son等[26]對12例接受大范圍肝切除術后并發肝功能不全和24例未出現肝功能不全患者的術前CT圖像進行紋理分析,發現術后并發肝功能不全患者術前CT上肝實質的質地明顯不同,術后并發肝功能不全者不僅對稱性較差,均勻性也較差,并且兩組患者紋理特征之一的熵值間也存在顯著的差異,故從術前CT圖像中提取的紋理特征,可用于預測患者術后肝功能衰竭發生概率,可作為提供術前風險分層的另一種手段。Zhu等[27]基于101例患者的術前釓塞酸二鈉增強MRI圖像,使用影像組學的方法從肝膽相圖像中提取了61個影像組學特征,并最終篩選出5個影像組學特征用于建立術前預測肝癌患者術后肝功能的影像組學模型,其結果表明該模型對于預測術后肝功能衰竭發生概率具有良好的預測效能,模型預測的AUC值高達0.894,可用于預測肝硬化患者肝大部切除術后的肝功能衰竭。Zhou等[25]通過100例不同肝臟儲備功能肝硬化患者釓塞酸二鈉增強MRI肝膽期圖像所建立的評估肝臟儲備功能的列線圖預測模型,在預測肝臟儲備功能方面,也顯示出良好的效能,在訓練集及驗證集中,其預測肝臟儲備功能Child-PughB+C級患者的AUC值分別為0.88和0.86。影像組學在肝臟儲備功能評估中具有一定的價值,但不同病因患者間肝臟儲備功能影像組學特征間是否存在差異,以及所建立評估肝臟儲備功能模型的泛化能力,還有待進一步的研究。
2.4與肝臟腫瘤性病變的鑒別診斷
肝臟局灶性病變良惡性的準確判斷,對于臨床治療方式的選擇及患者的預后來說十分重要。但部分非腫瘤性病變和腫瘤性病變、良性腫瘤性病變和惡性腫瘤性病變之間影像學表現存在交叉,易出現誤診。影像組學能深度挖掘醫學影像圖像的影像特征信息,從而降低對肝臟局灶性病變的誤診率。Suo等[28]通過紋理分析的方法對20例肝膿腫患者及26例肝臟惡性腫瘤患者的增強CT圖像分析后發現,紋理特征之一的熵值能較為準確區分肝膿腫與肝臟惡性腫瘤,其診斷的靈敏度與特異度分別為81.8%、88.0%,AUC值高達0.888。Nie等[29]基于55例非肝硬化肝局灶性結節增生患者和101例肝癌患者的CT影像資料,從增強CT圖像中進行病灶勾畫后提取了4227個影像組學特征,通過降維方法將其縮減為10個影像組學特征,并聯合性別、年齡,病灶大小、形狀、中央瘢痕征有無等主觀評價條件構建了一個用于鑒別診斷肝臟局灶性結節增生與肝癌的影像組學模型,結果顯示該模型在訓練集及驗證集區分兩者的AUC分別高達0.979和0.917,具有良好的預測效能。而鐘熹等[30]對31例患者肝硬化結節常規T2WI序列進行紋理分析的結果之中,紋理參數如對比度、逆差距,能量、相關性、熵值均具有統計學意義,能有效進行小肝癌及局灶性增生的鑒別診斷。有研究[31]運用機器學習算法之一的隨機森林算法,通過獲取動脈期CT圖像紋理特征及性別、年齡等臨床特征,建立了肝臟富血供病變類別的預測模型,結果顯示其診斷肝腺瘤、局灶性結節增生及肝細胞癌的準確率分別為91.2%、94.4%、98.6%。以上結果提示:影像組學對肝臟非腫瘤性病變及腫瘤性病變有較強的鑒別診斷效能,能顯著提高肝臟局灶性病灶的影像診斷準確率。
3肝臟非腫瘤性病變影像組學的挑戰與展望
- 上一篇:建筑垃圾管理工作總結
- 下一篇:幼兒園消防培訓計劃