漢字識別范文10篇
時間:2024-02-05 01:33:25
導語:這里是公務員之家根據多年的文秘經驗,為你推薦的十篇漢字識別范文,還可以咨詢客服老師獲取更多原創文章,歡迎參考。
漢字識別研究論文
1主要研究
1.1字形屬性對漢字識別的影響
受西方已有研究理論的影響,長期以來關于漢字識別的加工單元也有兩種觀點:一是認為識別漢字要先對筆畫、部件等漢字的字形特征進行分析,然后將分析的結果整合從而識別整字。那么,在漢字識別過程中就會存在筆畫數效應、部件數效應等。二是認為識別漢字直接以整字為單元,強調字形知覺的整體性。到80年代末90年代初,已有許多研究表明在漢字的視覺識別過程中,要經過特征分析[1]。近10年以來,漢字識別的特征分析觀點得到了更多的研究結果的驗證:首先是采用不同的方法證實了筆畫數效應的存在。如喻柏林等[2]采用命名識別法,發現在2至15畫的范圍內,漢字的命名反應時隨筆畫數的增加呈臺階狀上升趨勢;張武田等[3]發現在高頻字當中存在筆畫數效應;彭聃齡等[4]采用命名作業和真假字判斷作業也發現有顯著的筆畫數效應。其次是發現部件因素對漢字識別的影響。有研究發現了啟動部件對合體漢字識別的影響[5],提示漢字的部件作為單個結構反復認讀,有可能成為漢字識別的加工單元之一,而且比筆畫更符合簡約的原則。張武田等[3]、彭聃齡等[4]的研究結果進一步證實了部件數效應的存在。
不僅部件的數量影響漢字識別,研究證明部件頻率(即在合體漢字中出現的次數)也是影響漢字識別的因素之一,但其作用受到整字頻率和結構類型的影響[6]。黎紅等[7]的研究也發現,在速示條件下,部件頻率影響漢字識別的準確性,而且部件頻率對漢字識別的作用模式與刺激字及其組成部分的空間排列有關。
在漢字的構造部件之間還存在不同的組合以及組合頻率。采用整字識別和整合識別等實驗任務的研究表明,部件組合與部件有類似的頻率效應,而且部件組合頻率的作用也受到正字頻率和結構類型的影響[8]。第三是證實了結構方式效應的存在。喻柏林、馮玲等[9]和喻柏林、曹河圻[10]在不限時呈現整字條件下,分別令被試對雙部件和單部件做命名反應,結果一致發現存在結構方式效應,命名上下字的反應時要明顯長于左右字的部件。陳傳鋒、黃希庭[11]進一步研究發現了結構對稱性效應,識別結構對稱性漢字的加工明顯快于非對稱性漢字,而且這種結構對稱性效應在低頻字中起作用,而在高頻字當中不起顯著作用;在多筆畫字中起作用,在少筆畫字中不起顯著作用。
獨體字直接由筆畫構成,不存在部件這一結構層次,而且許多獨體字本身就是構成合體字的部件。那么在對獨體字進行認知加工時,是必須經過特征分析還是直接以整字為單元?肖崇好等人[12]將獨體字中除去點、鉤、提、短的橫豎撇捺以外的其它筆畫作為該漢字的框架筆畫,把每個獨體字的結構分為框架結構和非框架結構。研究結果發現,在速示條件下,獨體漢字的識別從識別筆畫開始,經提取框架結構后,才完成識別過程。與“框架結構”的觀點相類似,沈模衛,朱祖祥[13,14]研究結果也表明,在含有十或口的獨體漢字中,十與口是該類漢字的突出視覺特征的理論。這些結果表明對獨體字的加工也經過特征分析。
淺析漢字識別技術檔案管理
關鍵字:技術方式檔案圖像利用信息數據文本目錄漢字識別
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
漢字識別技術應用研究論文
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領。這對于在檔案部門占有相當比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
漢字識別技術在檔案管理工作中應用論文
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領。這對于在檔案部門占有相當比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
檔案文本數據開發信息資源應用分析論文
編者按:統籌考慮檔案狀況、人員配備、經費能力、辦公自動化水平、檔案現代化建設發展規劃等方面的因素,本文通過漢字識別技術的應用價值、漢字識別后生成的文本數據的屬性問題以及漢字識別技術的應用方式三個方面來探討切實提高檔案信息資源開發利用能力。
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值
漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
檔案目錄數據錄入論文
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領。這對于在檔案部門占有相當比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
文本檔案數據屬性問題分析論文
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領。這對于在檔案部門占有相當比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
二、漢字識別后生成的文本數據的屬性問題。
原始性是檔案的基本屬性。漢字識別后生成的文本數據是根據檔案的本源信息,即固定在紙質載體上的漢字信息進行加工處理:掃描、識別、校對、修改等工序后形成的復制加工品,因此不具有檔案的原始性。
普及漢字識別提高檔案信息資源開發論文
編者按:本文主要從漢字識別技術的應用價值;漢字識別后生成的文本數據的屬性問題;漢字識別技術的應用方式進行論述。其中,主要包括:把紙質檔案上的固定信息變成可以被檢索利用的活信息、精神文明和物質文明的建設都有著非常重要的利用價值、提供了一種新的檔案目錄數據的錄入方式、原始性是檔案的基本屬性、知識性是檔案的又一個屬性、漢字識別后生成的文本數據是一種不同于傳統檔案屬性的新型檔案信息、方便用戶,可減少信息利用過程中的重復勞動、輸入檔案目錄、掃描、保存圖像并提供利用、建立文本數據庫、輸入目錄并保存圖像、保存圖像、建立文本件數據等,具體請詳見。
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值
漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
檔案技術管理論文
漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。
一、漢字識別技術的應用價值漢字識別技術的應用價值主要體現在兩個方面:
一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術的應用價值就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領。這對于在檔案部門占有相當比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
科學家建國60周年優秀征文
一條大河,歷經幾千年,流淌的盡是漢字。
甲骨文的波紋、金文的漣漪、篆書的漩渦、隸書的浪花……沿路講述著倉頡造字的傳說,傳頌著中華民族博大精深、源遠流長的文明。
漢字起源于中原,但漢字沒有國界邊陲。在歷史上,越南、朝鮮和日本都曾經用漢字記錄他們的語言。越南的本國文字——字喃,是以漢字為基礎創制出來的;韓國至今使用的還是漢字和韓字(即諺文)的混合體文字;已在世界占據重要地位的日本文字目前仍保留有1945個簡體漢字。將漢文化和漢字象種子一樣撒向歐洲、美洲、非洲等世界各地的,其功績莫過于張騫兩通西域、唐朝“對外開放”,以及鄭和七下西洋。
國興則漢字熱,國衰則漢字冷。新中國成立后,漢字飽嘗“世態炎涼”,才又開始活躍起來。進入二十一世紀,中國日益強盛,經濟實力排名世界第三,綜合國力排名世界第四,漢文化和漢字也隨之風靡世界。據國家漢辦主任許琳介紹,到目前,全世界已有81個國家建立了256所孔子學院和58所孔子課堂。世界著名大學中有44所大學建立了孔子學院。此外,還有40多個國家150多個學校和機構已經提出申請設立孔子學院,到2010年孔子學院將多達500所。同時有109個國家、3000多所高等學校開設了漢語課程。全世界學習漢語的人數,已經超過了4000萬。美國3年前只有200所學校開漢語課,到現在已經發展到1000多所,并提出了到2015年5%的高中生要學漢語的目標。作為英語發源地的英國,幾乎所有的大學都或多或少地開設了漢語課;開設漢語課程的中小學數量,已從2002年的57所增加到目前的近500所。
隨著南極長城站、中山站、昆侖站和北極黃河站等科學考察站的相繼建立,漢字便同五星紅旗一起在冰天雪地,荒無人煙的極地落戶。從此,地球的每片土地上都生長著漢字。
活字印刷讓漢字廣泛傳播。但漢字在科技世界的游刃有余,則是在新中國以后,尤其是改革開放的三十多年。1975年國家科技發展規劃748工程的啟動,推動和產生了我們今天使用的漢字操作系統、漢字應用軟件和各種漢字輸入輸出設備,徹底掃除了“中文不適于信息處理”的障礙。從1981年漢字激光照排系統樣機研制成功到后來的廣泛使用,我國的印刷出版業告別“鉛與火”、進入“光與電”時代,漢字活力與日俱增。隨著漢字操作系統、漢字編輯排版系統、漢字識別系統、手寫漢字輸入系統、機器翻譯系統的不斷創新和換代,漢字在計算機的王國里進出自由,沒有禁區。