我國語料庫的研究歷史分析論文

時間:2022-10-03 04:54:00

導語:我國語料庫的研究歷史分析論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

我國語料庫的研究歷史分析論文

語言學的研究必須以語言事實作為根據,必須詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結論。傳統的語言材料的搜集、整理和加工完全是靠手工進行的,這是一種枯燥無味、費力費時的工作。計算機出現后,人們可以把這些工作交給計算機去作,大大地減輕了人們的勞動。后來,在這種工作中逐漸創造了一整套完整的理論和方法,形成了一門新的學科——語料庫語言學(corpuslinguistics),并成為了自然語言處理的一個分支學科。

語料庫語言學主要研究機器可讀自然語言文本的采集、存儲、檢索、統計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風格分析、自然語言理解和機器翻譯等領域中的應用。多年來,機器翻譯和自然語言理解的研究中,分析語言的主要方法是句法語義分析。因此,在很長一段時間內,許多系統都是基于規則的,而根據當前計算機的理論和技術的水平很難把語言學的各種事實和理解語言所需的廣泛的背景知識用規則的形式充分地表達出來,這樣,這些基于規則的機器翻譯和自然語言理解系統只能在極其受限的某些子語言(sub-language)中獲得一定的成功。為了擺脫困境,自然語言處理的研究者者們開始對大規模的非受限的自然語言進行調查和統計,以便采用一種基于統計的模型來處理大量的非受限語言。不言而喻,語料庫語言學將有可能在大量語言材料的基礎上來檢驗傳統的理論語言學基于手工搜集材料的方法所得出的各種結論,從而使我們對于自然語言的各種復雜現象獲得更為深刻全面的認識。

本文首先簡要介紹國外語料庫的發展情況,然后,比較詳細地介紹中國語料庫的發展情況和主要的成績,使我們對于語料庫研究得到一個鳥瞰式的認識。

一、國外語料庫概況

現在,美國Brown大學建立了BROWN語料庫(布朗語料庫),英國Lancaster大學與挪威Oslo大學與Bergen大學聯合建立了LOB語料庫。歐美各國學者利用這兩個語料庫開展了大規模的研究,其中最引人注目的是對語料庫進行語法標注的研究。他們設計了基于規則的自動標注系統TAGGIT來給布朗語料庫的100萬詞的語料作自動標注,正確率為77%.他們還設計了CLAWS系統來給LOB語料庫的100萬詞的語料作自動標注,根據統計信息來建立算法,自動標注正確率達96%,比基于規則的TAGGIT系統提高了將近20%.最近他們同時考察三個相鄰標記的同現頻率,使自動語法標注的正確率達到99.5%。這個指標已經超過了人工標注所能達到的最高正確率。

現在,國外的主要語料庫還有:

London-Lund口語語料庫:收篇目87篇,每篇5000詞,共為43.4萬詞,有詳細的韻律標注(prosodicmarking)。

AHI語料庫:美國Heritage出版社為編纂Heritage詞典而建立,有400萬詞。

OTA牛津文本檔案庫(OxfordTextArchive):英國牛津大學計算中心建立,有10億字節。

BNC英國國家語料庫(BritishNationalCorpus):1995年正式,使用TEI編碼(TextEncodingInitiative)和SGML通用標準置標語言的國際標準(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。

ACL/DCI美國計算語言學學會數據采集計劃:美國計算語言學學會(TheassociationforComputationalLinguistics,ACL)倡議的數據采集計劃(DataCollectionInitiative,DCI),其宗旨是向非贏利的學術團體提供語料,以免除費用和版權的困擾,用標準通用置標語言SGML統一置標,以便于數據交換。

LDC語言數據聯合會(LinguisticdataConsortium):設在美國賓州大學,實行會員制,有163個語料庫(包括Text的以及speech的),共享語言資源。

RWC日語語料庫:日本新情報處理開發機構RWCP研制,包括《每日新聞》4年的全文語料,語素標注量達1億條。

亞洲各語種對譯作文語料庫:日本國立國語研究所研制,中野洋主持,北京外國語大學參加。

為了推進語料庫研究的發展,歐洲成立了TELRI和ELRA等專門學會。TELRI是跨歐洲語言資源基礎建設學會(Trans-EuropeanLanguageResourcesInfrastructure)的首字母縮寫,JohnSinclair擔任主席,由歐洲共同體提供經費,其目的在于建立歐洲諸語言的語料庫,現已經建成柏拉圖(Plato)的《理想國》(Politeia)多語語料庫,建立了計算工具和資源的研究文檔TRACTOR(ResearchArchiveofComputationalToolsandResources),正在語料庫的基礎上建立歐洲語言詞庫EUROVOCA。TELRI每年召開一次Seminar。最近的一次Seminar在Lubljana,(Slovenia)召開(22.September–26.September.2000),主題是從語料庫中自動抽取知識(Automaticknowledgeextraction)。ELRA是歐洲語言資源學會(EuropeanLanguageResourcesAssociationi)的首字母縮寫,由Zampolli擔任主席,ELRA負責搜集、傳播語言資源并使之商品化,對于語言資源的使用提供法律支持。ELRA建立了歐洲語言資源分布服務處ELDA(EuropeanLanguageresourcesDistributionAgency),負責研制并推行ELRA的戰略和計劃。ELRA還組織語言資源和評價國際會議LREC(LanguageResources&EvaluationCongress),每兩年一次。第一次會議于1998年在西班牙的Grenade舉行;第二次會議在Athens(Greece)召開(31.May–02.June.2000),第三次會議于2002年在西班牙的LasPalmasdeGranCanaria召開(27.May–02.June2002)。

二、我國語料庫的發展概況

(一)早期的漢語語料庫

1、我國語料庫研究的先河

在我國,從20世紀20年代開始,就有學者建立文本的語料庫,采用統計的方法來研究漢字的頻率,其目的在于制定基礎漢字的字表。當然,這樣的語料庫不是機器可讀的,規模也很小,它是現代語料庫的雛形,開我國語料庫研究的先河,在我國語料庫的發展史上是功不可沒功的。著名教育學家陳鶴琴為了教學的目的,在對語料統計的基礎上,編寫了《語體文應用字匯》,于1925年完成,于1928年由商務印書館出版,陳書前有“緒論”,說明“中文應用字匯”曾有多種,其中包括P.克侖茨(PastorP.Kronz)的研究和他自己的編寫的《常用四千字表》。陳鶴琴做過兩次統計,第一次統計使用了六種材料,包含554,478個漢字的語料,得不同漢字4261個;第二次使用包含34,818個漢字的語料,得出與4261個漢字相異的漢字458個。第二次統計所得的成果毀于戰火,在《語體文應用字匯》中印出的只是第一次統計的結果。

陳鶴琴用的語料分如下六類:

兒童用書:127,293字;

報刊(以通俗報刊為主):153,344字;

婦女雜志:90,142字;

小學生課外作品:51,807字;

古今小說:71,267字;

雜類:60,625字。

書末附有“字數次數對照表”,這是按漢字在語料中出現的絕對頻率排列的字表。

我國著名教育家陶行知先生為《語體文應用字匯》寫了序言。序言中說:“他們(指“近代教育家”)對于一門一門的功課,甚至一篇文章,一個算題,一項運動,都要依據目標去問他們的效用。他們的主張是要所學的,即是所用的。......到了后來他們連學生學的字也要審查起來了。學生現在所學的字,個個字都是有用的字嗎?自從這個問題發生就有好幾位學者開始研究應用字匯。我國方面也有幾位先生研究這個問題,其中以陳鶴琴先生的研究最有系統。他和他的助理九人先后費了二三年工夫,檢查了幾十萬字的語體文,編成這本《語體文應用字匯》。這冊報告未付印以前已經做了《平民千子課》用字的根據。將來小學課本用字當然也可以拿他來做一個很好的根據。雖然不能十分完備,但我想這本字匯對于成人及國民教育一定是有很大的貢獻的。”(見陳鶴琴《語體文應用字匯》,商務印書館,1928年)。

2、早期的機器可讀語料庫

從1979年以來,中國就開始進行機器可讀語料庫的建設,早期在中國建立的主要的機器可讀語料庫有:

漢語現代文學作品語料庫(1979年),527萬字,武漢大學。

現代漢語語料庫(1983年),2000萬字,北京航天航空大學。

中學語文教材語料庫(1983年),106萬8千字,北京師范大學。

現代漢語詞頻統計語料庫(1983年),182萬字,北京語言學院。

我們以北京語言學院的漢語詞頻統計語料庫來說明早期語料庫的情況。

1979年,北京語言學院(現在改名為“北京語言文化大學”)針對對外漢語教學的特點,把“現代漢語詞匯統計研究”作為重點科研課題,開始進行規模較大的漢語單詞的頻率統計研究。

這項研究工作,采用人工與計算機相結合的方式,對179篇樣文、182萬字的語料進行了詞語切分、詞頻統計和數據分析的工作,統計的總詞匯量為1,315,752詞次,含不同單詞31,159個,其中包括十年制語文課本(52萬字,374,654詞次)的字頻和詞頻的定量分析,統計結果編成《現代漢語頻率詞典》出版。

他們選取的語料可以分為如下四類:

報刊政論:44萬字,占語料總量的24.4%。

科技和科普文章:29萬字,占語料總量的19.8%。

口語材料:20萬字,占語料總量的11.1%。

文學作品:89萬字,占語料總量的48.7%。

整個語料共182萬字。這樣容量的語料,在當時已經是比較大的語料庫了。

根據數理統計的原理,所統計的語料的總體個數必須達到一定足夠的數量,才能保證統計結果符合客觀實際。《現代漢語頻率詞典》的編者認為,如果常用詞的出現頻率不低于百萬分之一,也就是在一百萬次的場合,常用詞的出現機會至少應該有一次,就可以保證統計結果的客觀性。《現代漢語頻率詞典》實際上統計了182萬個漢字的語料,因此,其抽樣是合理的、經濟的、適度的。

但是,國外在1971年進行英語詞頻統計時,所用語料量有5,088,721個詞,包含不同單詞86,741個,統計規模比《現代漢語頻率詞典》大得多。由于語料庫語言學的發展,語料庫的容量不斷擴大,現在,數千萬詞甚至于數億詞的語料庫已經不算少見。與當前語料庫的容量比較起來,《現代漢語頻率詞典》所依據的語料規模是小了一些。不過,盡管這樣,《現代漢語頻率詞典》在詞頻統計方面取得的成績仍然是很大的。

這次詞頻統計得出了如下詞表:

1、按字母音序排列的頻率詞表:共列出常用詞16,593個,按音序排列,從中可以看出:

漢語中以Z、S、J、Y開頭的詞較多:以Z開頭的詞有1457個,占8.78%;以S開頭的詞有1327個,占7.99%;以J開頭的詞有1243個,占7.49%;以Y開頭的詞有1205個,占7.26%。

漢語中以E、O開頭的詞很少:以E開頭的詞只有64個,占0.38%;以O開頭的詞只有13個,占0.07%。

2、按頻率遞減的順序排列的詞表:在詞表中,最常用詞的使用頻率相當高,前100個詞占了語料總量的40%以上,前500個詞占了語料總量的70%以上,前2562個詞占了語料總量的85%,詞表共有不同單詞31,159個,這些詞占了語料總量的100%。從前100個詞到前500個詞,不同的單詞數增加了400個,百分比就增加了30%,而從前2562個詞到前31,159個詞,不同單詞數增加了30,597個,百分比材增加了15%。由此可見,高頻詞對于百分比的增加有著很大的作用,而低頻詞對于百分比的增加,其作用是微乎其微的,往往要大量的低頻詞,才能使百分比增加一點點。

3、按使用度遞降順序排列的詞表:

使用度是1954年尤蘭德(Juilland)和洛德西蓋(Chang-Rodsiguez)在計算西班牙語的詞匯頻率時提出的一個新概念,他們并且也提出了計算使用度的數學公式,根據這個使用度公式計算出的使用度,可以綜合地反映單詞在出現頻率和分布率兩方面的情況。

他們根據使用度的計算公式,計算了單詞的使用度,并給出了按使用度遞降順序排列的詞表。這個詞表又分為兩個表:使用度較高的前8000詞的詞表,使用度較低的詞語單位表。

在使用度較高的前8000詞的詞表中,使用度在20以上的詞共4186個,其詞次累計占了全部語料(314,404詞次)的90.1%。這說明,《現代漢語頻率詞典》所統計的語料中,有十分之九是用這4186個詞寫成的,這些詞可以成為“常用詞”的候選對象。

在使用度較低的詞語單位表中,收入了使用度為5及小于5的詞22,446個,這些詞一般也都是低頻詞。在這種情況下,如果有的詞的使用度和頻率相匹配,則說明這些詞的分布還是比較均勻的,這些詞可以作為“通用詞”的候選對象。

4、按語體分類的高頻詞表,又可再分為4個表:

a.報刊政論語體的前4000詞的詞表:本表共統計34種語料,29萬詞次(44萬字),有不同詞條數12,107個。前4000個詞累計頻率94.77%。其中一些政治詞語,如“唯心、黨派”等,在本表中出現頻率都比較高,反映了政論語體的特點。

b.科普語體的前4000詞的詞表:本表共統計21種語料,20萬詞次(29萬字),有不同詞條12,364個。前4000個詞累計頻率92.27%。其中一些科技用語,如“纖維、合成”等,在本表中出現頻率都比較高,反映了科普語體的特點。

c.生活口語中前4000詞的詞表:本表共統計18種語料,16萬詞次(20萬字),有不同詞條8263個。前4000個詞的累計頻率為96.65%。從統計數字可以看出,口語語體的用詞量比前兩種語體要少三分之一,但高頻詞出現的詞次卻相當多,前1000個高頻詞的出現頻率比a表高出6%,比b表高出12%。這意味著,口語語體的用詞量雖然不大,但是它們的出現次數對語料的覆蓋面卻相當大。

d.文學作品類前4000高頻詞的詞表:本表共統計106種語料,66萬詞次(89萬字),有不同詞條23,622個。前4000個高頻詞累計頻率為90.63%。這說明文學作品的用詞量大,但是為了追求用詞的多樣化,即使是高頻詞的出現頻率也比較低,這反映了文學作品詞匯豐富多采的特點。

早期的這些語料庫的具有如下特點:

①多數是采用手工鍵入的方式建立的,耗時耗力,缺乏規范,規模較小,重用性差。為了建設這樣的語料庫,需要付出艱辛的勞動,著名專家劉源教授(北京航空航天大學計算機系教授)在2000萬字的語料庫建設中積勞成疾,健康受到嚴重的損害。我國語料庫的早期建設者的敬業精神是值得我們尊敬的。

②發現了漢語文本切分歧義的兩種類型:北航和北語的語料庫進行了詞頻統計,北航還進行了自動分詞研究,發現了兩種不同的分詞歧義字段(AmbiguousSegmentationStrings,ASSs):交集型歧義字段和多義組合型歧義字段。

交集型歧義切分字段:例如:“地面積”可能切為“地面”或“面積”,“面”成為交段,從而產生歧義。

多義組合型歧義切分字段:例如:“馬上”本身是一個詞,但也可以切為“馬”+“上”兩個單詞,而“馬上”與“馬”+“上”的含義不同。

梁南元(1987)對一個48092字的自然科學、社會科學樣本進行了統計:交集型切分歧義518個,多義組合型切分歧義42個。據此推斷,中文文本中切分歧義的出現頻度約為1.2次/100字,交集型切分歧義與多義組合型切分歧義的出現比例約為12:1。

③建立了初步的分詞規范:1990年10月,在計算機界和語言學界的共同努力下,我國制定了國家標準GB-13715《信息處理用現代漢語分詞規范》,這個國家標準提出了確定漢語單詞切分的原則,是漢語書面語自動切詞的重要依據。

(二)國家級語料庫的建設

1991年,國家語言文字工作委員會開始建立國家級的大型漢語語料庫,以推進漢語的詞法、句法、語義和語用的研究,同時也為中文信息處理的研究提供語言資源,計劃其規模將達7000萬漢字,當時宣稱,這將成為世界上最大的漢語語料庫。這個語料庫是均衡語料庫。其語料要經過精心的選材,語料的選材應受到如下限制:

①時間的限制:語料描述具有歷時特征,著重描述共時特征。選取從1919年到當代的語料(分為5個時期),以1977年以后的語料為主。

②文化的限制:主要選取受過中等文化教育的普通人能理解的語料。

③使用領域的限制:語料由人文與社會科學類、自然科學類和綜合類3大部分,人文和社會科學再分為8大類29小類,自然科學再分為6大類,綜合類再分為2大類。主要選取通用的語料,優先選取社會科學和人文科學的語料。

這個語料庫現在只完成了2000萬字語料的輸入和校對工作,尚未進行進一步的加工,還是“生語料庫”,因而還不能提供社會使用。由于主要靠手工錄入,人工勞動的成本很高,據說單是建立生語料庫,耗資約200萬人民幣。

為了加工這個國家級語料庫,國家社科基金設立了社科重大項目“信息處理用現代漢語詞匯研究”,希望利用該項目的成果來加工這個語料庫。該課題分10個子課題:

①信息處理用現代漢語分詞詞表

②歧義切分與專有名詞識別軟件

③詞的構造研究

④現代漢語詞類及標記集規范

⑤漢語詞類兼類研究

⑥現代漢語的語法屬性描述研究

⑦現代漢語述語動詞機器詞典和槽關系研究

⑧漢語知識詞典建立及詞匯內部語義網絡描述研究

⑨漢語文本短語結構的人工標注

⑩常用動詞語義特征及詞義搭配研究

現在,該課題已經結項,國家語委語言文字應用研究所成立了“漢語語料庫深加工”的課題組,準備對國家級語料庫的2000萬字的核心語料進行深加工,逐步把這個生語料庫變為熟語料庫。

(三)大規模真實文本語料庫

1992年以來,大量的語料庫在中國研究中文信息處理的單位建立起來,語料庫成為了研究中文信息處理的基本語言資源。沒有語料庫的支持,中文信息處理的研究將會寸步難行。建設大規模真實文本語料庫的單位有:《人民日報》光盤數據庫,北京大學計算語言學研究所,北京語言文化大學,清華大學,山西大學,上海師范大學,北京郵電大學,香港城市理工大學,東北大學,哈爾濱工業大學,中國科學院軟件研究所,中國科學院自動化所,北京外國語大學日本學研究中心,臺灣中央研究院語言研究所(籌備處)。下面分別加以介紹。

1、《人民日報》光盤數據庫

收集該報48年的全部文字和圖像內容,公開發行。

2、北京大學計算語言學研究所

該研究所建立了現代漢語標注語料庫,與富士通公司(Fujitsu)合作,加工2700萬字的《人民日報》語料庫,加工項目包括詞語切分、詞性標注、專有名詞(專有名詞短語)標注。還要對多音詞注音。

示例1:古城/n雖/c遭/v破壞/v,/w但/c它/r留下/v了[le5]/u契丹族/nz和[he2]各[ge4]/r民族/n,/w特別/d是/v漢族/nz勞動/vn人民/n共同/d開拓/v祖國/n北疆/s,/w創造/v我國/r歷史/n文明/n的[de5]/u足跡/n。/w

示例2:19970310-01-002-0020/m[全國/n人大/j]nt代表/n、/w[陜西/ns西安/ns美術/n學院/n]nt名譽/n院長/n劉/nr文西/nr利用/v會議/n休息/vn時間/n創作/v了/u鄧/nr小平/nr畫像/n《/w與/p人民/n同/d在/v》/w。/w畫像/n表現/v了/u鄧/nr小平/nr同志/n祝愿/v祖國/n繁榮/a、/w人民/n幸福/a的/u偉大/a胸懷/n。/w(/w新華社/nt記者/n齊/nr鐵硯/nr攝/v)/w

示例3:19970310-01-003-0020/m世紀/n之/u交/Ng,/w中華/nz民族/n正/d迎來/v前所未有/i的/u發展/vn機遇/n。/w十幾/m年/q來/f,/w改革/v開放/v的/u不斷/d深入/v,/w黨/n的/u民族/n政策/n的/u貫徹/vn落實/vn,/w全國/n人民/n的/u大力/d支援/v,/w使/v我國/r民族/n地區/n經濟/n和/c社會/n發展/vn步伐/n大大/d加快/v。/w加倍/d珍視/v和/c繼續/vd發展/v這種/r好/a的/u局面/n,/w鞏固/v發展/v各/r民族/n大/a團結/an,/w成為/v全國/n各族/r人民/n的/u共同/b愿望/n,/w也是/v在/p京/j參加/v“/w兩會/j”/w的/u代表/n和/c委員/n的/u一致/a心愿/n。/w

經富士通公司檢驗,標注的正確率很高。

他們制訂《現代漢語語料庫加工手冊——詞語切分與詞性標注》。切分規范中,主要規定現代漢語的切詞原則,即什么樣的漢字組合可以為一個切分單位。他們采用切分和標注相結合的原則來建立規范,在漢語中,像“雙音節動詞+單音節名詞”通常構成新的名詞,對于這個新的名詞,即使在詞典中沒有登錄,也應該把它們處理為一個切分單位。因此,在該規范中,給出了一些基于詞性描述的構詞規律,規定了什么樣的組合可以處理為一個切分單位,并給出了新組合的詞的詞性標記。在標注規范中,規定了一般詞性的標注規范和專有名詞的規范。

此外,他們還建立了一個小型漢語樹庫:與新加坡國立大學計算機系合作,內容為新加坡中學語文教材(1995年),所有的句子都分析為樹形圖。

示例:

[zj[dj富士山/n[vp是/v[np日本/n的/u[np[mp一/m座/q]活火山/n]]]]。/w][zj[fj[fj[dj山峰/n[vp終年/d積雪/v]],/w[dj云霧/n圍繞/v]],/w[vp只有/d[vp[pp在/p[np[dj空氣/n干燥/a]的/u[np[np秋/n冬/n][np兩/m季/Ng]]]],/w[vp才/d[vp能/v[vp[vbar看/v清/a][np它/r的/u全貌/n]]]]]]]。/w]

[zj[fj[dj[np[vbar多/d變/v]的/u氣候/n],/w[vp更/d[vp[pp為/p它/r][vp[vbar增添/v了/u][np神秘/a的/u色彩/n]]]]],/w[vp甚至/d[vp使/v它/r[vp[vbar孕育/v了/u][np許多/m[np美麗/a的/u神話/n]]]]]]。/w]

[zj[dj[np富士山/n的/u景色/n],/w[dj四季/t不同/a]]。/w]

[zj[fj[fj[fj[fj春天/t,/w[fj[dj山頂/s[vp還/d[vp[vbar戴/v著/u][np雪/n帽子/n]]]],/w[fj[dj[dj[np山腰/n的/u雪/n][vp卻/d溶化/v]]了/y],/w[fj[dj[np細碎/a的/u[np小/a花/n]][vp開遍/v山坡/n]],/w[vp[vbar遠/a看/v][vp象/v[np[mp一/m片/q][np紫色/n的/u海洋/n]]]]]]]],/w[fj夏天/t,/w[fj[dj[np[np殘/Vg雪/n]與/c[np山/n花/n]][vp倒映/v[sp湖/n中/f]]],/w[vp充滿/v詩情畫意/n]]]],/w[fj秋天/t,/w[fj[dj[np[np[np滿/a山/n]紅葉/n]與/c[np雪/n影/Ng]]輝映/v],/w[vp象/v[np個/q[np嬌羞/a的/u姑娘/n]]]]]],/w[fj[dj冬天/t[dj則/c[vp是/v[np[ap純/a白/a]的/u[mp一/m片/q]]]]],/w[ap莊嚴/a而/c圣潔/a]]]。/w]

北大語料庫研究的特色是:

①規模大:加工成的熟語料已經達到2000萬字,不久將達到2700萬字,國內尚無先例。

②加工深:不僅做了切分和詞性標注,而且部分語料還進行了短語結構分析,建立了樹庫。在大規模的語料庫中,地名和專有名詞都進行了短語結構標注。

③覆蓋面廣:人民日報的語料不僅包括新聞,還包括各種題材、各種風格、各種語體的文章,涉及社會科學和自然科學多種領域,有很廣泛的覆蓋面。

④正確率高:在自動加工的基礎上進行了大量的人工加工,采用人機結合的策略,是語料庫加工的正確率達到了國內最高水平,在國際上也是罕見的。

⑤無著作權糾紛:與《人民日報》達成協議,沒有著作權問題。

、北京語言文化大學

該校計算機系宋柔在遠景校對系統的研究、開發和測試過程中一直注重采用大規模真實語料進行各種語言現象的統計、分析、檢索、歸納。為此,他們與一些報社、出版社合作,收集、整理了一批綜合性、規范性的電子文檔資料,建立了一個大型的中文語料庫(共約5億字)。在獲取語料后,又專門用工具軟件或人工加工清理了語料,分別建立了10個語料庫。各語料庫情況如下:

《當代中國叢書》:150卷(約6千萬漢字)

《中華人民共和國年鑒》:1997年語料(約200萬漢字)

《新聞出版報》:1988年語料(約260萬漢字)

《輝煌五十年湖南卷》:1949-1999年語料(約70萬漢字)

《人民日報》:1993-2000年七年語料(約2億字)

《人民日報市場報》:2000年語料(約1400萬漢字)

《人民日報華南新聞:2000年語料(約600萬漢字)

《人民日報華東新聞》:2000年語料(約500萬漢字)

《經濟日報》:1992年語料(約1820萬字)

《新華社》:1994-1996年三年語料(約3793萬字)

宋柔還建立了面向語言學研究的漢語語料庫檢索系統CCRL,可以讓用戶使用自己的生語料庫和詞典生成語料索引,進行檢索。

此外,北京語言文化大學還建立了如下的語料庫:

當代北京口語語料庫(1992年)

現代漢語語法研究語料庫(1995年)

現代漢語句型語料庫(1995年)

現代漢語語料庫(1998年,與香港理工大學中文及雙語學系聯合建立)

現代漢語語料庫(1998年,與清華大學聯合,為國家自然科學基金重點項目“語料庫語言學研究的理論、方法和工具”而建立)

4、清華大學

該大學也建立了現代漢語語料庫:1998年建立了1億漢字的語料庫,著重研究歧義切分問題。現在生語料庫已達7-8億字。

他們對于分詞技術進行了深入研究,發現了偽歧義,提高了分詞精度:計算機系孫茂松、左正平(1998)指出,切分歧義應進一步區別“真切分歧義”和“偽切分歧義”。譬如:同屬交集型,“地面積”為真歧義(“這幾塊|地|面積|還真不小”“地面|積|了厚厚的雪”),“和軟件”則為偽歧義(雖然存在兩種不同的切分形式“和軟|件”和“和軟|件”,但在真實文本中,無一例外地應被切分為“和|軟件”);同屬組合型,“把手”為真歧義,“平淡”則為偽歧義。

他們還編制了信息處理用現代漢語分詞詞表,作為分詞最重要的語言資源。

中文系羅振聲建立了現代漢語句型研究語料庫,從中總結出209種漢語句型。

清華大學智能技術與系統國家重點實驗室與北京語言文化大學語言信息處理研究所聯合研發的人工標注語料庫HuaYu。這個語料庫區別于其它類似語料庫的特點:是:分布平衡,不僅僅限于新聞報紙。

HuaYu的分布見表1:

分類篇數漢字數比例標點符號數詞次數比例

文學295880,05744%148,453760,33748%

新聞376600,49030%86,163438,09528%

學術29402,62320%52,823278,72818%

應用文258119,4886%28,72791,9296%

合計9582,002,658100%316,1161,569,089100%

表1HuaYu語料庫的分布

其中文學語料的分布見表2:

分類篇數漢字數百分比標點符號數詞次數

小說199648,79632.5%112,749566,730

散文3780,0674%10,34765,453

回憶錄2950,4012.5%6,90838,338

報告文學1350,0192.5%8,22540,386

劇本1750,7742.5%10,22449,430

合計295880,05744%148,453760,337

表2文學語料的分布

他們對這個語料庫進行了切分和標注。

語料示例如下:

我|rn認識|vgn王眉|npc的|usd時候|ng,|,她|rn十|mw三|mx歲|qnm,|,我|rn二|mx十|mw歲|qnm。|。那時|t我|rn正|dr在|pza海軍|ng服役|vgi,|,是|vi一|mx條|qns掃雷艦|ng上|f的|usd三七|ng炮手|ng。|。她|rn呢|y,|,是|vi個|qng來|vgn姥姥|ng家|ng度假|vgi的|usd中學生|ng。|。那|rn年|qt初夏|t,|,我們|rn載|vgn著|utz海軍|ng學校|ng的|usd學員|ng沿|pg漫長|a海岸線|ng進行|vf了|utl一|mx次|qv遠航|vgx。|。到達|vgn了|utl北方|s著名|a良港|ng兼|vgn避暑|vgp勝地|ng,|,在|pza港|ng外|f和|pg一|mx條|qns從|pg南方|s駛來|vgi滿載|vgn度假者|ng的|usd白色|ng客輪|ng并行|vgi了|utl一|mx段|qns時間|ng。|。進|vgn港|ng時|ng我|rn艦|ng超越|vgn了|utl客輪|ng,|,很|dd親近|a的|usd擦|vgn舷|ng而|c過|vgi。|。興奮|a的|usd旅游者|ng們|ki紛紛|dr從|pg客艙|ng出來|vgi,|,擠|vgi滿|a邊舷|ng,|,向|pg我們|rn揮|vgn手|ng呼喊|vgi,|,我們|rn也|dr向|pg他們|rn揮|vgn手|ng致意|vgi。|。

清華大學智能技術與系統國家重點實驗室最近對HuaYu完成了語塊庫人工標注(200萬漢字左右),并根據句子中動詞類型和句子長度等因素,從中隨機選取了20萬詞,進行語塊標注,并進一步完成了完整的句法樹標注。

語塊標注示例如下:

[從/p[他/rN的/u身上/s],/,[我們/rN[看/v到/vB]了/u][一/m位/qN][跨越/v[中國/nS{CS近代/t和/c現代/t}的/u[共產主義/n戰士/n][光彩照人/iV的/u楷模/n]。/。]

句法樹標注示例如下:

[zj[dj[pp從/p[sp他/rN的/u身上/s]],/,[dj我們/rN[vp[vp[vp看/v到/vB]了/u][np[np[mp一/m位/qN][np[vp跨越/v[tp中國/nS[tp近代/t和/c現代/t]]]的/u[np共產主義/n戰士/n]]][np光彩照人/iV的/u楷模/n]]]]]。/。

5、山西大學

他們根據不同的需要,建立如下不同的語料庫,主要有:

漢語新聞語料庫(1988年),250萬字,山西大學,包括4部分:《人民日報》:150萬字,《北京科技報》:20萬字;《電視新聞》(CCTV):50萬字;《當代》(雜志):30萬字。

標準語料庫(2000年):.以分詞規范和語委詞類標記集為標準的綜合語料:70萬字,其中10萬字標到了小類。

特定加工的語料:

--標注中國地名:標注了280萬字的語料庫(含不同地名1793個,共出現11590次),建立中國地名庫,共收88026個地名,同時建立中國地名用字庫(3685個)和中國地名用詞庫(3917個)。地名識別正確率為86.7%,召回率為93.8%。

--標注中國人名:標注了300萬字的語料庫,建立了姓氏人名庫,得出了姓氏用字頻率表(729個)和名字用字頻率表(3345個),中國人名識別的正確率為87.31%,召回率為95.23%。

--標注西文譯名:標注了250萬字的語料庫,西文譯名資源來自《英語姓名譯名手冊》和《新英漢詞典》的《常見英語姓名表》,正確率為63%,召回率為98%。。

--標注中文組織機構名:標注了50萬字的語料庫,對組織機構名的結構進行分析,使用基于規則的方法。

--標注網上語料新詞語:標注了150萬字的語料庫。

為了標注交集型歧義字段,建立了7.8萬字的交集型歧義字段庫,已標注510萬字語料,分詞正確率達97%以上,同時證實了交集型歧義字段只有惟一可能的正確切分結果的偽歧義,占歧義字段總數的94%。

他們還建立多義組合型歧義字段庫:收錄了133條多義組合型歧義字段,比較全面的反映了組合型歧義字段的實際情況。

6、上海師范大學

該校建立了3000萬字的生語料庫;根據北大的標注規范建立了300萬字的標注語料庫。他們還建立了100萬字《作家文摘》的標注語料庫,選取1997年的《作家文摘》,題材包括傳記文學、歷史故事、記實文學、人物特寫、小說、散文、評論等,依靠手工進行標注,不僅完成了切詞和詞性標注,還完成了短語結構關系和結構功能的標注。加工層次深。

標注示例:

[zw他/rp[db[zc期望/vz著/ut]vp[db打/vs[dz[sl一/mx個/qi]mp[dz[zc漂亮/ax的/us]np[dz大/ax勝戰/ng]np]np]vp]vp]jp。/w

其中的zw(主謂結構)、db(動賓結構)、dz(定中結構)、sl(數量結構)等都是結構功能的標記。

7、北京郵電大學的樹庫

他們在美國LDC的漢語句法樹庫的基礎上進行自動獲取語法規則的研究。LDC的樹庫包含新華社1994到1998年的325篇文章,包含4185顆樹,10萬個詞。他們對LDC樹庫進行了改造,語法規則和分析模型參數都是通過LDC樹庫統計和訓練得到。在抽取規則之前,進行了如下的預處理工作:

刪除所有空的單詞;

去掉所有的非終結符的功能標記;

去掉哪些只有一個孩子結點,且此孩子結點是非終結符的結點。

在此基礎上進行規則的自動獲取,采用改進的CYK算法自動獲取了3690條規則,形式如下:

parent_symbol|current_symbol->RHS1….RHSnlog_probability

比如:NP|NP->NNNNNN-0.879602

8、哈爾濱工業大學機器翻譯實驗室(MT-Lab)的漢語語料庫

容量約1GB。

9、香港城市理工大學的對比語料庫

該大學語言資訊科學研究中心建立了LIVAC(LinguisticvarietyinChinesecommunities)語料庫,其宗旨在于研究使用中文的各個地區使用語言的異同。這個語料庫從1993年開始策劃,在香港、澳門、上海、新加坡和臺灣五個不同的地區,每日選定一天的報紙摘錄其部分資料入庫,資料的內容包括社論、第一版的全部新聞和文章、國際版、地方版、特寫、評論等。每天收集的份量約兩萬字,如果已經達到兩萬字,不太重要的資料就只好割愛。從1995年7月到1997年6月的兩年內,該語料庫所收集的資料總字數為15,234,551字,經過自動切詞和人工校對之后總詞數約為8,869,900詞。

統計結果表明,中文各地區所使用的詞語,以雙音節為最多,其次是三音節,再其次是四音節,再再其次是單音節,但是,單音節詞語的使用頻度卻比較高,僅次于雙音節詞語的頻度,而且遠遠超出其他音節詞語頻度之總合。

統計結果還表明,香港和澳門的用詞相同率最高,香港與臺灣、香港與新加坡的用詞相同率居第二,香港與上海的用詞相同率最低。從歷史背景和社會情況來看,這個數字是可以接受的。因為香港與澳門距離很近,又都長期被歐洲國家管制,香港與臺灣和新加坡的商務情況和社會結構之間的相同點都比香港與上海之間多,這種情況,在詞語中必定會反映出來。

統計結果還表明,新加坡所用詞語比較少,而上海的特有詞語比較多,這似乎可以從新加坡華語并非當地社會生活的唯一語言,而上海在中國的特殊地位和經濟活動非常活躍有關。

10、臺灣的語料庫

臺灣建立了平衡語料庫(SinicaCorpus,中央研究院)和樹圖語料庫(SinicaTreebank,中央研究院)。兩個都是標記語料庫,有一定加工深度。語料庫規模約500萬字。

(四)口語語料庫

1、中國社會科學院語言所

他們建立了現代自然口語語料庫,包括一個旅館預定口語語料庫,搜集了2小時電話的對話,對話人數200人以上,進行韻律切分和句法標注,是wav文件,用SAMPA-C標音,C-ToBI2.0標注韻律,并轉寫成漢字文本;還包括一個無限制的自然對話語料庫:14.2小時的對話,對話人數22人,進行韻律切分和句法標注,是wav文件,用SAMPA-C標音,C-ToBI2.0標注韻律,并轉寫成漢字文本。

語言所還正在建立現代漢語方言自然口語語料庫,設計了1500種引導話題和多種采集自然口語的交際環境,其中,采用話題引導的方式采集的話題語料占60%,在說話人不知道的情況下現場采集的口語語料占40%。

2、中國科學院自動化所

該所建立了一個旅游咨詢口語對話語料庫和一個旅館預定口語對話語料庫,可以用于限定領域的口語理解模型、口語對話管理模型、基于統計的口語翻譯技術等研究。

(五)雙語語料庫的建設

1、英漢雙語語料庫

北大計算語言學研究所的雙語語料庫,英漢對齊的句子已有5萬多對,并開發了相應的對齊工具和雙語語料庫管理軟件。正在此基礎上做漢英對照短語庫,預計規模將達數十萬條。

哈爾濱工業大學的英漢雙語語料庫:1998年有3萬句子對,已經進行了詞性標注,正在擴充為40-50萬句子對,在句子、短語、詞匯三級實現雙語對齊。

東北大學的英漢雙語語段庫:在雙語語料庫基礎上,建造雙語語段庫,1999年構造了10萬雙語語段庫,進行了基于語段的英漢機器翻譯實驗,正在以“機獲人校”的辦法建造100萬雙語語段庫,擬擴充到500萬雙語語段庫,進一步建造具有1000萬語段的大容量網上英漢語段電子詞典,研究電子詞典中搭配短語獲取算法,建造大容量網上電子英漢搭配詞典。

外語教學與研究出版社:

--英漢文學作品語料庫

--馮友蘭《中國哲學史》漢英對照語料庫

--李約瑟(JoselfNeedham)《中國科學技術史》英漢對照語料庫

國家語言文字工作委員會語言文字應用研究所建立了英漢雙語語料庫,其中包括一個計算機專業的雙語語料庫和一個柏拉圖(Plato)哲學名著《理想國》(Politeia)的雙語語料庫。在這些雙語語料庫上,他們進行了漢字極限熵的測定和雙語對齊的研究。

中國科學院軟件研究所的英漢雙語語料庫:進行雙語對齊算法研究。現有15萬對英漢雙語對齊句子庫,已經切分和標注。

中國科學院自動化研究所的英漢雙語語料庫:購買LDC香港新聞英漢雙語對齊語料36294段以及香港法律英漢雙語對齊語料31萬句子對,并從英漢雙解詞典中摘取例句25000個句子對。

2、日漢對譯語料庫

北京外國語大學的北京日本學研究中心建立漢語和日語并行語料庫,內容以中日文學名著為主,兼收劇本、散文、政論文,原文和譯文全文收錄,部分名著收入多個譯本。2000萬字。進行自動切分和詞性標注,部分文本進行語法和語義標注,采用SGML國際標準。

3、德漢雙語語料庫

山東海洋大學語言文學院研制的《蝴蝶》(王蒙小說)德漢對照語料庫,用于德漢翻譯對比研究,完全采用手工方式排比語料,主要比較了漢語的“了”與德語動詞完成式的關系。規模很小。

4、漢日英分類熟語料庫

復旦大學計算機系建立了容量為1GB漢日英分類熟語料庫,包含數千個類別,數十萬篇文章。

(六)少數民族語言語料庫

1、維吾爾語語料庫

新疆師范大學建立了200萬詞的維吾爾語語料庫,擬發展到300萬詞。

2藏語語料庫

中國社會科學院民族研究所建立了500萬藏語字符的藏語語料庫,擬進行切分和標注的研究。

3、蒙古語語料庫

內蒙古大學建立了蒙古語語料庫,進行了初步的切分和標注。

三、語料庫的加工技術

(一)自動切分

在自動切分方面,提出的切分歧義技術有:“松弛法”(FanC.K.,TsaiW.H.1988),“擴充轉移網絡”(黃祥喜1989),“短語結構文法”(梁南元1990;姚天順、張桂平等1990;YehC.L.,LeeH.J.1991;韓世欣、王開鑄1992),“專家系統”方法(徐輝、何克抗等1991),“神經網絡”方法(徐秉錚、詹劍等,1993),“有限狀態自動機”方法(SproatR.,ShihC.Letal.1996),“隱Markov模型”(LaiB.Y.,SunM.S.etal1997;沈達陽、孫茂松等1997a;孫茂松、左正平等1999),“Brill式轉換法”(PalmerD.D.1997)等。

此外還研究了人名識別技術、地名識別技術、機構名識別技術、新詞語識別技術。

(二)自動標注

在自動標注方面,基于規則的方法主要解決標注中的兼類詞問題;基于統計的方法主要有CLAWS算法、VOLSUNGA算法、HMM(隱馬爾可夫模型)、TBED法(Transformation-BasedError-Driven,EricBrill于1993年提出的方法)

(三)自動短語結構標注

短語結構標注的結果,可以用短語結構語法樹(P-Tree)來表示,也可以用依存樹(D-Tree)來表示,有的系統采用了從P-Tree到D-Tree的轉換技術,有的系統采用CYK算法進行短語結構分析。

(四)雙語對齊技術

主要采用基于長度的方法、基于詞典的方法以及把這兩種方法結合起來的混合方法。

四、語料庫建設中的若干問題

(一)語料庫的規范與標準

我國中文信息界從1988年開始研制《信息處理用現代漢語分詞規范》的國家標準,根據科學性、嚴謹性、穩定性、通用性、實用性和完整性(規范對現代漢語語言現象的覆蓋率應該達到99%以上),經過三年時間的研究,七易其稿,于1992年批準為國家標準,標準號為GB/T13715-92。這個規范的主體結構分為主題內容與適用范圍、引用標準、術語、概述和具體說明五個部分。由于漢語中語素、單詞和詞組的界限不夠清晰,分詞規范中除了基本上采用了《暫擬漢語教學語法系統》中詞的定義,把詞定義為“最小的獨立運用的語言單位”之外,還特別地提出了“分詞單位”的概念,把“分詞單位”定義為“漢語信息處理使用的具有確定的語義或語法功能的基本單位”,并且指出,分詞單位“包括本規范限定的詞和詞組”。“分詞單位”的提出,巧妙地避開了關于詞的定義的爭論,協調了當時學術界的矛盾。

我國還研制了《信息處理用現代漢語常用詞表》。由于漢語語言現象的極端復雜性,幾乎每條規則都會出現例外,因此,分詞規范提出了“結合緊密,使用穩定”的原則作為判定一個符號串是否可以作為分詞單位的準則。但是,這個原則不夠具體,實行起來往往見仁見智,從而造成不同系統中分詞單位的不一致。所以,后來有的學者建議在規范之外,還應該根據規范提出一個詞表來作進一步具體的說明,以利規范的實施。采用“規范+詞表”的策略,這是很有遠見的做法。1994年,該規范的主要制定者劉源教授等人根據現代漢語詞頻統計的結果,公布了一個《信息處理用現代漢語常用詞表》,收詞43570條,可惜,這個詞表對于規范中的一些難點,仍然沒有作出很好的處理,權威性不夠。

臺灣研制了一個《資訊處理用中文分詞規范》。臺灣的計算語言學會在1995年提出了《資訊處理用中文分詞規范》,這個規范提出三條基本原則:1.分詞單位必須符合語言學理論的要求;2.在信息處理上確實可行;3.能確保真實文本處理的一致性。另外還制定了一些輔助原則(合并原則、切分原則),以決定合并還是切分。該規范按照分詞的難易程度,把分詞規范分為信、達、雅三個不同的等級。信級標準是基本資料交換的標準;達級標準是機器翻譯、情報檢索等自然語言處理的標準;雅級標準則是分詞的理想境界。這種分等級的做法有利于處理難易程度不同的分詞作業。

我國還研制了《信息處理用現代漢語規范詞表》。國家語言文字工作委員會在1995年提出研制《信息處理用現代漢語規范詞表》的任務,目的在于從政府的角度,研制規范的現代漢語通用詞表,以便作為大家遵循的、統一的通用詞表,詞表的規模大約6萬至8萬條,這項工作還未完成。現代漢語的詞匯是一個復雜的體系,除了通用詞之外,還有術語、方言詞語、文言詞語、專名詞語(包括人名、地名、機構名等)、各種熟語(包括成語、慣用語、歇后語、諺語、格言等)。詞語是不斷發展變化的,隨著社會的發展,還會出現大量的新詞新語。信息處理會涉及到上述各種詞語,因此,詞表的制定,除了制定通用詞表之外,還應該制訂不同專業的術語詞表、方言詞表、文言詞表、專名詞表、熟語詞表、新詞語詞表等。這是一項龐大的工程。這些詞表的制訂和規范化,對于我國計算語言學的進一步發展有著深遠的影響。

我國還研制了《信息處理用現代漢語詞類標記集規范》:該規范由教育部語言文字應用研究所計算語言學研究室研制,包括18個大類。信息處理用現代漢語詞類標記集規范制訂的主要原則有三個:①語法功能原則。語法功能是詞類劃分的主要依據。詞的意義不作為劃分詞類的主要依據,但有時也起某些參考作用。②允許有兼類。根據各種統計研究,現代漢語的某些詞具有多種語法功能,但這多種功能的分布概率不同。在信息處理用現代漢語詞類體系中,各詞類的確立要根據詞的主要語法功能。③詞類標記集中的大類應能覆蓋現代漢語的全部詞。這個規范正在考慮提升為國家標準。

我國某些學者關注到國際上關于通用置標語言的進展。由計算機和人文科學學會(ACH)、計算語言學學會(ACL)和文學與語言計算學會(ALLC)聯合提出了TEI(TextEncodingInitiative,文本編碼倡議,1998年),其目標是為電子文本制訂一套統一的編碼規范,以推動語料存儲格式的標準化,實現語料的交換和共享。

由歐洲MULTEXT、EAGLES和VASSAR/CNRScollaboration聯合提出CES(CorpusEncodingStandard,語料庫編碼標準),可廣泛應用于語料庫的研制與開發。

1986年ISO正式了國際標準SGML(StandardGeneralizedMarkupLanguage,標準通用置標語言),標準號是ISO8879-1986.我國于1995年也把SGML語言作為國家標準,標準號為GB14814。馮志偉在《當代語言學》(1998年,第4期)的《標準通用置標語言SGML及其在自然語言處理中的應用》一文詳細介紹過SGML語言。

XML(eXtensibleMarkupLanguage,可擴充置標語言)是SGML的一個子集,被廣泛地用做語料庫標注的元語言,通過DTD(DocumentTypeDefinition,文件類型定義)和Schema來規范XML文件,從而使表現與內容分離,規范與實現分離,具有良好的擴縮性。

我國語料庫的建設將一定會采用通用置標語言作為描述語料庫的元語言。

(二)語料庫的資源共享

語料庫的資源共享的方式有如下幾種:作為產品出售;實行會員制;授予使用許可權;給非贏利目的的學術結構提供無償使用。

(三)語料庫的知識產權

隨著語料庫的廣泛使用,語料庫的知識產權問題越來越尖銳,以正式出版物為資源的語料庫面臨版權的問題。建議政府有關部門建立關于語料庫資源的版權法規,建議中國中文信息學會出面協調。

(四)語料庫加工中的統計垃圾

由于電子文本的普遍使用,語料資源的獲取變得越來越容易,我國大規模的真實文本語料庫其規模已經達到5億字。美國計算語言學會的ACL/DCI數據采集計劃指出,如果以文本形式存儲語料,語料庫的容量一般可以為1億詞次以上,將來可以達到萬億詞次的數量級。隨著語料庫容量的不斷增大,語料統計中的數據稀疏現象會越來越嚴重。宋柔在統計語料庫中的詞語接續對時發現:“隨著語料庫規模的增大,新增加的接續對中的垃圾逐漸會占大部分甚至絕大部分。垃圾主要分布在統計到的低頻度接續對中,主要來源是分詞中專名識別錯誤。”應該看到,在統計垃圾中蘊藏著許多正在萌芽的新的語言現象,如“噴塑、蒜農、危改、市話、高檢”等低頻度的新詞語,由于在詞典中沒有存儲,都可以在統計垃圾中找到。如何真確地對待統計垃圾,避免統計中的數據稀疏現象,變垃圾為有用的語言資源,是大規模真實文本處理的一個新課題。

參考文獻:

1、J.Sinclair,ReflectionsoncomputercorporainEnglishlanguageresearch[M],1982.

2、北京語言學院語言教學研究所,漢語詞匯的統計與分析[M],外語教學與研究出版社,1985年。

3、馮志偉,計算語言學基礎[M],商務印書館,2001年。

4、馮志偉,語料庫語言學與機器翻譯[M],《信息網絡時代與日本研究》,山東大學出版社,1999年。

5、劉開瑛,中文文本自動分詞和標注[M],商務印書館,2000年。

6、孫茂松等,高頻最大交集型歧義切分字段在漢語自動切分中的作用[J],中文信息學報,第13卷,第1期,1999年。

7、俞士汶、朱學鋒、段慧明,大規模現代漢語標注語料庫的加工規范[J],中文信息學報,第14卷,第6期,2000年。