旅游文化法英翻譯資源庫構(gòu)建方法

時間:2022-12-27 09:17:50

導語:旅游文化法英翻譯資源庫構(gòu)建方法一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

旅游文化法英翻譯資源庫構(gòu)建方法

摘要:對于我國豐富的旅游資源,傳統(tǒng)的人工翻譯已經(jīng)無法滿足人們的需求,為此,基于機器學習構(gòu)建陜西旅游文化法英翻譯資源庫。確定資源庫的總體架構(gòu)和功能架構(gòu),利用樸素貝葉斯分類算法對資源訓練,根據(jù)計算得出的文本屬性權(quán)重大小對資源文本分類劃分,通過機器學習自學習過程補充和完善資源庫中的資源屬性,保證資源庫中資源具有較高的準確性,至此完成資源庫的構(gòu)建。通過性能測試結(jié)果可知,應用所提方法后法英翻譯資源庫在忠實度、流暢度和可理解度方面均有了明顯提升,為旅游翻譯工作者提供了強有力的基礎(chǔ)保障。

關(guān)鍵詞:機器學習;法英翻譯資源庫;樸素貝葉斯分類算法;陜西旅游文化;資源訓練集

語言溝通是人類交流的主要方式,但是各個國家和地區(qū)都有其當?shù)卣Z言風俗,這些差異導致旅游文化對外輸出[1]遇到了巨大的阻礙。翻譯是打破這個阻礙最有效的途徑,但是這不僅要求翻譯人員具備專業(yè)的翻譯知識,還需對當?shù)芈糜挝幕Y源具有一定的了解,否則就會出現(xiàn)景點介紹不到位、文化現(xiàn)象翻譯得不夠傳神等現(xiàn)象。在當今信息快速發(fā)展的時代,人工翻譯顯然不能滿足社會發(fā)展的需求,相關(guān)學者開始研究利用機器翻譯替代人工翻譯,于是構(gòu)建關(guān)于旅游文化的翻譯資源庫,整合經(jīng)過系統(tǒng)處理的高質(zhì)量的翻譯資源[2],如李華勇[3]重點研究了翻譯漢語語料庫TED-CN中構(gòu)筑的語義韻與其在原創(chuàng)漢語語料庫BJKY中構(gòu)筑的語義韻存在顯著性差異,為提高翻譯質(zhì)量提供了參考;嚴世蕓等[4]構(gòu)建中醫(yī)藥現(xiàn)代知識體系,確定中醫(yī)藥名詞術(shù)語內(nèi)涵,以推動實現(xiàn)中醫(yī)藥的現(xiàn)代化與對外傳播。國外學者提出了一種將連續(xù)詞嵌入與深度學習相結(jié)合的并行句子生成方法[5]。引入跨語言語義誘導雙語信號,實驗表明,對于低資源語言,在缺乏外部資源的情況下,可以取得較好的翻譯效果。陜西西安作為六朝古都和世界四大古都之一,鐘樓、雁塔、兵馬俑、華清池等我國優(yōu)秀歷史文化,高度體現(xiàn)了我國古代勞動人民的智慧;關(guān)中盆地地勢平坦、土質(zhì)肥沃、水源豐富,號稱“八百里秦川”。隨著我國對外開放的不斷推進,這些優(yōu)秀的旅游資源也要適應跨地區(qū)、跨國家的需求。本研究在機器學習的基礎(chǔ)上,提出了陜西旅游文化法英翻譯資源庫構(gòu)建方法。根據(jù)對資源庫的設(shè)計要求和應用目標分析,明確了資源庫的總體架構(gòu)和功能架構(gòu)。通過構(gòu)建資源訓練集,為后續(xù)進行分類計算提供數(shù)據(jù)輸入,利用樸素貝葉斯分類算法對資源訓練集進行分類計算,找出概率值最大的資源文本,并根據(jù)機器學習過程,完成對資源庫中資源的補充和完善,由此完成資源庫的構(gòu)建。通過性能測試結(jié)果表明,本研究所設(shè)計方法可保證翻譯的準確性和流暢性,對于旅游文化翻譯工作具有較高的參考依據(jù)。

1構(gòu)建陜西旅游文化法英翻譯資源庫

基于機器學習的法英翻譯資源庫,是在機器學習的基礎(chǔ)上,利用自學習特性不斷分類處理資源,確保資源庫具有極高的分類準確性。完善包含法英雙語分詞系統(tǒng)、機器自學習過程、資源訓練集和詞庫的分布式并行計算等主要部分的資源庫。

1.1旅游文化法英翻譯資源庫構(gòu)建需求分析

旅游是一種特殊的跨文化交際類型。這項工作的主題是譯者為了達到成功的交際而被要求進行的干預程度。他們的任務(wù)不是展示他們在特定主題上的知識,而是展示他們的調(diào)節(jié)能力,從而使之適用于與原著所針對的類型必然不同的旅游者。因此,翻譯人員應該學會為旅游者提供足夠的信息。同時譯者在語言和解釋層面的決定在一定程度上會讓讀者參與其中,從而影響旅游目的地的推廣。國際外宣翻譯工作在城市對外旅游宣傳中起著非常重要的作用。但是目前對法英翻譯資源庫中資源分類方案和資源分類訓練集的研究較少[6],本研究基于文本分類的思想,將機器學習和樸素貝葉斯分類算法結(jié)合起來建立了資源分類系統(tǒng)。與文本分類思想不同的是,由于旅游文化的翻譯具有不確定性、復雜性和多變性,這使得本研究構(gòu)建的分類系統(tǒng)應具備更強大的分類性能、自學習性能和過濾性能,以便更好地適應復雜多變的翻譯內(nèi)容。為了資源庫的穩(wěn)定運行,本研究設(shè)計的資源庫隸屬于分布式并行環(huán)境。該環(huán)境采用分布式并行計算框架DaSyx,該框架具備較高的計算性能,為資源庫的穩(wěn)定運行提供了強有力的保障。

1.2法英資源庫架構(gòu)

從對法英資源庫的設(shè)計目標分析,將資源庫的總體架構(gòu)分為預處理模塊、樸素貝葉斯分類模塊、機器學習模塊、資源訓練模塊、DaSyx框架模塊和日志服務(wù)模塊。總體架構(gòu)構(gòu)成如圖1所示。DaSyx框架在法英資源庫中的主要功能是為資源庫提供分布式并行計算服務(wù),確保資源庫可以高效、穩(wěn)定地運行。從法英資源庫的應用目標分析,資源庫的功能架構(gòu)主要由機器學習系統(tǒng)、資源訓練集、法英分詞系統(tǒng)和樸素貝葉斯分類器4個部分組成。運作流程為法英資源庫獲取到待分類文本[7]后,首先通過法英分詞系統(tǒng)對文本信息進行分詞操作,并將無用信息濾除掉,完成分詞后將結(jié)果傳送至樸素貝葉斯分類器中;分類器通過文本訓練集計算出文本信息的概率值,并將結(jié)果按照從大到小的順序分類,匹配出最大概率值所屬的資源類型;完成匹配后的結(jié)果集通過機器學習系統(tǒng)與初始訓練集結(jié)合,共同對文本的字詞結(jié)構(gòu)和特征權(quán)重不斷進行優(yōu)化更新,以保證翻譯的準確度。資源庫的功能架構(gòu)如圖2所示。將資源訓練集分為n個初始化資源,并以文件夾的形式存儲,每個文件夾中包含所屬該類型的資源文本。不僅如此,資源訓練集中還包含著分類計算所匹配的文本信息和計算結(jié)果[8],當達到觸發(fā)器設(shè)定的閾值標準后則啟動機器學習系統(tǒng),進入自學習過程。完成自學習后,評估系統(tǒng)自動對自學習結(jié)果進行測試評估,只有通過測試后才能被永久保存在初始集中。

1.3構(gòu)建法英資源訓練集

法英資源訓練集主要包含初始集和擴展集[9]兩部分。初始集為初始資源類別,擴展集為擴展的資源類別。初始集通過機器學習不斷執(zhí)行自學習過程,進行資源的優(yōu)化和完善,初始集主要用于資源匹配中。擴展集是初始集的進一步完善和補充,主要對未定義的資源類別[10]進行資源擴展。法英資源類別由多個資源文本構(gòu)成,這些資源文本又同時構(gòu)成了資源訓練集,具體如圖3所示。資源訓練集中資源文本均以結(jié)構(gòu)化的方式直接存儲在系統(tǒng)硬盤上,使用時直接調(diào)用即可。

1.4基于樸素貝葉斯算法的分類運算

樸素貝葉斯分類器是在樸素貝葉斯公式的基礎(chǔ)上實現(xiàn)的分類運算。假設(shè)資源庫獲取的待分類文本屬性為X,用特征向量將其表示為X(X1,X2,X3,…,Xj);假設(shè)類別集合為S,已定義的類別集合為Si,用特征向量將其表示為S(S1,S2,S3,…,Si)。把X和Si的特征向量共同輸入樸素貝葉斯分類器中,計算過程如式(1)(1)式中,P(SiX)表示X屬于Si的概率值;P(XSi)表示如果X不屬于Si,Si中包含X的概率;P(Si)表示X屬于Si的概率值;P(S)表示所有給定資源類別的聯(lián)合概率值。根據(jù)式(1)中S的定義計算,可知屬于該資源類別的P(S)值為一個固定值,求解資源類別的過程就是求解max(P1,P2,P3,…,Pt)的過程,由此可將式(1)簡化為式(2)。max[P(SiX)]=max[P(XSi)×P(Si)](2)又因樸素貝葉斯分類算法獨特的“樸素性”,其特征向量X(X1,X2,X3,…,Xj)均可為獨立存在的狀態(tài),可以將概率計算轉(zhuǎn)換為對每個文本屬性特征概率分布的乘積計算,如式(3)。式(6)給出了分類算法輸出結(jié)果為Xj屬于Si的概率值,由此可獲得樸素貝葉斯算法的函數(shù)原型,以此函數(shù)原型為基礎(chǔ)展開的分類計算可直接用于法英資源庫的構(gòu)建。由于樸素貝葉斯分類算法沒有考慮各個文本屬性之間的關(guān)系,只是為了提升計算速度,簡化復雜的計算過程。但事實上,各個文本屬性之間存在著多種關(guān)系,而且每個文本屬性對分類計算的重要程度也不相同,所以樸素貝葉斯分類算法會與實際情況產(chǎn)生一定的偏差。為了將這種誤差控制到最小,本研究采用了基于特征權(quán)重的樸素貝葉斯分類器,對資源訓練集中的每一個文本屬性都進行一次權(quán)重計算,以便于更好地區(qū)分不同的文本屬性對分類計算的重要程度。該方法可以在一定程度上提高算法的分類精度,構(gòu)成如圖4所示。基于特征權(quán)重的樸素貝葉斯分類算法主要由待分類資源文本、樸素貝葉斯分類器、資源翻譯列表和具有TF-UIDF權(quán)重的文本訓練集組成。計算流程如下:資源庫獲取到待分類資源文本后,樸素貝葉斯分類器根據(jù)資源訓練集中文本屬性的權(quán)重和數(shù)量,得到資源文本屬于每個資源類別的概率,并找出概率值最大的資源類別,把待分類的資源文本劃分到該資源類別中。本研究利用增加了TF-UIDF權(quán)重的樸素貝葉斯分類算法,對文本屬性具有更高的分類準確性。

1.5基于機器學習的法英翻譯算法

機器學習自學習過程主要由評估系統(tǒng)、觸發(fā)器模塊、貢獻度計算模塊和文本集維護模塊4部分共同完成。自學習過程如圖5所示。文本集維護模塊整合了資源訓練集和匹配結(jié)果集的所有文本資源,并采用文件鎖的形式存儲資源,保證整個資源庫資源的完整性。觸發(fā)器模塊作為自學習過程的啟動模塊,本研究對該模塊設(shè)定了2個觸發(fā)條件:匹配結(jié)果集容量觸發(fā)和循環(huán)時間觸發(fā)模式。貢獻度計算模塊主要為資源訓練集和匹配結(jié)果集中的支持計算其貢獻度大小。在資源庫中,某個單詞的貢獻度可以看作為在分類計算時的重要程度。評估系統(tǒng)根據(jù)貢獻度計算模塊得出的結(jié)果對自學習效果進行測試評估。該系統(tǒng)包含了預替換過程、效果評估和確認替換3個模塊。如果測試通過,執(zhí)行預替換操作,否則不予替換。式中,vc為單詞的詞向量;uo和uw分別為在單詞作中心詞時使用的向量表征和外部詞語時使用的向量表征。根據(jù)計算結(jié)果,將概率值最高的作為翻譯結(jié)果輸出。機器學習的自學習過程,是補充和完善的過程,在資源庫中,只有通過不斷的自學習,才能保證資源庫中的資源具有較高的準確性,以應變復雜多變的翻譯內(nèi)容。

2性能測試

為了驗證本研究所設(shè)計方法的有效性,對本研究構(gòu)建的英法翻譯資源庫進行性能測試,共有10名外語系專業(yè)學生參加測試。

2.1測試內(nèi)容

對采用本研究所設(shè)計方法和未采用本研究所設(shè)計方法翻譯的兩種譯文從忠實度、流暢度和可理解度3方面進行打分。忠實度為評判譯文是否忠實地表達原文意思,分為0—5分5個等級,打分結(jié)果取小數(shù)點后一位小數(shù)。流暢度為譯文翻譯是否流暢、正宗,分為0—5分5個等級,打分結(jié)果取小數(shù)點后一位小數(shù)。可理解度為評判學生(用戶)是否可以理解翻譯后的文章,分為0—5分5個等級,打分結(jié)果取小數(shù)點后一位小數(shù)。

2.2測試步驟

(1)不采用本研究所設(shè)計方法,對陜西旅游文化資源進行法英翻譯。(2)采用本研究所設(shè)計方法翻譯同一篇文章,并對翻譯后的文章進行人工校對,如表1、表2所示的忠實度、流暢度和可理解度標準對兩篇譯文進行打分。(3)完成測試,統(tǒng)計打分結(jié)果。2.3測試結(jié)果測試結(jié)果如表3所示。由表3可以看出,雖然本研究構(gòu)建的法英資源庫并沒有得到滿分,存在一定的分類優(yōu)化問題,但是采用本研究所設(shè)計方法后,在忠實度、流暢度和可理解度方面均比未采用本研究所設(shè)計方法前有了明顯提升,均保持在94%以上。

3總結(jié)

旅游文化的翻譯工作和研究受到國內(nèi)外很多學者的關(guān)注,在進行翻譯工作之前,構(gòu)建高效的翻譯資源庫是必不可少的。本研究在理論語言學的基礎(chǔ)上,結(jié)合機器學習,構(gòu)建了陜西旅游文化法英翻譯資源庫,填補了該領(lǐng)域語言翻譯資源庫建設(shè)的空白。將需要檢索的信息輸入資源庫中,就可得到包含檢索關(guān)鍵詞的所有陜西旅游文化法英翻譯的語句和相關(guān)文章,完成對陜西旅游文化法英翻譯資源庫。翻譯資源庫不僅可以為翻譯工作者提供參考依據(jù),還可以幫助翻譯工作者在翻譯旅游文化資源時了解特殊的語句結(jié)構(gòu)和語法特征。不僅如此,還可以在本研究構(gòu)建資源庫的基礎(chǔ)上,提高機器翻譯在旅游翻譯領(lǐng)域的效率。但是,本研究在研究過程中,發(fā)現(xiàn)資源庫還有許多新的問題需要解決,如雙語文本語義和句法標注技術(shù)的更新等,將以此為重點進行下一步研究,進行更深層次的研究工作。

作者:王玉 單位:咸陽師范學院 外國語學院