本體電子政務數據平臺研究運用
時間:2022-03-18 02:56:00
導語:本體電子政務數據平臺研究運用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
全球性的網絡化、信息化進程正改變著人們的生活方式,Internet技術應用以及電子商務的飛速增長給人們生活工作的各個層面帶來了深刻的影響。隨著計算機與網絡技術的迅猛發展,“政府信息化”越來越受到政府機關的重視,各地政府機關紛紛開始建立電子政務業務系統。目前大多數政府機關已建立了大量的信息系統,例如檔案管理系統、稅務系統、工資系統、人事管理系統、OA系統、公共服務一卡通、資產管理系統等。但眾多業務應用系統相互獨立,它們各自采用不同平臺、不同數據庫、不同編碼,致使各業務系統之間的數據交換和信息資源共享存在困難,信息孤島現象明顯¨1]。
同時,眾多的應用系統所帶來的身份的認證和管理的復雜性既使得管理成本不能降低,又使得整個系統的安全性、可整合性降低,這已成為電子政務信息管理系統進一步發展的瓶頸所在。因此,要想改變電子政務信息化水平的現狀,整合信息資源,解決“信息孤島”問題,就必須建立一個公共數據平臺,它是在政府部門原有的各業務系統層面上搭建的一個高層應用平臺,將各業務系統的異構數據集成應用,向下屏蔽各異構信息源異構性,向上提供數據集成基礎服務,實現各種信息系統的互通互聯和數據共享、數據的一致性,并在此基礎上實現規范的信息管理。近年來,隨著語義Web的發展,其核心技術本體在數據集成方面得到了應用。本體作為共享領域概念模型,可以通過定義領域內一致的術語和術語間的關系來描述異構信息源的語義信息,從而消除異構數據源的語義沖突。
在國外,對本體的研究較早,本體已經應用到各個領域。相比國外,國內對本體的研究起步較晚,尤其是在電子政務方面,缺乏一致的本體模型,相關的應用也少。目前,本體技術很少在電子政務信息化建設中應用,因此,如何把本體技術應用到電子政務異構數據管理集成中,采取何種策略進行構建,消除電子政務各信息系統異構數據庫模式的語義沖突,從而解決電子政務中異構系統導致的信息孤島問題,構建統一的數據平臺,以便提高政府管理效率,就顯得尤為重要。
1電子政務與本體
1.1電子政務與本體概述
電子政務是政府機構廣泛深入地應用現代信息和通信技術,將政府內部和外部(社會)的責權與職能通過計算機網絡硬件和軟件技術進行集成、整合、優化、重組,做到跨越時間和空間,突破部門分割和傳統組織、工作方法與工作流程的限制,力求全方位地、有效地施行與提供安全、高效、優質、規范和符合國際水準的管理與服務。本體是為了某種目的描述世界時的一組抽象化概念,并且該組概念是得到廣泛認可的、以規范化形式描述的。根據定義描述本體時目的的不同,本體可以分為多種類型,依照領域依賴程度,可以細分為頂級(top—leve1)、領域(domain)、任務(task)和應用(application),這里研究的是領域本體,領域本體由屬性、對象、關系和子領域本體組成。引入本體的思想,借助本體對領域知識進行詳細描述,以抽象出概念化的語義層次,為進一步研究語義化的信息交互提供了基本的語義層次2J。從形式上來說,本體由概念、關系、函數、公理和實例5種元素組成。本體中的概念可以是一般意義上的概念,也可以是任務、功能、行為、策略推理過程等;關系表示概念之間的關聯;函數則是一種特殊的關系;公理用于表示一些永真式;實例是指屬于某種概念的基本元素,即某概念類所指的具體實例。
1.2本體在電子政務中的應用案例
美國印第安納州電子政府建設是很多文獻介紹的典范,其成功之處在于利用本體方法建設電子政府數據庫J。美國印第安納州電子政府IndianaFamilyandSocialServicesAdministration(FSSA)本體,屬于最上層的域本體設計,它在“家庭與社會服務”這一本體下定義了9個本體(即低收入、處于危險的兒童、精神病與吸毒、弱智、區域健康與人性化服務、醫療補助、政府機構、法律實施及財政),建立了最上層的概念關系,并用圖形和箭頭形式標示出了各下層本體之間的關系以及在一個專業本體里所包括的術語。
1.3電子政務中本體的核心概念及抽取方法
目前,大多數本體學習方法和本體學習系統都是直接將術語識別為概念。術語的抽取被認為是進行本體自動構建的關鍵。針對術語抽取的研究主要有基于語法規則的方法、基于統計的方法、ICT—CLAS系統法J。利用語法規則的方法來進行術語抽取具有提取術語準確度較高、處理過程簡單、計算量較小、能夠有效提取低頻術語等多項優點。但是,由于語言學規則本身難以掌握,尤其是針對開放性的語料,語言學的規則更是難以準確應用,利用人工來研究語言學的規律越來越難以實現;使用統計的方法來抽取術語可以高效地識別領域術語,只要一個詞在文本集中出現的頻率高,就可以被有效抽取出來,可移植性較好。但是,這種方法計算量大,在處理低頻術語的時候,效果較差;ICT—CLAS系統法主要采用ICTCLAS系統對內容進行分詞處理,然后對分詞進行抽取處理,這樣抽取的優點是抽取內容比較全面,但效率比較低,并且需要人工手動處理。
以上抽取方法都有優缺點,在本體抽取中單獨地使用其中一種方法都不能達到最優的效果,筆者把以上多種方法混合起來,采用程序自動分詞合并方式,加入TF—IDF算法,增加對領域術語的相關度的計算,篩選出與領域相關度低的術語,從而提高領域術語抽取的正確率。基本步驟如下:
1)采用語法規則的方法提取相關候選術語;
2)采用程序自動處理方式,對相關候選術語進行分詞;
3)采用統計法對分詞進行統計,根據頻度提取術語;
4)使用TF—IDF算法對提取的詞進行相關度計算,求出每個候選術語在政務領域文本中的相關性,抽取出政務領域獨占性強的詞作為政務領域術語。
2電子政務公共數據平臺架構
為了確保異構數據獲取和更新的準確性,同時又不改變原有硬件設施和人力資源,要想實現真正意義上的異構數據庫間信息資源的共享,集成后的數據必須保證較高的集成性、一致性和完整性,這是公共數據平臺建設的重要環節。
2.1本體模型構建
電子政務中大量不同的應用系統,其異構是普遍存在的,要想向下屏蔽異構數據,建立數據中心,向上提供公共數據平臺,就必須構建本體模型對元數據進行抽象概念化處理。電子政務本體構建中的2個核心問題是概念抽取和概念關系的獲取,概念抽取是對數據源進行分析,抽取出概念集合和每個概念的屬性集合。概念抽取本體有很多方法,可以由領域專家手工進行,也可以利用領域概念詞典,自動抽取數據源中的概念。概念關系的獲取可以通過2種方法實現,即基于語言規則的方法和基于統計的方法。在對所有數據源進行分析的基礎上,找出其中所涵蓋的術語,進行概念抽取,定義共享的詞匯表,根據相關本體規則進行本體抽象和語義處理。
2.2公共數據平臺架構
使用公共數據平臺的好處在于所有的共享數據被存儲在中心數據庫,可以向上層提供統一的數據,便于資源共享和集中管理,而電子政務網內各應用系統中異構數據庫就擁有了完全的自治性,這樣首先需要對底層異構數據庫進行本體抽象處理,向下屏蔽異構數據,然后采用數據交換技術和數據同步技術保持中心數據庫數據和底層異構數據庫數據的實時同步。
電子政務公共數據平臺架構分為應用層、異構數據集成層、本體模型層和異構數據本體庫層,如圖2所示。異構數據本體庫層主要包含各大應用系統異構數據庫,通過不同的連接器及適配器向本體模型層提供本體的元數據;本體模型層對元數據進行概念化,按照本體規則進行抽象處理和語義處理;異構數據集成層在本體模型之上利用AGENT同步模塊對數據進行交換、同步而實現數據集成,公共數據都集中到中心數據庫,向上層提供公共數據平臺;應用層主要是用戶訪問層,針對不同用戶提供統一身份認證,實現單點登陸。
3電子政務公共數據平臺設計
3.1構建電子政務領域本體的方法步驟
W3C組織推薦的在語義網上應用的標準本體表示語言是OWL,目前本體的構建方法主要有TOVE法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。這些方法大多數是以不同領域為背景,從個案的開發過程中通過逆工程總結出來的J。例如:TOVE專用于構建TOVEOntology,是關于企業建模過程的知識本體;骨架法專門用來構建企業本體;KACTUS是指“關于多用途復雜技術系統的知識建模”工程,目的是要解決技術系統生命周期過程中的知識復用問題-l;SEN。SUS法是開發用于自然語言處理的SensusOntolo。g)r的方法路線¨;IDEF5法是用于描述和獲取企業本體的方法-l。;七步法是斯坦福大學醫學院開發的,主要用于領域本體的構建_l。這些方法各有特點,但都不是針對電子政務領域的,沒有充分考慮電子政務領域的特點。筆者結合電子政務領域特色,提出基于電子政務業務模型,抽取概念,建立電子政務領域知識本體的方法,步驟如下:
1)需求分析,確定電子政務領域本體應用的目的、范圍、表示方法和用途等。電子政務領域本體建設要以應用需求為牽引,要對人類在認識世界過程中形成的不同“本體”(知識體系)進行認真分析,最終達到需求分析的定位準確、涵蓋得當。
2)概念化及抽取,通過各種渠道獲得電子政務領域本體的主要概念,確立概念間等級關系,并用精確無歧義的語言加以描述,形成該領域本體的核心語義內容。獲得領域信息最根本的方法應該是考慮復用已有本體的可能性。通常的也是最行之有效的方法是復用已經廣泛使用于各個學科領域的主題詞表和分類表。
3)概念間聯系,確定電子政務領域本體概念間聯系,如屬性、種屬關系、總體與部分關系、領域中的特有關系;對所收集的名詞術語進行規范,羅列重要的詞和短語,并將其歸類。還要確定概念間結構,定義類別和等級結構。
4)本體生成,采用SFCA算法,對概念之間的關系進行分析,自動生成局部本體,再采用PROMPT算法,把局部本體合并,生成全局本體,存放在本體管理器中。
5)本體編碼,利用形式化描述語言對“概念化”的電子政務領域本體進行編碼,使機器易于處理,盡量將相關領域已存在的本體集成到要構建的政務領域本體中,既避免重復建設,又可以形成領域內共享的本體。
6)確認、維護與評價。對電子政務領域本體按照一定的標準進行確認和評價,包括本體的清晰性、一致性、可擴展性等;隨著電子政務領域知識的增加,本體要不斷更新、不斷進化,增加本體概念,完善本體概念間的語義關系。
3.2電子政務公共數據平臺設計
電子政務公共數據平臺是在原有的各業務系統層面上搭建的一個高層應用平臺,將各業務系統的異構數據集成應用,向下屏蔽各異構信息源異構性,向上提供數據集成基礎服務,實現電子政務各應用系統的數據共享和數據一致性,有效解決信息孤島問題,并在此基礎上實現規范的信息管理。設計基于本體的電子政務公共數據平臺,首先研究數據集成方法與本體技術及基于本體的語義集成,在此基礎上構建公共數據平臺異構數據庫集成框架,基于本體的異構數據庫集成框架是設計公共數據平臺的基礎。目前數據平臺的建設主要有3種模式:全局中心數據庫模式、數據交換模式和共享數據中心模式。全局中心數據庫模式:建立一個數據中心,各應用系統直接應用于該數據中心之上,逐步取消原有業務數據系統;數據交換模式:保持原有業務數據系統,用數據緩存的模式進行各業務數據系統之間的數據轉換和抽取;共享數據中心模式:原有各業務數據庫保持不變,通過觸發器或者開發數據接口抽取需要共享的數據,并且進行轉換,匯總生成共享數據庫。上面的模式各有所長,但也存在不足,這里提出一種統一公共數據平臺模式,即制定統一信息編碼標準,從而建立核心數據庫,存放最基本的公共信息,保留原各業務數據系統。這樣公有數據存放在中心數據庫,一方面可以實現資源的最大共享,另一方面各專業數據仍保留在原系統中,保證了數據獨立和安全。平臺結構如圖3所示。公共數據平臺建立在中心數據庫之上,中心數據庫中存放的公共數據可以通過數據交換、數據同步的方式更新到各業務系統數據庫中,數據的同步更新采用事件驅動方式,通過觸發器和AGENT同步模塊來更新數據。AGENT同步模塊基于本體模型之上,本體模型層對元數據進行概念化,按照本體規則進行抽象處理和語義處理。
4結論
筆者重點介紹了基于本體的電子政務公共數據平臺的設計,首先介紹了本體的概念及電子政務中本體的抽取,接著建立了本體模型,在此基礎上構建了基于本體的電子政務數據平臺架構,然后重點介紹了電子政務本體的構建方法步驟和公共數據平臺的設計,最后建立了電子政務公共數據平臺的統一身份認證機制。基于本體的電子政務數據平臺能夠較好地解決政務系統中的信息孤島問題,實現數據的統一和共享。但是,有些地方的研究深度還不夠,例如電子政務中語法規則的制定還不全面,本體抽取的相關度還需要進一步提高。
- 上一篇:示范基地培訓場所構建交流材料
- 下一篇:供電企業惠民行動工作方案