高校檔案管理的實施與探討

時間:2022-11-21 03:34:35

導語:高校檔案管理的實施與探討一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

高校檔案管理的實施與探討

1構建Hadoop項目的高校分布式檔案管理

Hadoop項目已經大量的應用于實際項目之中。淘寶、百度、騰訊、網易等都在使用Hadoop項目,加上很多高校也在研究Hadoop項目,所以本項目使用的Hadoop已經是相當成熟的技術。Hadoop平臺下的高校分布式檔案管理系統,主要目的就是利用軟件來實現檔案文檔的歸檔、查詢、瀏覽以及下載等一系列流程管理,使工作人員對文檔的管理工作更加容易,既可以提高工作效率,又可以降低管理的成本。在充分考慮高校檔案工作的各種共性,避免重復投資、浪費人力和物力情況發生的同時,采用分布式技術模型來構建—個檔案管理系統平臺,具有深遠的意義。

2Had項目管理系統需要解決的問題

2.1Had項目管理系統研究內容

本項目方案首先是構建檔案文件的錄入、存儲、歸檔功能,用以實現檔案的數字化,所有的文件信息都構建在HDFS系統之上,實現分布式的文件存儲。其次,完成檔案的檢索和分析功能,實現用戶對存入檔案的查詢和數據分析,這部分將利用MapReduce(Hive)實現大規模數據的分析和處理。最后是檔案的瀏覽和下載功能,通過JSP技術實現檔案的頁面展示和下載。此外,項目還考慮到安全性問題,實現對檔案的加密,操作人員的身份認證等功能。構建基于HDFS系統上分布式檔案文件系統,從而完成對大量高校檔案文件的安全存儲。構建基于MapReduce(Hive)的檔案數據查詢、計算系統,從而完成對已經存儲的檔案數據進行處理。構建基于技術的檔案管理信息系統,通過簡潔方便的WEB界面實現對整個檔案系統的操作。設計和實現海量檔案數據處理過程中的MapReduce。在海量數據查詢中結合Hive與MapReduce。

2.2Had項目管理系統研究方法

首先熟悉已有的相關成果,深入分析其中方法技巧,然后針對研究問題的特點及難點,通過不斷的實驗,大量的實踐來分析比較各種方法及方案配置的優缺點,以期解決問題。除了進行個人研究以外,還將積極參加相關學術會議,與同行專家進行交流。同時充分利用現代通訊工具,如網絡等,即時了解與本項目有關的最新文獻、學術動態,以使研究和應用工作更有成效。在技術上,采用原型化的程序設計方法,逐步求精,最后開發出目標平臺。在設計時,特別考慮數據存儲問題,尤其是海量數據的存儲,同時考慮基于MapReduce檢索和分析的效率,注重文件存儲的安全性和可靠性。

3實驗方案及可行性分析

本項目的研究是基于linux平臺進行相應的技術研究,所使用的工具基于Windows/Linux,其研究從技術上是可行的,主要從以下兩個方面進行分析:(1)由于ubuntu具有界面好、操作簡單以及先進的應用軟件集成能力,而且價格適中,擁有廣泛的企業用戶群,特別適用于提供網絡服務。其相關技術資料也較為豐富,在研究過程中如果遇到與平臺有關的問題可以在短時間內得以解決,保證項目的正常進行。(2)Hadoop是Apache下的一個項目,由HDFS、MapReduce、HBase、Hive等成員組成。其中,HDFS和MapReduce是兩個最基礎最重要的成員。(3)本項目的創新之處是在技術上使用了Hadoop項目,通過Hadoop項目解決檔案文件的存儲、檢索等工作,并且能夠有效的解決海量檔案數據的計算和分析工作。整個項目組的人員大多從事過軟件的開發工作,熟悉軟件開發流程,熟悉Hadoop平臺;(4)HDFS是GoogleGFS的開源版本,它能夠提供高吞吐量的數據訪問,適合存儲海量(PB級)的大文件(通常超過64M)MapReduce是大規模數據(TB級)計算的利器,Map和Reduce是它的主要思想,來源于函數式編程語言。Map負責將數據打散,Reduce負責對數據進行聚集,用戶只需要實現map和reduce兩個接口,即可完成TB級數據的計算,常見的應用包括:日志分析和數據挖掘?;贏pache的Hadoop分布式平臺已經開始在各大軟件公司使用,HDFS和MapReduce框架也為分布式存儲和計算帶來了新鮮氣息,提高了分布式存儲和計算在具體應用場合的使用。當然還存在著Hadoop開發平臺中計算機數量和存儲數量較小等問題。相信經過開發人員的不懈努力,Hadoop項目的高校分布式檔案管理會發揮出其應有的作用。

本文作者:蔡勁松工作單位:安徽新聞出版職業技術學院計算機中心