電子政務(wù)郵件取證分析技術(shù)研究

時間:2022-12-07 09:46:16

導語:電子政務(wù)郵件取證分析技術(shù)研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

電子政務(wù)郵件取證分析技術(shù)研究

【摘要】電子郵件系統(tǒng)已經(jīng)成為我國電子政務(wù)中信息交換的重要載體,如何準確、快速地對電子政務(wù)郵件系統(tǒng)中敏感郵件的擴散進行追蹤溯源,已經(jīng)成為當前核查工作的重點。本文針對電子政務(wù)系統(tǒng)郵件取證中用戶關(guān)系挖掘困難的問題,基于Louvain算法對電子政務(wù)郵件網(wǎng)絡(luò)中潛在的社區(qū)進行發(fā)現(xiàn)并與郵件數(shù)據(jù)分析相結(jié)合,挖掘出郵件網(wǎng)絡(luò)內(nèi)部的人物關(guān)系網(wǎng)絡(luò)并對郵件網(wǎng)絡(luò)進行可視化分析,可支撐電子政務(wù)郵件取證工作的開展。

【關(guān)鍵詞】郵件取證;關(guān)系挖掘;可視化分析;擴散追蹤

1引言

隨著計算機技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展,電子郵件在多個行業(yè)特別是電子政務(wù)系統(tǒng)中得到廣泛使用。電子郵件在便利人們生活的同時,也被犯罪分子所利用,使用電子郵件進行垃圾郵件傳播等活動,這些行為可能使受害者遭受嚴重損失。為了打擊電子政務(wù)系統(tǒng)中的郵件犯罪行為,必須依靠電子郵件取證技術(shù)[1]。傳統(tǒng)的電子郵件取證過程一般包括原始數(shù)據(jù)的獲取、郵件相關(guān)數(shù)據(jù)提取、郵件恢復、文件轉(zhuǎn)換和信息提取、查詢和關(guān)鍵字查找、得出相關(guān)結(jié)論等6個步驟,取證人員通過關(guān)鍵字查找的方式挖掘郵件之間可能存在的聯(lián)系,從人物、事件、時間3個維度對郵件數(shù)據(jù)進行分析,最終得出案件相關(guān)人員之間的人物關(guān)系網(wǎng)絡(luò)、事件關(guān)系網(wǎng)絡(luò)等。在小數(shù)據(jù)集的情況下,這種傳統(tǒng)的關(guān)鍵字查找方式較為適用,但是當需要取證的郵件數(shù)據(jù)龐大、相關(guān)人員關(guān)系復雜時,一次關(guān)鍵字查找將會獲得大量冗余結(jié)果,獲取人員之間的人物關(guān)系網(wǎng)絡(luò)將會變得極為困難,不僅消耗大量的資源,分析結(jié)果也往往不盡如人意。在這種現(xiàn)狀下,本文對郵件取證中的人物關(guān)系網(wǎng)絡(luò)挖掘進行了研究和改進。本文使用Louvain算法對郵件網(wǎng)絡(luò)中的潛在社區(qū)進行發(fā)現(xiàn),結(jié)合對特定郵件傳播軌跡的可視化,分析比較特定郵件在郵件用戶社區(qū)中的傳播情況和擴散范圍,通過對擴散范圍和社區(qū)邊界的比對來發(fā)現(xiàn)郵件系統(tǒng)存在的其他有害郵件,挖掘出郵件網(wǎng)絡(luò)內(nèi)部的人物關(guān)系網(wǎng)絡(luò)。從計算學的觀點來看,社交關(guān)系挖掘的研究主要包括3個方面[2]:關(guān)系鏈接預測,即預測和推薦未知的鏈接,如Liben-Nowell和Kleinberg[3]系統(tǒng)地研究了推斷用戶之間新鏈接的問題;關(guān)系類型預測,即自動地識別與每一個社交關(guān)系相關(guān)聯(lián)的語義,如Leskovec[4]等人使用Logistic回歸模型預測在線社交網(wǎng)絡(luò)中的正/負關(guān)系,Diehl[5]等人通過學習排序函數(shù)識別“經(jīng)理—下屬”關(guān)系等;關(guān)系交互預測,即研究單向的社交關(guān)系怎樣發(fā)展成雙向的社交關(guān)系及其產(chǎn)生的原因,如Lou[6]等人研究了社交關(guān)系如何發(fā)展成三元閉包等。從這類角度來看,本文對人物關(guān)系網(wǎng)絡(luò)的研究屬于關(guān)系挖掘研究中的關(guān)系鏈接預測,即預測和推薦未知的鏈接(發(fā)現(xiàn)郵件系統(tǒng)存在的其他有害郵件);相比于傳統(tǒng)的關(guān)鍵字查找方式,這種方法結(jié)合了郵件社區(qū)劃分和郵件擴散可視化,大大減少了取證人員的工作量,更加直觀地展示了郵件用戶之間的關(guān)系,更準確地挖掘出人物關(guān)系網(wǎng)絡(luò),從而提高了電子郵件取證工作的質(zhì)量和效率。實驗證明,本文提出的方法在追蹤特定郵件附件擴散范圍的場景下應(yīng)用效果良好。

2郵件取證

電子郵件取證的原始數(shù)據(jù)一般來自多個數(shù)據(jù)源,包括發(fā)件人或收件人使用的終端、郵件傳遞服務(wù)器上的存儲介質(zhì)等,如果是Web端郵件則需要檢查用戶瀏覽器的相關(guān)信息,如緩存、日志等。這些數(shù)據(jù)較為原始,提取需要較強的專業(yè)知識且一般不能直接理解,同時這些數(shù)據(jù)一般包含著大量的無關(guān)信息,需要進一步篩選;獲取原始數(shù)據(jù)后,需要使用一定的技術(shù)手段來獲取與郵件證據(jù)相關(guān)的數(shù)據(jù),這一步直接決定了之后要處理數(shù)據(jù)的規(guī)模和質(zhì)量,因而是整個電子郵件取證過程中較為關(guān)鍵的一步;通過上一步的篩選,得到所有與郵件相關(guān)的數(shù)據(jù),但是這些數(shù)據(jù)仍然處于取證人員很難理解的形式,需要進行數(shù)據(jù)恢復和格式重組來得到可讀性更高的原始郵件內(nèi)容;根據(jù)重組后的郵件格式進行文件轉(zhuǎn)換及信息提取后,可以將郵件內(nèi)容轉(zhuǎn)化為可以直接閱讀的文本、圖片等形式;到了這一步,郵件數(shù)據(jù)已經(jīng)完全可讀,此時根據(jù)傳統(tǒng)的辦法對所有郵件數(shù)據(jù)進行關(guān)鍵字查找等處理,進而得出人物關(guān)系網(wǎng)絡(luò)、事件關(guān)系網(wǎng)絡(luò)等,以及得出有效的電子證據(jù);分析完成后,根據(jù)確定的關(guān)系網(wǎng)絡(luò)、電子證據(jù)等對案件的過程進行還原,從時間、事件、人物3個維度對原始場景進行構(gòu)建并得出最終結(jié)論。在查詢和關(guān)鍵字查找步驟中,已經(jīng)獲得了所有與案件相關(guān)且直接可讀的郵件數(shù)據(jù),此時傳統(tǒng)的方法會對所有郵件數(shù)據(jù)進行關(guān)鍵字查找等分析處理,進而挖掘出人物關(guān)系網(wǎng)絡(luò)、事件關(guān)系網(wǎng)絡(luò)等結(jié)構(gòu)性信息,這種方法在面對數(shù)據(jù)總量龐大、涉及人員眾多、人員關(guān)系錯綜復雜的情況時效果將會顯著下降。這正是本文主要研究和解決的問題。

3基于Louvain算法的郵件網(wǎng)絡(luò)人物關(guān)系

網(wǎng)絡(luò)挖掘方法現(xiàn)實網(wǎng)絡(luò)中存在著大量的社區(qū)結(jié)構(gòu),這些結(jié)構(gòu)表現(xiàn)為社區(qū)內(nèi)部節(jié)點聯(lián)系緊密,而外部節(jié)點聯(lián)系稀疏。Louvain算法是Vincent等提出的一種進行快速社區(qū)發(fā)現(xiàn)的算法,該算法在面對大型網(wǎng)絡(luò)時能夠取得較好的效果,如圖1所示。在郵件取證中有一種重要場景追蹤特定郵件附件的擴散范圍,即通過對所有相關(guān)郵件數(shù)據(jù)的分析來確定一個或多個特定郵件附件在郵件網(wǎng)絡(luò)中的傳播情況,包括原始郵件的發(fā)送者、郵件的所有接收者、郵件的轉(zhuǎn)發(fā)情況、是否有其他的來源等。在這種場景下,僅考慮查詢郵件附件hash是不夠的,因為作為分析依據(jù)的郵件數(shù)據(jù)可能存在缺失,因此,需要結(jié)合郵件用戶的社區(qū)劃分情況對可能存在的附件傳遞進行推測。已知的附件傳播鏈與郵件用戶的社區(qū)劃分存在以下兩種可能的關(guān)系,如圖2所示。圖2(a)中,已知的附件傳播鏈所有部分屬于同一個社區(qū),此時可以認為指定的郵件附件僅在此社區(qū)內(nèi)傳播,該社區(qū)即為郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò);圖2(b)中,已知的附件傳播鏈各部分分屬兩個或多個社區(qū),即指定的郵件附件從初始社區(qū)傳播到多個社區(qū)當中,每個社區(qū)都有全部或者部分用戶參與了附件傳播的過程,此時認為附件傳播鏈跨過的所有社區(qū)共同組成郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)。為了更好地對比附件的轉(zhuǎn)發(fā)鏈與郵件用戶社區(qū)分布的關(guān)系,筆者對原始郵件數(shù)據(jù)進行了可視化,整個過程的數(shù)據(jù)處理流程如圖3所示。最終將郵件數(shù)據(jù)的顯示形式由原始的{發(fā)件人;收件人;時間;附件hash}轉(zhuǎn)換為更直觀的網(wǎng)絡(luò)拓撲形式,在可視化界面中可以清晰地觀察附件擴散范圍和郵件用戶社區(qū)分布,進而發(fā)現(xiàn)郵件系統(tǒng)存在的其他有害郵件,挖掘出郵件網(wǎng)絡(luò)內(nèi)部的人物關(guān)系網(wǎng)絡(luò)。

4實驗與結(jié)果分析

4.1實驗數(shù)據(jù)實驗使用的數(shù)據(jù)分為2個部分。(1)美國全國委員會(DNC)郵件。2016年7月22日,維基解密網(wǎng)站公布了美國全國委員會內(nèi)部的一批絕密郵件,這些郵件真實記錄了希拉里在郵件門事件爆發(fā)之前與高層的通信情況,共包含19252封郵件,時間跨度從2015年5月14日直到2016年5月25日。(2)鑒于全國委員會郵件數(shù)據(jù)未包含郵件附件信息,自行構(gòu)建了一組包含15個用戶23封郵件的測試郵件數(shù)據(jù)。4.2實驗環(huán)境使用本文提出的方法對部分DNC郵件數(shù)據(jù)進行了展示,如圖4所示。然后在追蹤特定郵件附件擴散范圍的場景下對基于Louvain算法的郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)挖掘方法進行了實驗,從郵件附件hash、時間和郵件用戶3個維度對郵件數(shù)據(jù)進行了可視化處理。實驗場景如下:郵件用戶U0~U14在2018年3月9日到2018年3月20日時間段內(nèi)的郵件數(shù)據(jù)被作為取證分析目標,現(xiàn)對hash為588f7fba9060d7c9c436032a6417b43c的文件進行追蹤,希望獲取原始郵件的發(fā)送者、郵件的所有接收者、是否有其他的來源等信息。使用基于Louvain算法的郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)挖掘方法對郵件數(shù)據(jù)進行處理后,得到結(jié)果如圖5所示。4.3結(jié)果分析從圖4可以看出,選取的部分DNC郵件數(shù)據(jù)被分為8個社區(qū),其中處于整個區(qū)域最中心位置的用戶是BonoskyGarret。由于數(shù)據(jù)沒有包含附件信息,所以未能顯示出指定附件的擴散軌跡。從圖5可以看出,所有的郵件用戶被分為紫色和綠色代表的2個社區(qū),攜帶指定附件的郵件最初由用戶U0在2018年3月11日發(fā)送給處于同一社區(qū)的用戶U4,U4于2018年3月15日將郵件跨社區(qū)發(fā)送給用戶U10,U10于2018年3月19日將郵件進行了一次群發(fā),同時發(fā)送給了同一社區(qū)的用戶U11~14。從上述結(jié)果可以分析得出:原始郵件的發(fā)送者為U0,郵件的所有接收者為U4,U10,U11,U12,U13,U14,且根據(jù)目前已知的數(shù)據(jù),沒有其他附件來源。可能的郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)由紫色代表的社區(qū)以及綠色代表的社區(qū)共同組成,下一步取證應(yīng)該對郵件的原始發(fā)件人U0、完成附件信息跨社區(qū)傳播的用戶U4和U10進行重點調(diào)查。本方法使用郵件數(shù)據(jù)可視化的方式直觀地展示了郵件用戶之間的關(guān)系,更準確地挖掘出人物關(guān)系網(wǎng)絡(luò),縮小了取證調(diào)查的范圍,提高了電子郵件取證工作的質(zhì)量和效率。

5結(jié)語

本文針對電子政務(wù)系統(tǒng)郵件取證中郵件用戶關(guān)系挖掘困難的問題,結(jié)合郵件用戶社區(qū)劃分與郵件數(shù)據(jù)分析,提出一種電子政務(wù)系統(tǒng)郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)挖掘方法。實驗證明,該方法在追蹤特定郵件附件擴散范圍的場景下應(yīng)用效果良好,具有較好的應(yīng)用價值。下一步工作將研究減小社區(qū)發(fā)現(xiàn)效果對網(wǎng)絡(luò)挖掘結(jié)果的影響。

參考文獻:

[1]危蓉.鎖屏Android智能手機取證方法的研究[J].中國司法鑒定,2015(01):67~70.

[2]王即墨.Android智能手機鎖屏密碼及破解方法研究[J].刑事技術(shù),2015,40(02):142~145.

[3]石穗東.運用第三方recovery破解安卓手機屏幕鎖[J].刑事技術(shù),2015,40(02):327~329.

[4]張笑魯.Android移動設(shè)備的數(shù)字取證關(guān)鍵問題研究[D].吉林大學:吉林大學,2016:21.

[5]SonN,LeeY,KimD,etal.AstudyofuserdataintegrityduringacquisitionofAndroiddevices[J].DigitalInvestigation,2013,10(08):S3~S11.

[6]KimK,HongD,RyouJC,etal.ForensicDataAcquisitionfromCellPhonesusingJTAGInterface[C].SecurityandManagement.2008:410~414.

作者:楊群領(lǐng) 喻民 姜建國 劉超 單位:1.中國科學院信息工程研究所 2.中國科學院大學網(wǎng)絡(luò)空間安全學院