數(shù)據(jù)挖掘在計算機取證中應用與設計

時間:2022-10-18 09:16:57

導語:數(shù)據(jù)挖掘在計算機取證中應用與設計一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘在計算機取證中應用與設計

摘要:計算機和網(wǎng)絡犯罪犯罪手法新穎,而現(xiàn)代犯罪技術擁有高技術性、即時性、證據(jù)的易毀滅性及犯罪地點的去中心化等特點,偵查人員通過傳統(tǒng)的設備和工具很難采集計算機犯罪證據(jù)。犯罪證據(jù)的獲取不僅需要嚴謹?shù)挠嬎銠C辨識技術,更需要高效快速的推理分析系統(tǒng)。因此,以知識推理和本體理論作為研究理論技術基礎,采用數(shù)據(jù)挖掘技術設計實現(xiàn)了一種計算機犯罪證據(jù)挖掘系統(tǒng),以輔助公安機關搜集計算機犯罪證據(jù)搜集,有效打擊計算機犯罪。

關鍵詞:計算機犯罪;證據(jù);數(shù)據(jù)挖掘;知識組織和推理

1計算機犯罪及其證據(jù)分類

計算機犯罪從以往的竊取實體的計算機轉(zhuǎn)變?yōu)橐跃W(wǎng)絡為犯罪標的、犯罪場所和犯罪工具的犯罪行為。計算機犯罪可分為三大類型:第一種,計算機網(wǎng)絡作為“犯罪工具”的犯罪行為;第二種,以計算機網(wǎng)絡作為“犯罪客體”的犯罪行為;第三種,以計算機網(wǎng)絡作為“犯罪場所”的犯罪行為。

2數(shù)據(jù)挖掘技術之數(shù)據(jù)挖掘的流程

在人工智能領域,數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。隨著人類對計算機的依賴程度越來越高,無論在決策的制定上,或是在資料的處理上,都需要借助數(shù)據(jù)挖掘來分析資料,找出其中有價值的信息,以供各種決策進行參考。

3知識組織理論

3.1知識組織的概念

知識是人們在改造客觀世界的實踐中積累起來的認識和經(jīng)驗。認識包括對事物現(xiàn)象、本質(zhì)、屬性、狀態(tài)、關系、聯(lián)系和運動等的認識。Feigenbaum認為知識、信息和數(shù)據(jù)之間存在密切的邏輯關系。數(shù)據(jù)是事物、概念或指令的一種形式化的表示形式,適合于人工或自然方式進行通信、解釋或處理。信息是根據(jù)表示數(shù)據(jù)所用的約定,賦予數(shù)據(jù)的意義。信息是數(shù)據(jù)所表達的客觀事實。數(shù)據(jù)是信息的載體,與具體的介質(zhì)和編碼方法有關。知識是經(jīng)過加工的信息。

3.2知識組織方法

知識組織即把人類知識形式化成為機器能處理的數(shù)據(jù)結構,是一組對知識的描述和約定。人工智能研究者們在早期階段,重點研究具有因果關系的知識,因此早期的專家系統(tǒng),都是基于產(chǎn)生式的知識庫系統(tǒng),例如DENDRAL、MYCIN及PROSPECTOR等分別把化學、醫(yī)藥和探礦等領域知識整理成一條條規(guī)則,放入知識庫中,然后經(jīng)過推理尋求答案。以產(chǎn)生式規(guī)則作為知識表示技術運用以來,產(chǎn)生了框架、語義網(wǎng)絡等多種表示方法。知識的表示方法有產(chǎn)生式規(guī)則、謂詞邏輯、語義網(wǎng)絡及框架等。

3.3本體及其相關技術概述

主要用于描述解釋并預測知識的一些元特性。本體需要繼承或體現(xiàn)特定領域的某些觀點,通常表現(xiàn)為一個概念集(例如,實體、屬性或過程)、概念的定義及概念的間的關系。本體可以定義通用領域的本體知識,如時間、空間等,也可以定義特殊領域的本體知識,如偏好、人群或種類。在計算機研究中,本體論的研究與知識工程領域在本質(zhì)上有著十分密切的聯(lián)系。特別是語義Web的應用,語義Web要實現(xiàn)更多的自動化服務,離不開本體的形式化表示。

3.4計算機犯罪證據(jù)的特點及其挖掘和推理

3.4.1計算機證據(jù)的特點

網(wǎng)絡犯罪是近年來隨著因特網(wǎng)發(fā)展所興起的新興犯罪形式,最主要的特性是計算機系統(tǒng)與通信網(wǎng)絡結合所構成的犯罪。一般而言,網(wǎng)絡犯罪具有下列特征:(1)智能型犯罪;(2)隱匿性;(3)犯罪證據(jù)難以采集;(4)犯罪區(qū)域廣泛、網(wǎng)絡無國界,衍生管轄權問題;(5)被害者不易察覺,具有高犯罪特征;(6)犯罪成本及障礙低。

3.4.2計算機證據(jù)的發(fā)現(xiàn)和推理

數(shù)據(jù)挖掘應用于計算機犯罪證據(jù),就是將犯罪嫌疑人應用過的計算機中的隱藏的文本、音視頻、網(wǎng)絡登錄和瀏覽及病毒和木馬程序信息挖掘出來,作為犯罪證據(jù)。數(shù)據(jù)挖掘的工具是利利用資料來建立一些仿真世界的模型,利用這些模型來描述資料中的形式及關系,且在數(shù)據(jù)挖掘中可以建立模型。

4計算機犯罪分析與本體構建

4.1計算機犯罪模式

由于網(wǎng)絡犯罪尚屬新興犯罪型態(tài),各種入侵或攻擊手法隨著技術的進步及網(wǎng)絡的散播而日新月異。因此,從計算機犯罪的動機、標的及目標等三方面研究并分析計算機犯罪模式,通過計算機犯罪動機的產(chǎn)生、標的的選擇及目標的決定,再輔以目前發(fā)生的計算機犯罪案例分析與傳統(tǒng)犯罪模式方析,結合計算機犯罪者可能出現(xiàn)的入侵或攻擊的手法及方式,由上而下依時序來架構完整的計算機犯罪模式。

4.2計算機犯罪的動機

計算機犯罪屬于犯罪形式的一種,與傳統(tǒng)犯罪的差異是實行犯罪的方法及所造成結果,傳統(tǒng)犯罪與計算機犯罪的動機是相同的。在犯罪動機所作的案例抽樣調(diào)查中將犯罪動機可分為圖利、好玩和報復等動機。

4.3計算機犯罪的標的

一般而言,按照計算機在犯罪中所扮演的角色,可將計算機犯罪分為以下三類:第一,以計算機及鏈接在計算機上的計算機系統(tǒng)作為犯罪工具;第二,以計算機空間作為犯罪場所;第三,以計算機及鏈接在計算機上的計算機作為犯罪的攻擊目標。

4.4計算機犯罪的目標

計算機社會是現(xiàn)實社會的對映,同樣計算機犯罪者會針對犯罪目標實施犯罪行為,將計算機犯罪者的目標區(qū)分為組織形式與實體形式,詳述如下。組織形式:根據(jù)計算機域名注冊類別,并做少部分的修改,將組織形式分為政府、軍事、學術、商業(yè)、團體機構(包含計算機事業(yè)機構及法人機構)及個人等,而不同的組織形式能提供的計算機犯罪的標的亦不盡相同。實體形式:所謂實體形式系指計算機上的主機種類,一個組織形式會存在一種以上的主機種類。

4.5計算機犯罪手法及方式分類

計算機犯罪雖然手法及方式繁多,但與傳統(tǒng)犯罪一樣必然會留下蛛絲馬跡。由目前已發(fā)生的案例及相關研究探討(如腳印拓取方法)將網(wǎng)絡犯罪入侵、攻擊手法或方式整理歸類為病毒、木馬程序、計算機窺探、密碼破解、聯(lián)機劫持、網(wǎng)頁入侵、緩沖區(qū)溢出、系統(tǒng)安全漏洞、阻斷服務及其他等十種類型。

4.6計算機犯罪證據(jù)獲取模式

計算機犯罪入侵、攻擊手法及方式日新月異,而犯罪偵查卻仍以偵辦傳統(tǒng)犯罪形式為主。整合計算機犯罪模式、犯罪偵查程序及計算機犯罪案例,建立計算機犯罪偵查模式架構,拉近計算機犯罪與犯罪證據(jù)取證難的鴻溝,建立計算機犯罪偵查的縱向偵查鏈接,以解決目前計算機犯罪與犯罪偵查尚無法整合的窘境。

4.7構建計算機犯罪證據(jù)本體

知識的表示方法很多,而框架式知識表示方法與規(guī)則式知識表示法,是專家系統(tǒng)中被實際應用的兩種知識表示法。框架表示法是利用分類法的原則,將知識進行分門別類而形成的一種層次化的知識表示方法。以框架為表達的基本結構體,在每一框架中,可分別代表一項目標或事物的說明,讓使用者能簡易的敘述某一專業(yè)化環(huán)境中的相關知識或事物,從而達到建立知識庫的目的。在框架表示法中,需要特別強調(diào)目標-屬性-附值三者之間的關系。通常,有關某一應用領域的知識層,可以看成是由主題及對此主題的說明兩部分組成。對主題的描述命名為一槽(SLOT),而由此又可衍生出另一個槽的發(fā)展,代表從某一主題引導出另一個次主題的產(chǎn)生。根據(jù)本體論方法和計算機犯罪案例,構建涵蓋計算機犯罪動機、犯罪標的、犯罪目標、犯罪方式、犯罪手法及犯罪類型的知識本體數(shù)據(jù)庫,建立計算機犯罪的“犯罪動機”“犯罪標的”“組織目標”“實體目標”“手法方式”及“犯罪類型”屬性連接和決策樹推理機制,以適應K-means算法進行計算機犯罪證據(jù)挖掘和推理。通過上述本體規(guī)則描述,采用OWL構建一個計算機犯罪動機、犯罪標的、組織目標、實體目標、手法方式和犯罪類型的描述和交換元數(shù)據(jù)的框架,用交換元數(shù)據(jù)節(jié)點表示各種事物、概念、屬性及知識實體,用有向邊表示各種語義聯(lián)系,指明其所鏈接的節(jié)點間的某種關系。例如,因為“時間”和“事件”存在著“動機”的聯(lián)系,所以可以用RDF模型來表示“時間”和“事件”存在著“動機”的語義聯(lián)系。

4.8計算機犯罪證據(jù)挖掘算法

計算機犯罪劃分為犯罪動機、犯罪標的、組織目標、實體目標、手法方式和犯罪類型形式多樣,采用傳統(tǒng)的數(shù)據(jù)挖掘算法在聚類的過程中孤立點的存在會造成聚類結果的不準確,而初始聚類中心隨機性選擇會加大算法陷入局部最優(yōu)解的可能和使得迭代次數(shù)增多。因此,重點在于孤立點地檢測和初始聚類中心的確定兩個方面加以改進。

5計算機犯罪證據(jù)挖掘系統(tǒng)的設計與實現(xiàn)

計算機網(wǎng)絡犯罪模式雖然手法和種類眾多,但仍有蛛絲馬跡可循。在證據(jù)偵查方面,亦如同傳統(tǒng)犯罪經(jīng)驗需要經(jīng)驗和知識傳承。因此,將網(wǎng)絡犯罪模式進行分類整合,輔以目前實務案例和相關資源,采用現(xiàn)代人工智能技術,開發(fā)一種計算機證據(jù)挖掘系統(tǒng),輔助司法與公安機關計算機犯罪取證工作。

6結語

知識組織根據(jù)知識本身的特點和知識間內(nèi)在的聯(lián)系來分析知識內(nèi)容,有利于語義推理,便于用戶更快的獲取、利用知識。本體作為一種知識表示方式,能通過一定的語義聯(lián)系與相關的知識組織進行鏈接,實現(xiàn)知識的組織、查詢及用戶挖掘。目前,已經(jīng)有一些搜索引擎或挖掘系統(tǒng)利用查詢擴展來幫助使用者進行查詢,但對于特定專業(yè)領域的效益還是不夠。為解決此類問題,采用protégé、OWL及Jena工具,建立一種基于本體的計算機犯罪證據(jù)組織與挖掘系統(tǒng)。

參考文獻

[1]秦霞,丁欣.我國計算機犯罪的原因與防治[J].職工法律天地,2017(4):130-131.

[2]米佳,劉浩陽.計算機取證技術[M].北京:群眾出版社,2007.

作者:王周娟 黃文明 單位:桂林電子科技大學