WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述

時間:2022-05-04 03:39:00

導(dǎo)語:WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述

摘要:本文針對網(wǎng)絡(luò)搜索引擎工作中的重點(diǎn)技術(shù)作出詳盡的闡述,它包括Robot程序、索引數(shù)據(jù)庫、檢索程序三個方面。通過他們來概述www網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展?fàn)顩r。

關(guān)鍵詞:Robot程序、數(shù)據(jù)索引、遍歷算法、相關(guān)性

Theabstractsofinformationretrievalsontheworldwideweb

Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechniques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem.

Keywords:Robot,Indces,Revelance,arithmetic

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息不斷爆炸式的擴(kuò)張,網(wǎng)民怎么才能從這樣海量的信息中找到他們所需要的信息呢?搜索引擎,這是目前為止,世界上最流行的一種準(zhǔn)確獲得信息的一種工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、網(wǎng)絡(luò)指南針、北大天網(wǎng)和華好網(wǎng)景的ChinaOK等等。這些都是世界上非常著名的搜索引擎。他們都是通過網(wǎng)絡(luò)機(jī)器人搜集網(wǎng)絡(luò)信息,建立索引數(shù)據(jù)庫,并且不但的更新,通過一定的相關(guān)性算法,對用戶提供的請求作出響應(yīng),并按一定的次序輸出高質(zhì)量的信息。它的主要由下面三個部分組成:蜘蛛程序、索引數(shù)據(jù)庫、檢索程序。三個部分協(xié)調(diào)一致,其工作原理(圖1)如下:

1Robot技術(shù)程序

Robot是一種計算機(jī)的程序,可以自動地在網(wǎng)絡(luò)中穿梭,該程序最重要的功能是使用索引策略,也就是查找網(wǎng)站和網(wǎng)頁的次序。可以用題目、URL、關(guān)鍵詞進(jìn)行索引,也可以是以上幾項的某種組合。由于Internet的數(shù)據(jù)量大,在現(xiàn)有的機(jī)器和網(wǎng)絡(luò)條件下,搜索引擎只能對部分Internet上的資料進(jìn)行采集;加上搜索的索引策略不同,所以對相同關(guān)鍵詞的搜索在不同的搜索器上可以有截然不同的結(jié)果。如果把整個Internet看作是一個圖或一棵樹的話,可以發(fā)現(xiàn)Robot技術(shù)的基本工作原理和人工智能中的搜索樹一樣,這在計算機(jī)中可以方便地使用遞歸方法實(shí)現(xiàn),具體如下:

(1)根據(jù)首頁進(jìn)行搜索,相當(dāng)于搜索樹的根;

(2)根據(jù)首頁的第1個鏈接到下一個頁面;

(3)重復(fù)(1)和(2);(4)到某頁已經(jīng)沒有鏈接,回退上一級頁面的下一個鏈接,如此循環(huán)往復(fù)。

但若要建立全面的索引數(shù)據(jù)庫,必須對WWW系統(tǒng)進(jìn)行遍歷。我們可以進(jìn)行這樣假設(shè):將WWW作為一個有向圖處理,將頁面看作圖中的節(jié)點(diǎn),頁面中的超鏈看作圖中的有向邊。因此可以使用有向圖遍歷算法(深度優(yōu)先或廣度優(yōu)先算法或啟發(fā)式方式)對其進(jìn)行遍歷。WWW是個典型的CS結(jié)構(gòu)系統(tǒng),所以可在一臺主機(jī)上完成WWW遍歷。

遍歷一般采用以下3種方法:

(1)定一個種子URL,Robot從種子URL開始對WWW遍歷;

(2)定一組不同類別、被訪問頻率高的URL,Robot從這些URL開始遍歷;

(3)據(jù)域名或IP地址將WWW空間劃分為多個子空間,運(yùn)行多個Robot程序并行地在不同子空間中進(jìn)行遍歷。在實(shí)際使用中,一般是將這三種方法組合起來使用。按照上述遍歷算法,Robot可以系統(tǒng)地、周期性地訪問WWW,從而建立較為全面的索引庫,并能保持對庫的不斷更新。

在遍歷算法中,一般用到了兩種方式,深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。Robit以URL列表存取的方式?jīng)Q定搜索策略:

(1)先進(jìn)先出,則形成廣度優(yōu)先搜索。當(dāng)起始列表包含有大量的Web服務(wù)器地址時,廣度優(yōu)先搜索將產(chǎn)生一個很好的初始結(jié)果,但很難深入到服務(wù)器中去。

(2)先進(jìn)后出,則形成深度優(yōu)先搜索。這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用在實(shí)際使用中,一般是將這三種方法組合起來使用。按照上述遍歷算法,Robot可以系統(tǒng)地、周期性地訪問WWW,從而建立較為全面的索引庫,并能保持對庫的不斷更新。在遍歷的過程中,為了提高其效率,可以融入人工智能的方法使其變得智能化,以下為可行的方法:

(1)搜索引擎基本信息的采集。考慮網(wǎng)絡(luò)中海量的數(shù)據(jù),首先選取一些網(wǎng)絡(luò)的主要節(jié)點(diǎn),使搜索引擎存放某些監(jiān)控程序到站點(diǎn)中,和站點(diǎn)之間建立一種通信聯(lián)系,使搜索引擎不必每次更新時都要一個個頁面地比較,而是智能地知道自上次訪問后哪些頁面已更新,直接采集新的頁面。

(2)搜索引擎數(shù)據(jù)庫的建立。考慮數(shù)據(jù)庫中數(shù)據(jù)的有用性,可以根據(jù)用戶的訪問頻度,建立站點(diǎn)的用戶訪問頻度表格,Robot查找鏈接和頁面時,要查看該表格,從用戶訪問頻度高的站點(diǎn)開始查找,對上升速度和下降速度特別快的還要特別處理。搜索引擎的數(shù)據(jù)庫內(nèi)容是用戶經(jīng)常訪問并樂意訪問的,使搜索引擎越來越貼近用戶。

2索引技術(shù)

索引技術(shù)的目的是理解Robot所搜索的信息,從中抽取索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內(nèi)容索引項兩種:

客觀項與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈接流行度(LinkPopularity)等等;內(nèi)容索引項是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。

內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。在搜索引擎中,一般要給單索引項賦予一個權(quán)值,以表示該索引項對文檔的區(qū)分索引項的提取方法有統(tǒng)計法、概率法和語言學(xué)法。索引表一般使用某種形式的倒排表(Invers度,同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引,即由索引項查找相應(yīng)的文檔。索引表要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(Proximity)。

索引技術(shù)可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時,必須實(shí)現(xiàn)即時索引(InstantIndexing),否則不能跟上信息量劇增的速度。索引算法對索引技術(shù)的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量,而索引的質(zhì)量由索引技術(shù)和索引策略來決定;但現(xiàn)行的索引技術(shù)隨著數(shù)據(jù)量的增大,其耗費(fèi)的資源指數(shù)速度飛速增長,極大地影響到搜索數(shù)據(jù)庫的容量和檢索;考慮用提高索引智能化的方式來提高索引的質(zhì)量。按建立索引的策略來看,應(yīng)確定是全文關(guān)鍵字提取,還是內(nèi)容提取,根據(jù)不同的查詢目標(biāo)會有不同的提取目標(biāo)和提取范圍,最終將大大影響數(shù)據(jù)提取的速度和效果,這是索引技術(shù)所要考慮的首要問題;按內(nèi)容提取可以采用分類技術(shù),把頁面的主題或內(nèi)容分類,進(jìn)入到不同的數(shù)據(jù)庫中,在輸入關(guān)鍵詞查詢時,要求第n個關(guān)鍵詞必須是內(nèi)容類別的詞,這樣第n個關(guān)鍵詞就可以使搜索引擎知道到哪個內(nèi)容類別的數(shù)據(jù)庫中查找,再匹配后面的關(guān)鍵詞,這樣可以大大減少系統(tǒng)匹配的時間。這項技術(shù)要求在相關(guān)詞庫的基礎(chǔ)上,還要統(tǒng)計使用頻度,再加上一定的算法方可實(shí)現(xiàn)。當(dāng)然上述兩者應(yīng)有機(jī)地結(jié)合才可提高整個系統(tǒng)的性能。

3檢索程序。

當(dāng)用戶檢索的時候,首先需要輸入關(guān)鍵詞,系統(tǒng)將對其進(jìn)行語言分析,分解成多個詞或詞組,在去服務(wù)器的索引數(shù)據(jù)庫,根據(jù)檢索詞的相關(guān)性進(jìn)行匹配,找到與檢索詞相關(guān)度逼近的網(wǎng)頁,按照相關(guān)度的高低進(jìn)行排序輸出,關(guān)鍵詞出現(xiàn)了的越多的結(jié)果排得越靠前,越知名的站點(diǎn)排得越靠前。這里,相關(guān)性的設(shè)計相當(dāng)?shù)闹匾苯佑绊懼阉鞯男省5跋嚓P(guān)性”的概念一直非常模糊。一方面,人們觀察到特定文檔對特定查詢而言可以有多種“相關(guān)”的方式,比如用戶輸入一個關(guān)鍵詞作為查詢向系統(tǒng)提交,系統(tǒng)返回的文檔列表中的文檔A講述與此關(guān)鍵詞相關(guān)的事件,B談?wù)撆c此關(guān)鍵詞相關(guān)的人物等等,都可以說與這個關(guān)鍵詞“相關(guān)”,但我們顯然覺得二者與查詢的相關(guān)并不屬于同一層次。另一方面,由于用戶本身的差異使其對檢出文檔是否真正相關(guān)的判斷也有諸多差異。但是在設(shè)計信息檢索系統(tǒng)的過程中,不可避免地要用到相關(guān)性這個概念;具體地說,設(shè)計者必須對怎樣才算是“相關(guān)”有一個比較明確的想法,在沒有弄清楚什么是相關(guān)性之前就談?wù)撛鯓訁^(qū)別相關(guān)和不相關(guān)文檔,的確令人覺得在邏輯上缺少了一個重要的環(huán)節(jié)。下面就相關(guān)性做詳盡的闡述:

3.1相關(guān)性研究的理論框架

3.1.1系統(tǒng)角度的相關(guān)

信息檢索似乎從一開始就定位為一種單方向的過程,即系統(tǒng)輸出結(jié)果,用戶是信息的接受者。這種理解置用戶于被動的地位:基于這種理解,研究的重心自然落在系統(tǒng)本身。系統(tǒng)角度的相關(guān)一般有兩種比較方式。其一是在文檔本身固有的特征信息,如詞頻等等與用戶提交的查詢表達(dá)式中固有的特征信息之間進(jìn)行比較。典型做法是在文檔集中尋找出現(xiàn)了查詢表達(dá)式中的索引項的文檔;其二是在從文檔中抽取的“主題”與用戶查詢表達(dá)式中體現(xiàn)的“主題”之間做比較,即首先計算文檔中各索引項的權(quán)值,再按權(quán)值大小進(jìn)行排序,以此為依據(jù)確定文檔的主題詞。這種做法比較簡單明了,易于操作而且可以直接觀察,所以一直是信息檢索研究者們樂于接受的。

3.1.2改進(jìn)后的系統(tǒng)相關(guān)

從系統(tǒng)角度定義的相關(guān)性(即主題性相關(guān))最突出的優(yōu)點(diǎn),就是簡明和可操作性;而至少目前的系統(tǒng)還無法把握人的主觀感覺。這樣看來,采取主題性相關(guān)的態(tài)度就是唯一可行的做法。然而并不能把詞頻統(tǒng)計作為唯一的解決辦法。Fairthorne曾提出:如果允許個人推論和個人理解介入相關(guān)性判斷,那么從某種角度來看,任何文本對任何請求都是相關(guān)的。所以,改進(jìn)系統(tǒng)角度相關(guān)度計算方法似乎比較可以接受。基于此種看法,在這里可以做這樣一個設(shè)想:如果主題詞提取算法能體現(xiàn)用戶的相關(guān)性判斷直覺,那么用戶的相關(guān)性判斷就可以被描述,而檢索系統(tǒng)的輸出就可能更加令人滿意(見下圖)。系統(tǒng)角度相關(guān)不能解決相關(guān)性判斷的不確定性。相關(guān)性判斷的不確定性基本上集中于用戶的主觀因素上。信息檢索研究者的觀點(diǎn)往往局限在雖然簡單但引起很多爭議的系統(tǒng)角度相關(guān)。但是隨著檢索系統(tǒng)日益廣泛的應(yīng)用,人們開始更多地思索人機(jī)交互過程中人的因素。

3.2相關(guān)反饋技術(shù)在信息檢索系統(tǒng)中的應(yīng)用及局限

從用戶角度討論相關(guān)大體上就是觀察用戶對檢索結(jié)果的反應(yīng),是系統(tǒng)輸出向用戶需求的投射。作為系統(tǒng)本身必須“知道”如何判斷相關(guān)性,而這種機(jī)制實(shí)際上是設(shè)計者對用戶判斷方式的模擬。最終的系統(tǒng)只能將用戶判斷有差異這一事實(shí)“忽略”過去。在檢索系統(tǒng)中,使用相關(guān)反饋技術(shù)的目的,是通過檢索策略的調(diào)整來增強(qiáng)對相關(guān)文獻(xiàn)的響應(yīng)而抑制非相關(guān)文獻(xiàn)。許多年來,相關(guān)反饋被用來修正提問的問題。較復(fù)雜一些的檢索系統(tǒng)如以向量空間模型為基礎(chǔ)的SMART和概率模型等等固然包含了某“相關(guān)反饋”技術(shù),即以已經(jīng)得出的檢索結(jié)果和用戶的相關(guān)性評價為依據(jù),不斷修正查詢表達(dá)式和檢索結(jié)果集合;但是,系統(tǒng)賴以區(qū)分相關(guān)與不相關(guān)文檔集的算法卻只考慮文檔自身的特性。信息檢索的主要工作簡而言之就是提取文檔內(nèi)容特征項的過程。這就使得檢索系統(tǒng)不能跳出“系統(tǒng)中心”的局限而用戶判斷的不確定性不能得到本質(zhì)的運(yùn)用。雖然從用戶角度討論相關(guān)性定義的文獻(xiàn)多如牛毛,卻從未有一個確定性的結(jié)論;用戶的主觀因素的確難以捉摸。

結(jié)束語:在當(dāng)今的知識經(jīng)濟(jì)和網(wǎng)絡(luò)環(huán)境下,對信息的占有和知識的發(fā)現(xiàn),是發(fā)展生產(chǎn)力的重要一環(huán),人們迫切需要一種智能性的檢索工具來探索信息空間,檢索信息并進(jìn)一步進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。因此,建立一個高效率的搜索引擎是當(dāng)今社會和科學(xué)發(fā)展的強(qiáng)烈要求。

參考文獻(xiàn):

[1]石艷霞信息檢索中“相關(guān)性”與“相關(guān)反饋”研究概述

[2]王家鉞.信息檢索中“相關(guān)性”概念的研究

[3]宋玲.,馬軍Internet個性化智能信息檢索的分析與研究