發布時間:2024-04-12 文章來源:深度系統下載 瀏覽:
| 搜索引擎技術的發展歷程
在互聯網絡日益滲入我們日常生活的今天,海量的貯存和科學的搜索是人們信息行為中兩樣最重要的能力。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。互聯網上的搜索引擎可以分為兩大類:目錄式搜索引擎以及基于關鍵詞的搜索引擎。 1、目錄式搜索引擎 我們知道,處理復雜事物的一種有效方法是按照一定標準將事物歸類。經過歸類后,每個事物都與其他事物建立聯系,與未經分類的,雜亂無序的狀態相比,此時查找就變得相對容易。目錄式搜索引擎采取的就是這一方法。 ●目錄式搜索引擎的工作原理 目錄式搜索引擎的數據庫建立在人工編輯的基礎上,由專業人員對網上信息進行選擇、標引、分類,合理地將不同學科、專業、行業或區域的網絡信息,按照分類或主題目錄的形式組織起來,編制成為等級式的主題指南或主題目錄,供用戶瀏覽和尋找感興趣的信息內容。 ●目錄式搜索引擎的典型代表Yahoo Yahoo的信息組織方式具有以下特點 :完備分類體系,歸納網上信息。它將傳統的分類思想移植于網上信息的組織,在此思想的指導下,結合網絡信息源的特點,構筑類目體系。在14個基本大類之下又以擁有信息的多寡及知識組織的需要程度,將每一基本大類細分成不同層次的次類目。層次越深,主題越專指,從而形成了一個由類目、子類目構成的可供瀏覽的相當詳盡的目錄等級結構,為網上豐富的信息資源歸類,特別是確切歸類提供了保障。 以人工方式為主,保證加工質量。采用分面分析原理,由信息專家編制主題目錄,將人的智力投入到信息的選擇與加工過程中,從而保證了目錄編制的質量。同時,以人工為主,對提交的網頁按主題目錄進行篩選、歸類和組織,克服了單純由搜索軟件自動分類所帶來的缺陷,增強了分類的合理性,提高了檢索的準確性。 ●目錄式搜索引擎的不足 覆蓋率有限 :網絡信息增長迅速,使得采集信息的速度遠遠跟不上信息增長的速度,更不用說編制主題索引的速度了;分類困難:不同搜索引擎的體系結構不同,分類體系的建立缺乏統一的標準,使得同一內容的信息在不同搜索引擎中經常會被歸入不同類目,造成用戶的困擾;成本高,時效差。隨著網絡應用技術的發展,用戶不再滿足于這種對網站分類和摘要的簡單查找,更希望對內容進行查找,于是就出現了基于關鍵詞查詢的搜索引擎。 2、基于關鍵詞的搜索引擎 目前互聯網上的搜索引擎大多數都采用了基于關鍵詞的查詢技術,其典型代表為Google和百度,內容可以覆蓋互聯網上的絕大多數網頁內容。 基于關鍵詞的搜索引擎一般由搜索器、索引器、檢索器和用戶接口等四個部分組成。 ●基于關鍵詞的搜索引擎的排序算法 基于關鍵詞的搜索引擎通過程序收集并索引的信息資源量極其龐大,而用戶的提問式卻大多由幾個詞組成,這種情況會導致數量龐大的檢索結果,用戶需要花費巨大的精力進行瀏覽篩選。搜索引擎采用的排序算法包括以下幾種:基于詞頻統計的排序算法 。早期很多搜索引擎采用的排序算法是基于詞頻統計的,詞權的計算一般把該詞在HTML網頁中出現的位置考慮進來,例如在標題中出現的詞比在正文中的詞權值高。但是由于網絡資源的數量巨大,詞頻相同的兩個網頁質量卻可能相差很遠,因此這種算法的局限性很明顯。 ●基于超鏈分析的排序算法。 傳統情報檢索理論中的引文分析方法是確定學術文獻權威性的重要方法之一,即根據引文的數量來確定文獻的權威性。Google所采用的PageRank即借鑒了這一思想。PageRank的發明者對網絡超鏈接結構和文獻引文機制的相似性進行了研究,把引文分析思想借鑒到網絡文檔重要性的計算中來,利用網絡自身的超鏈接結構給所有的網頁確定一個重要性的等級數,以此來幫助實現排序算法的優化。但它存在著偏重舊網頁和偏重綜合站點的缺陷。 ●基于關鍵詞的搜索引擎的不足 明顯的不足表現為:結果多,相關性低;更新慢;對自然語言理解能力差;不支持個性化查詢;對多媒體內容的檢索尚不成熟。 搜索引擎的技術熱點
針對基于關鍵詞搜索引擎所存在的不足,各搜索引擎網站紛紛向智能化、個性化方面發展,世界各國計算機科學界和信息產業界也都在積極的探索解決之道,搜索引擎已成為一個新的研究、開發領域。
1、多媒體搜索技術 基于內容的檢索,是指直接對媒體內容特征和上下文語義環境進行的檢索。一般而言,可用于網絡檢索的多媒體信息的內容特征大致包括:圖像的顏色、紋理、形狀等;聲音的音頻、響度、頻度和音色等;影像的視頻特征、運動特征等。這種類型的搜索引擎還不多見,并且主要用于圖像檢索,如QBIC、WeebSeek、ImageRover等。目前的多媒體搜索引擎覆蓋面小,檢索功能不夠完善,效果也不太理想,因此,多媒體搜索技術尤其是音頻、視頻數據的檢索仍是搜索引擎的一個研究重點。 2、對等搜索技術 目前的互聯網是以服務器為中心的,人們向服務器發送請求,然后瀏覽服務器回應的信息,而對等搜索技術P2P(Peer to Peer)將以用戶為中心,所有的用戶都是平等的伙伴。相隔萬里的用戶可以通過P2P共享硬盤上的文件、目錄甚至整個硬盤。把這一理念具體運用到搜索引擎技術上來:P2P將使用戶能夠深度搜索文檔,而且這種搜索無須通過Web服務器,也可以不受信息文檔格式和宿主設備的限制,可達到傳統目錄式搜索引擎無可比擬的深度。 P2P網絡的一個很大的問題在于搜索信息時所產生的網絡通信量非常巨大,在時間和網絡資源方面造成很大的浪費。為方便P2P網絡中的信息檢索,有關專家提出了三種建立在特征文件基礎上的檢索機制:對語義路由進行詳細分析,提出了一個建立在此技術和RDF技術基礎上的新方法。 3、用戶行為分析 一個以西班牙語的目錄式搜索引擎的用戶日志為樣本分析了網絡用戶的搜索行為,發現網絡搜索用戶與傳統檢索系統的用戶其行為存在差別,例如,網絡用戶一般只查看最前面的幾個結果頁面,網絡用戶很少使用操作符構造提問式等。該研究還對搜索次數與用戶每分鐘查看的文獻或目錄數進行了分析。 4、智能檢索技術 智能檢索主要包括自然語言處理、個性化搜索等技術,目前涉及這一領域的研究較多。 智能工具MySpiders是一個線性多代理系統,可以在用戶提問時對網絡信息進行挖掘,實現實時的動態查詢,從而加強搜索引擎的功能。智能檢索系統——ACIRD使用機器學習技術組織和檢索網絡文獻。它由知識獲取模塊、文獻分類器和搜索引擎組成。 5、檢索結果的后處理 目前這方面的研究內容主要集中在結果排序的優化算法以及結果的聚類及可視化等領域。 對內容敏感的排序算法的研究表明,傳統的PageRank算法是與提問無關的,只計算一個向量值用以衡量網頁的重要性。而事實上,對于不同的提問,網頁的重要性也不相同。 檢索結果可視化并可修正提問的交互系統Webrat不依賴事先計算好的元數據,而是直接從搜索引擎的結果列表中獲取所有必要信息,將結果文獻實時動態聚類,并以圖示方法提供給用戶。用戶可以利用選擇關鍵詞以及類別的方式與系統交互,從而修正提問獲取更滿意的結果。該系統獨立于語言,適用于大量數據來源及可視化模型。
|
上一篇:丟包補償技術完成教程
下一篇:電腦開機網絡連接慢的處理辦法