互聯網信息爆發式增長,如何有效的獲取并利用這些信息是搜索引擎工(gōng)作中(zhōng)的首要環節。數據抓取系統作爲整個搜索系統中(zhōng)的上遊,主要負責互聯網信息的搜集、保存、更新環節,它像蜘蛛一(yī)樣在網絡間爬來爬去(qù),因此通常會被叫做“spider”。例如我(wǒ)們常用的幾家通用搜索引擎蜘蛛被稱爲:Baiduspdier、Googlebot、Sogou Web Spider等。
Spider抓取系統是搜索引擎數據來源的重要保證,如果把web理解爲一(yī)個有向圖,那麽spider的工(gōng)作過程可以認爲是對這個有向圖的遍曆。從一(yī)些重要的種子 URL開(kāi)始,通過頁面上的超鏈接關系,不斷的發現新URL并抓取,盡最大(dà)可能抓取到更多的有價值網頁。對于類似百度這樣的大(dà)型spider系統,因爲每時 每刻都存在網頁被修改、删除或出現新的超鏈接的可能,因此,還要對spider過去(qù)抓取過的頁面保持更新,維護一(yī)個URL庫和頁面庫。
下(xià)圖爲spider抓取系統的基本框架圖,其中(zhōng)包括鏈接存儲系統、鏈接選取系統、dns解析服務系統、抓取調度系統、網頁分(fēn)析系統、鏈接提取系統、鏈接分(fēn)析系統、網頁存儲系統。Baiduspider即是通過這種系統的通力合作完成對互聯網頁面的抓取工(gōng)作。