Spider抓取系統的基本框架

互聯網信息爆發式增長，如何有效的獲取并利用這些信息是搜索引擎工(gōng)作中(zhōng)的首要環節。數據抓取系統作爲整個搜索系統中(zhōng)的上遊，主要負責互聯網信息的搜集、保存、更新環節，它像蜘蛛一(yī)樣在網絡間爬來爬去(qù)，因此通常會被叫做“spider”。例如我(wǒ)們常用的幾家通用搜索引擎蜘蛛被稱爲：Baiduspdier、Googlebot、Sogou Web Spider等。

Spider抓取系統是搜索引擎數據來源的重要保證，如果把web理解爲一(yī)個有向圖，那麽spider的工(gōng)作過程可以認爲是對這個有向圖的遍曆。從一(yī)些重要的種子 URL開(kāi)始，通過頁面上的超鏈接關系，不斷的發現新URL并抓取，盡最大(dà)可能抓取到更多的有價值網頁。對于類似百度這樣的大(dà)型spider系統，因爲每時每刻都存在網頁被修改、删除或出現新的超鏈接的可能，因此，還要對spider過去(qù)抓取過的頁面保持更新，維護一(yī)個URL庫和頁面庫。

下(xià)圖爲spider抓取系統的基本框架圖，其中(zhōng)包括鏈接存儲系統、鏈接選取系統、dns解析服務系統、抓取調度系統、網頁分(fēn)析系統、鏈接提取系統、鏈接分(fēn)析系統、網頁存儲系統。Baiduspider即是通過這種系統的通力合作完成對互聯網頁面的抓取工(gōng)作。

聯系我(wǒ)們

大(dà)理青橙科技