1349浏覽量

Spider抓取系統的基本框架

來源: 時間:2016-02-09

互聯網信息爆發式增長,如何有效的獲取并利用這些信息是搜索引擎工(gōng)作中(zhōng)的首要環節。數據抓取系統作爲整個搜索系統中(zhōng)的上遊,主要負責互聯網信息的搜集、保存、更新環節,它像蜘蛛一(yī)樣在網絡間爬來爬去(qù),因此通常會被叫做“spider”。例如我(wǒ)們常用的幾家通用搜索引擎蜘蛛被稱爲:Baiduspdier、Googlebot、Sogou Web Spider等。

Spider抓取系統是搜索引擎數據來源的重要保證,如果把web理解爲一(yī)個有向圖,那麽spider的工(gōng)作過程可以認爲是對這個有向圖的遍曆。從一(yī)些重要的種子 URL開(kāi)始,通過頁面上的超鏈接關系,不斷的發現新URL并抓取,盡最大(dà)可能抓取到更多的有價值網頁。對于類似百度這樣的大(dà)型spider系統,因爲每時 每刻都存在網頁被修改、删除或出現新的超鏈接的可能,因此,還要對spider過去(qù)抓取過的頁面保持更新,維護一(yī)個URL庫和頁面庫。

下(xià)圖爲spider抓取系統的基本框架圖,其中(zhōng)包括鏈接存儲系統、鏈接選取系統、dns解析服務系統、抓取調度系統、網頁分(fēn)析系統、鏈接提取系統、鏈接分(fēn)析系統、網頁存儲系統。Baiduspider即是通過這種系統的通力合作完成對互聯網頁面的抓取工(gōng)作。

聯系我(wǒ)們

一(yī)次需求提交或許正是成就一(yī)個出色産品的開(kāi)始。
歡迎填寫表格或發送合作郵件至: qczsky@126.com

大(dà)理青橙科技

電(diàn)話(huà):13988578755 13988578755

郵箱:qczsky@126.com

地址:大(dà)理市下(xià)關龍都春天10層