搜索引擎Spider到底會不會“爬”?

2016-07-19 1543 0 編輯:深色多郎 來源:SEO書籍

網站建設后,網站都要靠吸引Spider,那么搜索引擎Spider是一個什么東西,會爬嗎,你們還真別說,他就是靠爬行抓取獲取資料和資源,就讓我們來八一八什么是搜索引擎Spider?

Spider抓取一個網頁后會優先把網頁中的URL提取出來,同時記錄和計URL的形式、位置、錨文本、當前頁所賦予的權值等信息,然后把這些URL合并到抓取隊列中,并根據毎個URL所附有的總權值等信息進行抓取隊列內排序。Spider就是根據這個不斷變化順序的URL隊列來抓取網頁內容的,并不是從一個頁面沿著鏈接爬到另一個頁面的抓取過程。因此嚴格來說Spider是不會"爬"的,站長在網站日志中也可以看到Spider對網站的訪問并沒有refer,都是直接訪問。

以往一般會把Spider抓取網頁的過程形象地描述為搜索引擎放出Spider,然后這個Spider 就沿著鏈接不斷地抓取網頁,這只是一種形象的比喻而已。比如以前描述類似萬年歷的"蜘蛛陷阱"時,會有這樣的描述"蜘蛛進入到蜘蛛陷阱后會一層一層地無限抓取下去""蜘蛛進去就出不來了""把蜘蛛永遠留在站內了",這類描述給大家傳達的意思都是Spider沿著鏈接從一個網頁到另一個網頁的爬行過程。其實按照實際的Spider設計,"蜘蛛陷阱"并不是把Spider留在了站內"出不去了",而是如果不加控制的話,Spider會在"蜘蛛陷阱"的網頁集合中收集到無數無意義的URL并放入抓取隊列中,這些URL對應的網頁并沒有實際有意義的內容,從而會造成Spider抓取資源的浪費。所謂的"把蜘蛛強制留在站內"對應實際的Spider抓取機制,應該是如果Spider不加限制地收集URL,就需耍無限制地抓取"蜘蛛陷阱"內的URL,然而"蜘蛛陷阱"內的URL可能是無限的,并不是"一個蜘蛛掉陷阱里出不來了"。

也就是說,Spider對網頁的抓取丫'.次訪問抓取,每訪問一個頁面都會把頁面上的信息抓取回來,而不是把一個"小蜘蛛"派到網站上,然后沿著網站的鏈接爬行抓取大量的頁面之后再返回給服務器。百度搜索"留住蜘蛛"會有大量相關文章,內容基本都是設法增加Spider抓取次數,比喻很形象,但也有些誤導新同學。

搜索引擎Spider是個好家伙,他喜歡來您家,說明您網站做的不錯,反之則不然,同學們可要把握好吸引甚至勾引她的計劃了。

本站文章均為深正網站建設摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,我們歡迎您分享,引用和轉載,但謝絕直接搬磚和抄襲!感謝...
關注深正互聯
七星彩头尾