為了更好地避免出現(xiàn)多次重復(fù)爬行和獲取網(wǎng)站地址,搜索引擎會(huì)創(chuàng)建一個(gè)地址庫(kù),記錄查詢?cè)缫驯豢吹、但都還沒(méi)獲取的網(wǎng)頁(yè)頁(yè)面,和早已被獲取的網(wǎng)頁(yè)頁(yè)面。搜索引擎蜘蛛在網(wǎng)頁(yè)頁(yè)面上看到鏈接后并不是立刻就去瀏覽,而是將URL存進(jìn)地址庫(kù),隨后統(tǒng)一安排獲取。
1.人工錄入的種子網(wǎng)站。
2.搜索引擎蜘蛛獲取網(wǎng)頁(yè)頁(yè)面后,從HTML中剖析出新的鏈接URL,與地址庫(kù)中的數(shù)據(jù)開(kāi)展比照,如果是地址庫(kù)中沒(méi)有的網(wǎng)站地址,就存進(jìn)待瀏覽地址庫(kù)。
3.網(wǎng)站站長(zhǎng)通過(guò)搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)站地址。
4.網(wǎng)站站長(zhǎng)通過(guò)XML網(wǎng)站sitemap地圖、站長(zhǎng)平臺(tái)提交的網(wǎng)站地址。
搜索引擎蜘蛛按重要性從待瀏覽地址庫(kù)中提取URL,瀏覽并獲取網(wǎng)頁(yè)頁(yè)面,隨后把這個(gè)URL從待瀏覽地址庫(kù)中刪除,放進(jìn)已瀏覽地址庫(kù)中。
絕大多數(shù)主流搜索引擎都提供一個(gè)表格,讓網(wǎng)站站長(zhǎng)提交網(wǎng)址。不過(guò)這些提交來(lái)的網(wǎng)站地址都只是存進(jìn)地址庫(kù)而已,能否收錄還要看網(wǎng)頁(yè)頁(yè)面重要性如何。搜索引擎所收錄的絕大部分網(wǎng)頁(yè)頁(yè)面是搜索引擎蜘蛛自己追蹤鏈接得到的。
淮南網(wǎng)站優(yōu)化可以說(shuō)提交網(wǎng)頁(yè)頁(yè)面作用幾乎為零,搜索引擎更喜歡自己沿著鏈接看到新頁(yè)面。