網路上的spider搜尋蜘蛛如何跟搜索引擎結合的簡單介紹

 從輸入關鍵字,到搜索引擎給出搜索結果的過程,往往僅需幾毫秒即可完成。百度是如何在浩如煙海的網路資源中,以如此之快的速度將您的網站內容展現給用戶?這背後蘊藏著什麼樣的工作流程和運算邏輯?

事實上,搜索引擎的工作並非僅僅如同首頁搜索框一樣簡單。
搜索引擎為用戶展現的每一條搜索結果,都對應著網路上的一個頁面。每一條搜索結果從產生到被搜索引擎展現給用戶,都需要經過四個過程:抓取、過濾、建立索引和輸出結果。

1:抓取
spider,或稱蜘蛛,會通過搜索引擎系統的計算,來決定對哪些網站施行抓取,以及抓取的內容和頻率值。搜索引擎的計算過程會參考您的網站在歷史中的表現,比如內容是否足夠優質,是否有不友好的設置,是否存在過度的搜索引擎優化行為等等。
當您的網站產生新內容時,spider會通過網路中某個指向該頁面的鏈結進行訪問和抓取,如果您沒有設置任何外部鏈結指向網站中的新增內容,則spider是無法對其進行抓取的。
對於已被抓取過的內容,搜索引擎會對抓取的頁面進行記錄,並依據這些頁面對用戶的重要程度安排不同頻次的抓取更新工作。
需您要注意的是,有一些抓取軟體,為了各種目的,會偽裝成spider對您的網站進行抓取,這可能是不受控制的抓取行為,嚴重時會影響到網站的正常運作。

2:P過濾
網路中並非所有的網頁都對用戶有意義,比如一些明顯的欺騙用戶的網頁,死連結,空白內容頁面等。這些網頁對用戶、站長和搜索引擎來說,都沒有足夠的價值,因此會自動對這些內容進行過濾,以避免為用戶和您的網站帶來不必要的麻煩。

3.建立索引
抓取回來的內容會逐一進行標記和識別,並將這些標記進行儲存為結構化的資料,比如網頁的tagtitlemetadescripiton、網頁外連及描述、記錄。也會將網頁中的關鍵字資訊進行識別和儲存,以便與用戶搜索的內容進行匹配。

4.輸出結果
用戶輸入的關鍵字,對其進行一系列複雜的分析,並根據分析的結論在索引庫中尋找與之最為匹配的一系列網頁,按照用戶輸入的關鍵字所體現的需求強弱和網頁的優劣進行打分,並按照最終的分數進行排列,展現給用戶。

通過搜索引擎為用戶帶來更好的體驗,需要進行網站嚴格的內容,更符合用戶的流覽需求。

FACEBOOK訪客留言版