當前位置:妙知谷 >

職場理財 >職場就業 >

搜索引擎的基本工作原理

搜索引擎的基本工作原理

現在互聯網上存在的網頁數量是數以百億千億計的,這些網站存儲在不同的服務器上,
分佈在世界各地的數據中心和機房。

操作方法

(01)對於搜索引擎來説, 要抓取互聯網上所有的網頁幾乎是不可能的, 從目前公佈的數據來看, 容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。 一方面原因是抓取技術存在瓶頸,無法遍歷所有網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面平均大小 20K 計算(包含圖片) ,100億網頁的容量是 100×2000G 字節,即使能夠存儲,下載也存在問題(按照一台機器每秒下載 20K 計算,需要 340 台機器不停的下載一年時間,才能把所有網頁下載完畢) 。同時,由於數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而評價重要性的主要依據是某個網頁的鏈接深度。

(02)有人會認為搜索引擎在接收到搜索請求時,會實時地從全球所有的服務器上查詢信息,並把查詢結果展示在用户面前,這其實是一種誤解。如果搜索引擎是這樣工作的,那麼查詢一條信息可能要等上好幾年才能得到搜索結果,這還不包括期間網頁發生的變化。實際上, 搜索引擎會預先去拜訪大量的網站, 並把這些網頁的部分信息預先存儲在自己的服務器上,這樣,當用户搜索的時候,其實是在搜索引擎自己的服務器中進行查詢,就像我們在自己的電腦中查詢文件一樣。搜索引擎是非常複雜的技術,但是其基本原理並不複雜,其基本技術包括抓取、索引、排序。

搜索引擎的基本工作原理
標籤: 搜索引擎
  • 文章版權屬於文章作者所有,轉載請註明 https://miaozhigu.com/zclc/jiuye/k9v6ml.html