當前位置:妙知谷 >

家居 >生活常識 >

暗網是什麼?

暗網是什麼?

暗網一詞最初由Dr.Jill Ellsworth於1994年提出,指那些由普通搜索引擎難以發現其信息內容的Web頁面。因為這些信息內容是用户所看不到的,所以被稱為是暗網。

暗網是什麼?

暗網(Hidden Web)如其釋義所説,通常是指網絡上大部分內容是不能通過靜態鏈接獲取的,特別是大部分隱藏在搜索表單之後的頁面只有通過用户鍵入一系列關鍵詞才可以獲得。形象的理解是,這些頁面是目前搜索引擎所無法抓取的網頁、不能檢索到的信息,即“看不見”的網站,由於當前的搜索引擎不能索引到或不能在它們的返回結果中顯示這些頁面,因此對用户來説這部分頁面是隱藏的。

來源

暗網(互聯網) Hidden Web最初由Dr.Jill Ellsworth於1994年提出,指那些由普通搜索引擎難以發現其信息內容的Web頁面。從信息量來講,與現在能夠索引的數據相比,“暗網”更是要龐大得多。根據Bright Planet公司此前發佈的一個名為《The Deep Web-Surfacing The Hidden Value》(深層次網絡,隱藏的價值)白皮書中提供的數據,“暗網”包含100億個不重複的表單,其包含的信息量是“非暗網”的40倍,有效高質內容總量至少是後者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共享信息,如此一來,“暗網”已經成為互聯網新信息增長的最大來源,也就是説,互聯網正在變得“越來越暗”。

暗網是什麼? 第2張

現狀

當然,所謂“暗網”,並不是真正的“不可見”,對於知道如何訪問這些內容的人來説,它們無疑是可見的。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯網可以獲取,但普通搜索引擎由於受技術限制而不能或不作索引的那些文本頁、文件或其它通常是高質量、權威的信息。根據最近對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)Hidden Web大約有307,000個站點,450,000個後台數據庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)Hidden Web內容分佈於多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對佔更大比重。

(3)當今的爬蟲並非完全爬行不到Hidden Web後台數據庫內,一些主要的搜索引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜索引擎存在技術上的本質缺陷。

(4)Hidden Web中的後台數據庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些Hidden Web目錄服務已經開始索引Web數據庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

(6)Web數據庫往往位於站點淺層,多達94%的Web數據庫可以在站點前3層發現。

暗網是什麼? 第3張

暗網分類

一般情況下暗網可以根據其產生原因分為兩種:

一種是技術的原因,很多網站本身不規範、或者説互聯網本身缺少統一規則,導致了搜索引擎的爬蟲無法識別這些網站內容並抓取,這不是搜索引擎自身就能解決的問題,而是有賴整個網絡結構的規範化,百度的“阿拉丁計劃”、谷歌的“雲計算”就是要從根本解決這一問題。

另一個原因則是很多網站根本就不願意被搜索引擎抓取,比如考慮到版權保護內容、個人隱私內容等等,很多網站都在屏蔽百度、比如最近最大的視頻分享網站優酷也宣佈屏蔽百度一樣,這更不是搜索引擎能解決的問題了。如果他們能被搜索引擎抓取到,就屬於違法了。

標籤: 暗網
  • 文章版權屬於文章作者所有,轉載請註明 https://miaozhigu.com/jj/changshi/mve1o.html