什么是深网?

什么是深网?

我最近偶然发现本网站据称深层网络是万维网的一个巨大部分,无法通过雅虎、谷歌或其他搜索引擎的常规查询访问。

据该网站称:

  • 深层网络上的公共信息实际上比通常描述的互联网大 400 到 500 倍
  • 深层网络包含 6,500 TB 的信息,而表层网络可访问的信息量仅为 20 TB
  • 深层网络由近 5500 亿条独特记录和文档组成,而表层网络则有 10 亿条
  • 60 个最大的深层网站总共包含 750 TB 的数据,这些数据本身就足以让公共网络的大小增加 40 倍
  • 深层网络的内容质量总体上比表面网络高出 1,000 到 2,000 倍

上述说法属实吗?尤其是最后一种。如果属实,是否有办法使用 Google 等搜索引擎或任何其他方式搜索深网内容?

答案1

很多内容是无法搜索的,原因很简单,它们是在请求时动态创建的,或者以多种方式限制访问(付费墙等)。这句话的原意是深网“。

从定义上讲,“深网”是不可搜索的。它是一个术语,用来描述明确不是可搜索。

它并不是某些实体喜欢使用的术语,互联网上一些“酷”的部分,不允许“普通人”进入。我承认“深网”听起来和“黑洞”一样酷,但实际上并没有什么区别。

例如,我运营一个个人网络服务器。其中某些部分以不同的方式限制现实生活中的熟人访问。你访问它有意义吗?提示:不是。

您引用的陈述,例如

  • 深层网络的内容质量总体上比表面网络高出 1,000 到 2,000 倍

真的,都是胡说八道。

答案2

几乎所有这些观点都是纯粹的营销,我不相信它们,但它们背后可能有一些小道理。可能发生的是两件事:

  1. 搜索引擎可能不尊重robots.txt(简而言之,它是一个文件,告诉搜索引擎不要将您网站上的页面包含在搜索结果中)。因此,由于它包含所有网页(而不仅仅是允许查看的网页),因此它将拥有更多的搜索结果。

  2. 它搜索托尔为了隐藏服务并将它们列在搜索结果中。这些网站.onion的域名末尾有,您必须使用 tor 代理才能访问它们。

通过这两种方法,我想我可以看到他们从哪里得到这些数字,但我不明白这是如何做到的”比表面网好 1,000 到 2,000 倍

答案3

据我了解,“深层网络”是指网络中不易自动编入索引的部分;例如,许多页面都是响应查询或填写表格而动态生成的。或者,某些网站要求会员登录后才能查看所有内容。这些类型的网站通常对自动搜索机器人不透明,因此最终被编入索引的网站部分只有“表面”部分。

当然,实际数字很难证明;维基百科文章参考这项研究推测其大小约为 91,000 TB。

最近,谷歌宣布他们正在努力改进搜索机器人“阅读”网页的方式,这意味着他们正在尝试索引更多这种难以获取的内容。Engadget 对此进行了报道这里

相关内容