我最近偶然发现本网站据称深层网络是万维网的一个巨大部分,无法通过雅虎、谷歌或其他搜索引擎的常规查询访问。
据该网站称:
- 深层网络上的公共信息实际上比通常描述的互联网大 400 到 500 倍
- 深层网络包含 6,500 TB 的信息,而表层网络可访问的信息量仅为 20 TB
- 深层网络由近 5500 亿条独特记录和文档组成,而表层网络则有 10 亿条
- 60 个最大的深层网站总共包含 750 TB 的数据,这些数据本身就足以让公共网络的大小增加 40 倍
- 深层网络的内容质量总体上比表面网络高出 1,000 到 2,000 倍
上述说法属实吗?尤其是最后一种。如果属实,是否有办法使用 Google 等搜索引擎或任何其他方式搜索深网内容?
答案1
很多内容是无法搜索的,原因很简单,它们是在请求时动态创建的,或者以多种方式限制访问(付费墙等)。这这句话的原意是深网“。
从定义上讲,“深网”是不可搜索的。它是一个术语,用来描述明确不是可搜索。
它并不是某些实体喜欢使用的术语,互联网上一些“酷”的部分,不允许“普通人”进入。我承认“深网”听起来和“黑洞”一样酷,但实际上并没有什么区别。
例如,我运营一个个人网络服务器。其中某些部分以不同的方式限制现实生活中的熟人访问。你访问它有意义吗?提示:不是。
您引用的陈述,例如
- 深层网络的内容质量总体上比表面网络高出 1,000 到 2,000 倍
真的,都是胡说八道。
答案2
几乎所有这些观点都是纯粹的营销,我不相信它们,但它们背后可能有一些小道理。可能发生的是两件事:
搜索引擎可能不尊重robots.txt(简而言之,它是一个文件,告诉搜索引擎不要将您网站上的页面包含在搜索结果中)。因此,由于它包含所有网页(而不仅仅是允许查看的网页),因此它将拥有更多的搜索结果。
通过这两种方法,我想我可以看到他们从哪里得到这些数字,但我不明白这是如何做到的”比表面网好 1,000 到 2,000 倍“