使网络服务器阻止解析某些 HTML 元素

使网络服务器阻止解析某些 HTML 元素

MediaWiki 内容管理系统创建了许多链接,我不希望搜索引擎爬虫发现他们的网页。

我不仅不想要它们索引更重要的是我不想要它们爬过但我根本不想要它们发现

理论上,我可以尝试自定义我的 MediaWiki 网站的皮肤(主题/模板)以删除链接到这些网页的 HTML 元素但要明智地做到这一点需要对 MediaWiki 架构进行大量的学习,如果有更简单的解决方案,我宁愿不这样做。

  • CSSdisplay: none不会有帮助,因为标记会在 DOM 中很明显
  • JavaScriptdocument.querySelector("#x").remove();不会有帮助,因为在它运行之前,爬虫可能会发现链接元素
  • 我无法使用 PHP 8.1.3 来忽略它自己的先前命令,因为任何带有此类链接的标记在处理时都会提供给用户。
  • 我可以使用 robots.txt 来尝试阻止抓取(如果不索引)这些页面,但是,由于我的网站 URL 是多语言的并且有很多模式,这可能是一个艰巨的任务。

唯一能对我有帮助的技巧是以某种方式要求服务器不要通过 CSS ID 或类提供任何此类标记。

虽然这方法很残忍,但真的管用吗?如果不行,我还有什么其他选择吗?

相关内容