修改 Web.config 以阻止搜索引擎抓取 pdf

修改 Web.config 以阻止搜索引擎抓取 pdf

我正在尝试阻止网络爬虫索引网站上的 pdf 文件。我知道如何通过 .htaccess 文件执行此操作,但不知道如何通过 web.config 文件执行此操作。此代码片段将阻止爬虫索引整个网站,对吗?我需要做什么才能阻止 pdf 被抓取?这可能吗?

<httpProtocol>
    <customHeaders>
        <add name="X-Robots-Tag" value="noindex" />
    </customHeaders>
</httpProtocol>

答案1

设置响应标头使用 IIS URL 重写模块可以实现。

<system.webServer>
  <rewrite>
    <outboundRules>
      <rule name="X-Robots-Tag: noindex to .pdf">
        <match serverVariable="RESPONSE_X_Robots_Tag" pattern=".*" />
        <conditions>
          <add input="{REQUEST_FILENAME}" pattern="\.pdf$" />
        </conditions>
        <action type="Rewrite" value="noindex"/>
      </rule>
    </outboundRules>
  </rewrite>
</system.webServer>

相关内容