我正在尝试阻止网络爬虫索引网站上的 pdf 文件。我知道如何通过 .htaccess 文件执行此操作,但不知道如何通过 web.config 文件执行此操作。此代码片段将阻止爬虫索引整个网站,对吗?我需要做什么才能阻止 pdf 被抓取?这可能吗?
<httpProtocol>
<customHeaders>
<add name="X-Robots-Tag" value="noindex" />
</customHeaders>
</httpProtocol>
答案1
设置响应标头使用 IIS URL 重写模块可以实现。
<system.webServer>
<rewrite>
<outboundRules>
<rule name="X-Robots-Tag: noindex to .pdf">
<match serverVariable="RESPONSE_X_Robots_Tag" pattern=".*" />
<conditions>
<add input="{REQUEST_FILENAME}" pattern="\.pdf$" />
</conditions>
<action type="Rewrite" value="noindex"/>
</rule>
</outboundRules>
</rewrite>
</system.webServer>