HTTP代理处理不同的编码

HTTP代理处理不同的编码

我正在开发一个网络爬虫,所以我会解析 HTML 页面。我的问题是,有时页面编码不是 UTF8(ISO、奇特的 Windows[0-9] 等),我的分析器就会失败。

我尝试了 PHP/Java/NodeJS 中的许多解决方案来转换内容,但总是出现问题。

是否存在代理模块(nginx,squid,varnish ....)来自动将内容字符集转换为 UTF8?

答案1

字符集应该在标题中声明 - 如果不是 utf-8 则将其转换 -图标适用于大多数版本的 Linux 和 Unix。如果您正在构建网络爬虫,那么将其集成到您的代码中比集成到代理中更容易。

相关内容