Google Sheet 和 Microsoft Excel 无法识别特殊字符

Google Sheet 和 Microsoft Excel 无法识别特殊字符

我开发了一个网络爬虫来提取一些信息并将其打印到 Excel 电子表格中。

但是,Excel 和 Google Sheet 都无法识别某些特殊字符,如下所示:

特殊字符

文本内容如下:(“Woodland”​ 或“公司”​) 这只是一个案例,还有几个特殊字符无法识别。

您知道我该如何转换它们吗?我必须在 Excel 和 Google Sheet 上启用某些功能吗?

我已经为此困扰好几天了——欢迎任何帮助。

谢谢你!!

答案1

爬虫是用什么编写的?最简单的选择可能是让解析器在输出之前删除特殊字符。

话虽如此,您如何将数据输出到电子表格本身?我认为我们需要更多信息来帮助您。

或者你可以使用类似这样的方法 https://exceljet.net/formula/remove-unwanted-characters

答案2

Excel 确实支持 Unicode。您的(未指定的)方法和编码是罪魁祸首。

这看起来像是从 Web 以 UTF-8 格式检索数据,然后将其导入 Excel 而不指定 UTF-8 编码,因此它认为它正在读取 ANSI 文本。结果是占用两个字节的 UTF-8 中的特殊字符显示为两个奇怪的字符。

如果你正在为 Excel 创建输入文件,则可以在其前面加上 字节顺序标记 (BOM)。BOM 的 UTF-8 表示形式是(十六进制)字节序列 0xEF,0xBB,0xBF

相关内容