我收到了一个包含来自政府网站数据的 Excel 文件,其文本是印地语。
当我打开 csv 文件时,它会以 Unicode 字符显示印地语文本,如下所示:बहेरी,,
我安装了印度语字体,但不起作用。似乎 Excel 将这些字符视为文本而不是 Unicode。有没有关于如何解决这个问题的线索?我将其上传到 Google 表格中,但仍然不起作用。但是,当我将此文本复制到 ChatGPT 时,它确实以印度语显示该词及其回复。
我也尝试在 excel 和 stata 中将这些数据以 utf-8 格式“导入”,但仍然不起作用。
答案1
该文件可能不是用印地语编写的,但可能包含没有 字节顺序标记 (BOM) 这样 Excel 就将其读取为文本而不是 Unicode。
要强制 Excel 将文件读取为 Unicode,请执行以下操作:
- 转到“数据”窗格
- 在“获取和转换数据”组中单击“来自文本/CSV”
- 当对话框打开时,在“文件来源”下拉菜单中尝试另一种编码。
找到正确的编码后,为了保留此文件,请将其保存为 Windows 电子表格。
答案2
导入到 Excel 时,您也应该尝试其他字符编码。
我认为这肯定是字符编码问题,而不是缺少字体类型的问题。
如果是字体缺失问题,则显示的字符将是空方块或其他一些统一的字符,表示字体缺失。例如:□