文本文件中的 Unicode 字符串

文本文件中的 Unicode 字符串

我有一个文本文件,其中包含以下带有常规文本的 unicode 字符串。

目录a.txt

{"relationship":{"type:Memberkey","id""824-\u0001\u0019BFGHDICA2166-01-01","source"}

这里\u0001\u0019是 unicode 字符串,导致我们的程序失败。

是否有通用命令来替换任何此类字符串?

答案1

不幸的是,这取决于“通用命令”的含义和“替换”的含义。

我认为你的意思是你希望将 Unicode 简化为最相似的 UTF-8,在这种情况下你想看看图标

你可能会发现本指南有帮助。

您可能想用您自己的一些任意文本替换这些字符串,在这种情况下您想查看正则表达式。 你可能会发现本指南有帮助。

编辑:如果您不太确定自己想要什么,那么您可能应该首先尝试一下文件本身(的副本)。您应该知道的一件事(如果您还不知道)是打印函数命令。你可能会发现本指南有帮助。

答案2

如果你只是想摆脱这些控制字符,你可以使用 sed:

sed -i 's/\\u001[[:xdigit:]]//;s/\\u000[0-9bBcCeEFF]//' your_file

我假设您想保留 CR 和 LF 字符,即使它们被编码为\u000a\u000d

相关内容