使用 utf8 编码执行 bash 脚本时出现问题

Question

您的版本可能sed不支持多字节分隔符。如果您查看§两种字符集中的编码方式，就会发现差异：

% locale
LANG="en_CA.UTF-8"
LC_COLLATE="en_CA.UTF-8"
LC_CTYPE="en_CA.UTF-8"
LC_MESSAGES="en_CA.UTF-8"
LC_MONETARY="en_CA.UTF-8"
LC_NUMERIC="en_CA.UTF-8"
LC_TIME="en_CA.UTF-8"
LC_ALL=
% printf § > section.utf8
% hexdump -C section.utf8
00000000  c2 a7                                             |..|
00000002
% iconv -f UTF-8 -t WINDOWS-1252 < section.utf8 > section.win1252
% hexdump -C section.win1252
00000000  a7                                                |.|
00000001

不同版本sed会给出或多或少有用的信息。在我的 OS X 10.6 系统上，我得到了一些有点神秘的信息：

% sed 's§foo§bar§' 
sed: 1: "s§foo§bar§": RE error: illegal byte sequence

Ubuntu 10.04 LTS 使用的版本sed更有帮助：

% sed 's§foo§bar§'
sed: -e expression #1, char 2: delimiter character is not a single-byte character

Answer 1

您的版本可能sed不支持多字节分隔符。如果您查看§两种字符集中的编码方式，就会发现差异：

% locale
LANG="en_CA.UTF-8"
LC_COLLATE="en_CA.UTF-8"
LC_CTYPE="en_CA.UTF-8"
LC_MESSAGES="en_CA.UTF-8"
LC_MONETARY="en_CA.UTF-8"
LC_NUMERIC="en_CA.UTF-8"
LC_TIME="en_CA.UTF-8"
LC_ALL=
% printf § > section.utf8
% hexdump -C section.utf8
00000000  c2 a7                                             |..|
00000002
% iconv -f UTF-8 -t WINDOWS-1252 < section.utf8 > section.win1252
% hexdump -C section.win1252
00000000  a7                                                |.|
00000001

不同版本sed会给出或多或少有用的信息。在我的 OS X 10.6 系统上，我得到了一些有点神秘的信息：

% sed 's§foo§bar§' 
sed: 1: "s§foo§bar§": RE error: illegal byte sequence

Ubuntu 10.04 LTS 使用的版本sed更有帮助：

% sed 's§foo§bar§'
sed: -e expression #1, char 2: delimiter character is not a single-byte character

使用 utf8 编码执行 bash 脚本时出现问题

答案1

相关内容