是否可以使用 split 将中文 unicode 字节拆分成字符块？

Question 1

每个字符都是三个字节宽，如以下xxd输出所示：

$ xxd chinese-bytes
0000000: e6b4 9ee5 baad e6b9 96                   .........

split -b3对我有用。

$ split -b3 chinese-bytes
$ echo xa?
xaa xab xac
$ cat xaa; echo
洞
$ cat xab; echo
庭
$ cat xac; echo
湖

Answer

每个字符都是三个字节宽，如以下xxd输出所示：

$ xxd chinese-bytes
0000000: e6b4 9ee5 baad e6b9 96                   .........

split -b3对我有用。

$ split -b3 chinese-bytes
$ echo xa?
xaa xab xac
$ cat xaa; echo
洞
$ cat xab; echo
庭
$ cat xac; echo
湖

Question 2

据我所知，所有汉字编码时都是3个字节长UTF-8，unix 上的正常 Unicode 编码。但非中文字符（例如空格和换行符）可能具有不同的宽度（基本控制字符以及阿拉伯数字形式等都是单字节宽）。该split实用程序仅理解固定数量的字节，因此它会不加区别地进行不对齐的切割。

您需要使用更复杂的工具来分割每 42 个字符。这是一个可以解决问题的 Perl 片段（未经测试）。请注意，它对每个字符都一视同仁：一个汉字计为 1，换行符也计为 1。

perl -CDS -e '
    $n = 0;
    while (read STDIN, $buf, 42) {
        open OUT, sprintf("> output-$n.txt") or die;
        print OUT $buf;
        close OUT or die;
        ++$n;
    }'

Answer

据我所知，所有汉字编码时都是3个字节长UTF-8，unix 上的正常 Unicode 编码。但非中文字符（例如空格和换行符）可能具有不同的宽度（基本控制字符以及阿拉伯数字形式等都是单字节宽）。该split实用程序仅理解固定数量的字节，因此它会不加区别地进行不对齐的切割。

您需要使用更复杂的工具来分割每 42 个字符。这是一个可以解决问题的 Perl 片段（未经测试）。请注意，它对每个字符都一视同仁：一个汉字计为 1，换行符也计为 1。

perl -CDS -e '
    $n = 0;
    while (read STDIN, $buf, 42) {
        open OUT, sprintf("> output-$n.txt") or die;
        print OUT $buf;
        close OUT or die;
        ++$n;
    }'

Question 3

在我使用的 mac 终端中egrep -o '.'

Answer

在我使用的 mac 终端中egrep -o '.'

是否可以使用 split 将中文 unicode 字节拆分成字符块？

答案1

答案2

答案3

相关内容