Heirloom Toolchest tr：尝试删除包含多字节字符的集合的补码时出错？

Question

我以前见过。一个错误。尝试：

--- tr.c        6 Sep 2005 23:04:11 -0000       1.10
+++ tr.c        30 May 2014 09:46:33 -0000
@@ -291,7 +291,6 @@
                if(c<ccnt) code[c] = d;
                if(d<ccnt && sflag) squeez[d] = 1;
        }
-       free(vect);
        while((d = next(&string2)) != NIL) {
                if(sflag) squeez[d] = 1;
                if(string2.max==NIL && (string2.p==NULL || *string2.p==0))

（这是几个月前的快速浏览，虽然这个补丁可以让您继续前进，但我不能保证它是正确的。使用申请patch -l）。

现在还要注意，/dev/urandom提供了一个流字节。在 UTF-8 中，并非所有字节序列都映射到有效字符。例如，0x41 0x81 0x41 无效，因为0x81它是>=0x80，因此它只能出现在超过 0x80 字节的 2 个或更多字节的序列中。

无效字节，因为它不在 ☠ 的补码字符集中，因此不会被删除tr。

更好的可能是：

recode ucs-2..u8 < /dev/urandom | tr -cd ☠

ucs-2 是字符 U+0000 到 U+FFFF，每个字符编码为 2 个字节，/dev/urandom看起来更像是 ucs-2 字符流。（不过我们缺少字符 U+10000 到 U+10FFFF）。

但这仍然包括D800..DFFF 代理对范围这mbrtowc(3)会让人窒息（至少对于我的 libc 版本）。

这些代码点是为 UTF-16 编码而保留的。例如，d800dc00 是 U+10000 的 UTF-16BE 编码，但没有 U+D800 字符或 U+DC00。这些字符的 UTF-8 编码也没有意义（即使相邻）。

所以你需要首先排除它们：

perl -ne 'BEGIN{$/=\2;binmode STDOUT,":utf8"}
          $c = unpack("n",$_); if ($c < 0xd800 || $c > 0xdfff) {
            no warnings "utf8"; print chr($c)
          }' < /dev/urandom | tr -cd ☠

如果目的是获取以 UTF-8 编码的随机 Unicode 字符流，最好获取允许范围内的随机代码点（0..0xd7ff、0xf000..0x10ffff）并将其转换为 UTF-8。如果您想将其基于/dev/urandom，则可以为每个代码点使用其中的 3 个字节（24 位）：

perl -ne 'BEGIN{$/=\3;binmode STDOUT,":utf8"}
          $c = unpack("N","\0$_") * 0x10F800 >> 24;
          $c+=0x800 if $c >= 0xd800;
          do {no warnings "utf8"; print chr($c)}' < /dev/urandom |
  tr -cd ☠

Answer 1