在哪里可以找到特定类别的 Unicode 5 字符?

在哪里可以找到特定类别的 Unicode 5 字符?

我需要列出 Unicode 中 ID Start 和 ID Continue 类别中的所有字符。我可以在哪里针对特定版本的 Unicode(在本例中为 Unicode 5)执行此操作?

我认为该网站https://codepoints.net不允许对特定的 Unicode 版本执行此操作。

答案1

按照Unicode® 标准附件 #31(Unicode 标识符和模式语法)ID_Start字符ID_Continue类别均源自 UnicodeGeneral_Category(阅读全文UnicodeData 文件格式Unicode 字符数据库文章)。

表 2. 标识符词汇类别的属性(摘要):

  • ID_Start字符源自 Unicode General_Category,包括大写字母、小写字母、标题字母、修饰字母、其他字母、字母数字、加号Other_ID_Start、减号 Pattern_SyntaxPattern_White_Space代码点。

    • 用集合符号表示:
    • [[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
  • ID_Continue字符包括ID_Start字符,加上具有 Unicode General_Category 的非间距标记、间距组合标记、十进制数、连接标点、加号 Other_ID_Continue、减号Pattern_SyntaxPattern_White_Space代码点的字符。

    • 用集合符号表示:
    • [[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]

我们可以在这里看到对Other_ID_StartOther_ID_ContinuePattern_Syntax的引用Pattern_White_Space;例如:

Other_ID_StartOther_ID_Continue属性所涵盖的字符的确切列表取决于 Unicode 的版本。有关更多信息,请参阅 Unicode 标准附件 #44,“Unicode 字符数据库”[UAX44]

解析UnicodeData.txt,应用上面创建的有效正则表达式集合符号. 适用于正确版本UnicodeData.txt,浏览自/公共索引

 http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt
                           ↑ ↑ ↑

相关内容