我需要列出 Unicode 中 ID Start 和 ID Continue 类别中的所有字符。我可以在哪里针对特定版本的 Unicode(在本例中为 Unicode 5)执行此操作?
我认为该网站https://codepoints.net不允许对特定的 Unicode 版本执行此操作。
答案1
按照Unicode® 标准附件 #31(Unicode 标识符和模式语法)和ID_Start
字符ID_Continue
类别均源自 UnicodeGeneral_Category
(阅读全文UnicodeData 文件格式和Unicode 字符数据库文章)。
看表 2. 标识符词汇类别的属性(摘要):
ID_Start
字符源自 Unicode General_Category,包括大写字母、小写字母、标题字母、修饰字母、其他字母、字母数字、加号Other_ID_Start
、减号Pattern_Syntax
和Pattern_White_Space
代码点。
- 用集合符号表示:
[[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
ID_Continue
字符包括ID_Start
字符,加上具有 Unicode General_Category 的非间距标记、间距组合标记、十进制数、连接标点、加号Other_ID_Continue
、减号Pattern_Syntax
和Pattern_White_Space
代码点的字符。
- 用集合符号表示:
[[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
我们可以在这里看到对Other_ID_Start
、Other_ID_Continue
和Pattern_Syntax
的引用Pattern_White_Space
;例如:
Other_ID_Start
和Other_ID_Continue
属性所涵盖的字符的确切列表取决于 Unicode 的版本。有关更多信息,请参阅 Unicode 标准附件 #44,“Unicode 字符数据库”[UAX44]。
解析UnicodeData.txt
,应用上面创建的有效正则表达式集合符号. 适用于正确版本UnicodeData.txt
,浏览自/公共索引。
http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt
↑ ↑ ↑