混合文本文件中 X 语言的字符数？

Question 1

确定 Unicode 字符串的长度可能存在问题。看这一页有关规范化的更多详细信息，请参阅 Twitter 的开发人员文档

字符数将取决于您配置的区域设置。您可以运行locale来验证是否已配置 UTF-8 区域设置。完成此操作后，@stephen-rauch 的代码应该可以工作。

根据您使用的正则表达式库，您也许还可以使用命名脚本，例如\p{Hebrew}以下是使用删除所有非希伯来字符\P{Greek} 的示例：\P{Hebrew}关联

编辑：初始结果是由于区域设置配置错误造成的

Answer

确定 Unicode 字符串的长度可能存在问题。看这一页有关规范化的更多详细信息，请参阅 Twitter 的开发人员文档

字符数将取决于您配置的区域设置。您可以运行locale来验证是否已配置 UTF-8 区域设置。完成此操作后，@stephen-rauch 的代码应该可以工作。

根据您使用的正则表达式库，您也许还可以使用命名脚本，例如\p{Hebrew}以下是使用删除所有非希伯来字符\P{Greek} 的示例：\P{Hebrew}关联

编辑：初始结果是由于区域设置配置错误造成的

Question 2

这些对我来说似乎很接近（在 Ubuntu 16.04 上测试）

$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\x{0590}-\x{05ff}//,"\n"' input
62
$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\p{Hebrew}//,"\n"' input
63

我不确定“正确”的答案应该是什么。

Answer

这些对我来说似乎很接近（在 Ubuntu 16.04 上测试）

$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\x{0590}-\x{05ff}//,"\n"' input
62
$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\p{Hebrew}//,"\n"' input
63

我不确定“正确”的答案应该是什么。

Question 3

使用 python 你可以做这样的事情：

代码：

# coding: utf-8
import re
import codecs

#find_hebrew = re.compile(ur'[\u0590-\u05ff]+')  # python 2
find_hebrew = re.compile(r'[\u0590-\u05ff]+')   # python 3

count = 0
with codecs.open('text_file', 'rU', encoding='utf-8') as f:
    for line in f.readlines():
        for n in find_hebrew.findall(line):
            count += len(n)
print(count)

结果：

Answer

使用 python 你可以做这样的事情：

代码：

# coding: utf-8
import re
import codecs

#find_hebrew = re.compile(ur'[\u0590-\u05ff]+')  # python 2
find_hebrew = re.compile(r'[\u0590-\u05ff]+')   # python 3

count = 0
with codecs.open('text_file', 'rU', encoding='utf-8') as f:
    for line in f.readlines():
        for n in find_hebrew.findall(line):
            count += len(n)
print(count)

混合文本文件中 X 语言的字符数？

答案1

答案2

答案3

代码：

结果：

相关内容