如何查找带有变音符号的阿拉伯字符？

Question 1

假设源和语言环境为 UTF-8，删除U+064B-U+065B使用 Perl 的范围：

$ echo "أَهْلاً وَ سَهْلاً" | perl -CSAD -pe 's/[\x{064B}-\x{065B}]//g'

أهلا و سهلا

来源：这是因为阿拉伯语的元音变音符号是组合字符，这意味着简单搜索并删除这些就足够了。

GNUsed似乎也可以工作（请注意，基于那些答案还有其他变音符号）：

$ echo "أَهْلاً وَ سَهْلاً" | sed -e 's/َ//g;s/ُ//g;s/ِ//g;s/ّ//g;s/ً//g;s/ٌ//g;s/ٍ//g;s/ْ//g'

أهلا و سهلا

uconv也可能有效。

查看此评论区，s3idani 的发布以获取更多信息。

Answer

假设源和语言环境为 UTF-8，删除U+064B-U+065B使用 Perl 的范围：

$ echo "أَهْلاً وَ سَهْلاً" | perl -CSAD -pe 's/[\x{064B}-\x{065B}]//g'

أهلا و سهلا

来源：这是因为阿拉伯语的元音变音符号是组合字符，这意味着简单搜索并删除这些就足够了。

GNUsed似乎也可以工作（请注意，基于那些答案还有其他变音符号）：

$ echo "أَهْلاً وَ سَهْلاً" | sed -e 's/َ//g;s/ُ//g;s/ِ//g;s/ّ//g;s/ً//g;s/ٌ//g;s/ٍ//g;s/ْ//g'

أهلا و سهلا

uconv也可能有效。

查看此评论区，s3idani 的发布以获取更多信息。

Question 2

基于巴勃罗·比安奇的回答，解决方法如下：

文本： أَهْلاً وَ سَهْلاً

命令：cat Text | sed -e 's/َ//g;s/ُ//g;s/ِ//g;s/ّ//g;s/ً//g;s/ٌ//g;s/ٍ//g;s/ْ//g;s/أ/ا/g;s/آ/ا/g;s/إ/ا/g' | grep -o "اهلا"

输出：اهلا

Answer

基于巴勃罗·比安奇的回答，解决方法如下：

文本： أَهْلاً وَ سَهْلاً

命令：cat Text | sed -e 's/َ//g;s/ُ//g;s/ِ//g;s/ّ//g;s/ً//g;s/ٌ//g;s/ٍ//g;s/ْ//g;s/أ/ا/g;s/آ/ا/g;s/إ/ا/g' | grep -o "اهلا"

输出：اهلا

相关内容