删除 R 中的非阿拉伯语单词

删除 R 中的非阿拉伯语单词

我正在尝试删除 r 中的非阿拉伯语单词,我尝试了此代码,但它删除了所有内容

> L<-"you المجدo to yes"
> gsub("[^\\p{InArabic}.,]+","",L)
[1] ""

答案1

您需要添加perl = TRUE以便 R 以 PCRE 模式编译正则表达式。

另外,我不确定这{InArabic}是否是受支持的字符类 - 尽管{Arabic}至少在我的 R 版本中似乎是受支持的(R 版本 3.4.4 (2018-03-15) - “可以依靠的人”):

> L<-"you المجدo to yes"
> 
> gsub("[^\\p{Arabic}.,]+", "", L, perl = TRUE)
[1] "المجد"

相关内容