linux命令comm可以处理UTF-8编码的文本文件吗?

linux命令comm可以处理UTF-8编码的文本文件吗?

我想比较两个 UTF-8 编码的文本文件。 Linux 命令 diff 和 comm 可以处理这些编码吗?

答案1

为什么不?

2 个俄语文本文件

$ file -i test1.txt test2.txt                                                                                                                                                    
test1.txt: text/plain; charset=utf-8                                                                                                                                                                               
test2.txt: text/plain; charset=utf-8

$ cat test1.txt                                                                                                                                                                  
Привет                     

$ cat test2.txt                                                                                                                                                                  
Добрый день                                                                                                                                                                                                        

$ diff test1.txt test2.txt                                                                                                                                                       
1c1                                                                                                                                                                                                                
< Привет                                                                                                                                                                                                           
---                                                                                                                                                                                                                
> Добрый день                                                                                                                                                                                                      

答案2

使用-我强制文件的参数打印有关编码的信息

我创建了两个包含一些字符的文件

一个编码在UTF-8和一个编码在ISO-8859-1

$ file -i *
file1: text/plain; charset=utf-8
file2: text/plain; charset=iso-8859-1

相关内容