如何合并两个文件并排除两个文件中都存在的行？

Question 1

还有更有效的方法，但这里是A解决方案。我不确定您希望如何合并文件。因此，在此解决方案中，将 file1 中的不同行写入新文件，然后将 file2 中的不同行写入新文件。

# remove_dupes.py
from sys import argv

infile1 = open( str(argv[1]), "r" )
infile2 = open( str(argv[2]), "r" )
try:
    outfile = open( str(argv[3]), "w" )
except (IndexError):
    outfile = open( 'out', "w" )


if1_arr = infile1.readlines()
if2_arr = infile2.readlines()
tmp_arr = if2_arr



exclude = []
for line in if1_arr:
    if line in if2_arr:
        exclude.append(line)
    else:
        outfile.write(line)

for line in if2_arr:
    if line not in exclude:
        outfile.write(line)

infile1.close()
infile2.close()
outfile.close()

跑步：

python3 remove_dupes.py <file1> <file2> <output_file>

如果您想将其转变为更快的命令行工具，请将脚本移至长期位置，并将以下行添加到您的 .bashrc、.bash_aliases、.zshrc 或等效文件中。

alias mydiff='python3 <path_to_script> '

您可以将“mydiff”替换为您想要的任何名称。之后，您可以使用以下命令运行脚本：

mydiff <file1> <file2> <output_file>

Answer

还有更有效的方法，但这里是A解决方案。我不确定您希望如何合并文件。因此，在此解决方案中，将 file1 中的不同行写入新文件，然后将 file2 中的不同行写入新文件。

# remove_dupes.py
from sys import argv

infile1 = open( str(argv[1]), "r" )
infile2 = open( str(argv[2]), "r" )
try:
    outfile = open( str(argv[3]), "w" )
except (IndexError):
    outfile = open( 'out', "w" )


if1_arr = infile1.readlines()
if2_arr = infile2.readlines()
tmp_arr = if2_arr



exclude = []
for line in if1_arr:
    if line in if2_arr:
        exclude.append(line)
    else:
        outfile.write(line)

for line in if2_arr:
    if line not in exclude:
        outfile.write(line)

infile1.close()
infile2.close()
outfile.close()

跑步：

python3 remove_dupes.py <file1> <file2> <output_file>

如果您想将其转变为更快的命令行工具，请将脚本移至长期位置，并将以下行添加到您的 .bashrc、.bash_aliases、.zshrc 或等效文件中。

alias mydiff='python3 <path_to_script> '

您可以将“mydiff”替换为您想要的任何名称。之后，您可以使用以下命令运行脚本：

mydiff <file1> <file2> <output_file>

Question 2

简单的解决方案

diff --suppress-common-lines fileB  fileC

我用目录中的文件名测试了这一点
```
$ ls *c* > fileC
$ ls *b* > fileB
```

我使用该sdiff 工具并排显示了两个文件之间的差异。以下是前几行

ACM Queue - Databases Only.recipe                         <
ACM Queue Magazine Database Only.recipe                   <
acm_queue.txt                                             <
blighted.csv                                                blighted.csv
Brave Passwords_4.csv                                       Brave Passwords_4.csv
conda_history.txt                                         <
conda_install_altair.log2~                                <
copied.url                                                <
copy_in.sh                                                <

我发现有两句共同的blighted.csv话 Brave Passwords_4.csv

diff --suppress-common-lines fileB fileC

显示文件减去公共行

去测试

  $ grep "blighted.csv" fileB
  blighted.csv
  $ grep "blighted.csv" fileC
  blighted.csv
  $ diff --suppress-common-lines fileC fileB | grep "blighted.csv"
  $ (no output)

最后一个帮助——删除 diff 应用于输出的编辑标记

diff --suppress-common-lines fileB fileC | grep "^<\|^>" | sed "s/^. //g"

Answer

简单的解决方案

diff --suppress-common-lines fileB  fileC

我用目录中的文件名测试了这一点
```
$ ls *c* > fileC
$ ls *b* > fileB
```

我使用该sdiff 工具并排显示了两个文件之间的差异。以下是前几行

ACM Queue - Databases Only.recipe                         <
ACM Queue Magazine Database Only.recipe                   <
acm_queue.txt                                             <
blighted.csv                                                blighted.csv
Brave Passwords_4.csv                                       Brave Passwords_4.csv
conda_history.txt                                         <
conda_install_altair.log2~                                <
copied.url                                                <
copy_in.sh                                                <

我发现有两句共同的blighted.csv话 Brave Passwords_4.csv

diff --suppress-common-lines fileB fileC

显示文件减去公共行

去测试

  $ grep "blighted.csv" fileB
  blighted.csv
  $ grep "blighted.csv" fileC
  blighted.csv
  $ diff --suppress-common-lines fileC fileB | grep "blighted.csv"
  $ (no output)

最后一个帮助——删除 diff 应用于输出的编辑标记

diff --suppress-common-lines fileB fileC | grep "^<\|^>" | sed "s/^. //g"

如何合并两个文件并排除两个文件中都存在的行？

答案1

答案2

简单的解决方案

最后一个帮助——删除 diff 应用于输出的编辑标记

相关内容