如何在文本行中查找未指定的重复

如何在文本行中查找未指定的重复

我有一些教育视频,想用 Bombono DVD 刻录到 DVD 上,并附上相应的字幕。字幕 (.srt 文件) 的格式如下:

1 00:00:00,000 --> 00:00:02,000 在我们介绍原子的视频中,我

2 00:00:02,000 --> 00:00:06,000 稍微讨论一下原子中心的

3 00:00:06,000 --> 00:00:09,000 原子核,它实际上只是整个

ETC。

然而,字幕中存在不少错误,其中一行的时间为零秒。例如:

81 00:03:37,000 --> 00:03:37,000 稍微快一点。

当 DVD 创作软件找到这些行时,它会取消整个 DVD 刻录过程。我可以找出哪一行导致了错误,但之后我必须重新启动刻录,才能知道下一行在哪里。

我的问题是,如果我不知道重复的确切字符串是什么,是否可以创建一个脚本,该脚本将搜索所有字幕文件并查找一行上的所有重复实例。本质上,是否可以显示每行有 12 个字符重复,而无需指定这些字符是什么(因为它们在每个实例中都不同?)

感谢您的帮助。

答案1

awk '$2 == $4 {print NR ":" $0}' filename

将输出所有有问题的行及其行号。

相关内容