如何从下载的字幕中删除不需要的内容?

如何从下载的字幕中删除不需要的内容?

自动生成的 YouTube 字幕包含每个单词的时间戳以及其他妨碍可读性的内容:

00:00:30.230 --> 00:00:33.900 align:start position:19%
you<00:00:31.230><c> think</c><c.colorE5E5E5><00:00:31.470><c> from</c><00:00:31.650><c> my</c><00:00:31.740><c> calm</c><00:00:31.980><c> demeanor</c><00:00:32.010><c> that</c></c><c.colorCCCCCC><00:00:32.430><c> I</c></c>


00:00:32.580 --> 00:00:36.180 align:start position:19%
haven't<c.colorE5E5E5><00:00:32.760><c> got</c><00:00:32.910><c> a</c><00:00:32.940><c> care</c><00:00:33.150><c> in</c><00:00:33.210><c> the</c><00:00:33.330><c> world</c><00:00:33.420><c> that</c></c>

00:00:33.900 --> 00:00:38.160 align:start position:19%
you'd<00:00:34.019><c> be</c><00:00:34.140><c> wrong</c><00:00:34.410><c> you</c><00:00:34.680><c> see</c><c.colorE5E5E5><00:00:35.000><c> hidden</c><00:00:36.000><c> within</c></c>

我如何才能以合理的格式保存演讲?一些用户的演讲视频以小时而不是分钟来计算,通过阅读我可以在很短的时间内看完这些“单人脱口秀”。

答案1

请执行下列操作:

  1. 复制该文件。
  2. 在具有基于正则表达式的查找和替换功能的文本编辑器中打开文件,例如记事本++或者Visual Studio 代码
  3. 调用查找和替换功能(在我给出的示例中为Ctrl+ ),找到以下正则表达式,并将其替换为空:H

    <.*?>
    

    不要忘记激活正则表达式模式。在 Notepad++ 中,您需要选择“正则表达式”单选按钮;在 Visual Studio Code 中,您需要单击显示为“.*”的按钮(或按Alt+ R

  4. 替换所有实例。

以下是 Visual Studio Code 的结果:

00:00:30.230 --> 00:00:33.900 align:start position:19%
you think from my calm demeanor that I

00:00:32.580 --> 00:00:36.180 align:start position:19%
haven't got a care in the world that

00:00:33.900 --> 00:00:38.160 align:start position:19%
you'd be wrong you see hidden within

相关内容