csplit 无法识别提供的正则表达式

csplit 无法识别提供的正则表达式

我正在处理这个大文件(数据.DAT,~900MB)其中包含几个其他文件。它来自 PS2 游戏。

声音样本(位于.AIFF格式),正是我所追求的,构成了它的大部分大小。

在网上搜索 PS2 后.DAT我发现它们基本上依赖于开发人员,并且由于这个游戏/工具相当晦涩并且在网上找不到太多相关信息,所以我考虑自己自动化该过程。

在十六进制编辑器上检查文件时我遇到了一些.AIFF标头,将块克隆到新的.AIFF文件,无需任何进一步的工作,它们就可以播放。

我花了一段时间从我非常有限的 bash 知识中摆脱出来,并在这里阅读了类似的问题,我想出了这个表达方式:

gcsplit -f "sample-" -b "%04d.aif" DATA.DAT /FORM/ '{*}'

(我在 OSX 上使用 coreutils,因此 csplit 上有 g- 前缀)

鉴于.AIFF文件以字符串“FORM”开头,并且考虑到文件中的所有样本基本上都彼此相邻(由可忽略的数据量间隔开,不会在样本上产生不需要的结束噪声),我认为正则表达式

/FORM/

将文件分开就足够了。

然而,每个分割文件都会输出垃圾数据,这些数据位于声音样本之间。.AIFF标题,使其无法播放。

下面是分割声音样本的十六进制数据的屏幕截图:

糟糕的分裂

这个实际示例大约从 1500 字节开始:

样本

是什么让这个表达式用偏移量分割文件?

答案1

Csplit 是一个文本实用程序。它是基于线路的。模式的/FORM/意思是“一条包含FORM”的线。行是除 LF 以外的字节序列(换行符,也称为换行符,可以写为\n, ^J, …),后跟 LF 字节(或者使用 GNU 实用程序时在文件末尾)。因此,您观察到的“垃圾”是前一个 LF 字符和FORM子字符串之间的任何内容。

手册页和--help简短描述假设您已经知道该命令的作用,因此它们只提到“片段”而没有解释。您需要阅读完整的文档获取这些部件的描述。

你不能用 csplit 做你想做的事。您可以使用 GNU awk 来完成。 (其他版本的 awk 可能不具备必要的功能 — 支持任意记录分隔符和处理空字节。)未经测试:

gawk -v RS='FORM' -v ORS='' '{
    print "FORM" $0 >sprintf("sample-%04d.aif", n++)
}' DATA.DAT

但如果压缩数据恰好包含四个字节FORM,则可能会在虚假位置被剪切。对于手动检查的一次性操作来说,这可能已经足够了,但如果您需要可靠的东西,最好使用格式感知工具。

答案2

基于文本的实用程序不适合操作二进制文件。

您可能会获得更好的结果图书馆/aifc,Py声音文件, 或者ffmpeg命令行应用程序。

相关内容