从将多个文件读取到特定行的输出中提取文本到 csv 文件

2024-5-23 • tag-icon

我正在尝试编写一个 bash 脚本来从多个 pdf 文档中的文本生成 csv 文件。我有一个用于将 pdf 转换为文本的脚本，但没有用于生成 csv 文件。每个文本文档都有自己的行，并从每个文本文档中提取某些数据片段。 csv 文件的第一行包含列的名称，而其他所有内容都是从文本文件中提取的数据。所以你的 csv 文件看起来像这样：

Data1,Data2,Data3,Data4 Data1_FromFile1,Data2_FromFile1,Data3_FromFile1,Data4_FromFile1 Data1_FromFile2,Data2_FromFile2,Data3_FromFile2,Data4_FromFile2 Data1_FromFile3,Data2_FromFIle3,Data3_FromFile3,Data4_FromFile3

并非文本文件中的所有文本都会被使用，只会使用适合某些模式的行（日期、代码、某些部分的内容）。也会有超过3条线。我将如何创建这样的 csv 文件？我会将标准输出重定向到一个文件（该文件是 csv 文件），然后如何将其格式化为 csv 文件？

相关内容