我想使用努打开多个 Excel 文件,在其中搜索文本并打印每条匹配的行及其位置。例如:
hugh 文件.xsls,工作表 123,第 98765 行:...todo...
为了打开单个文件,我尝试:
open "huge file.xlsx" | find todo
但结果却是一行,包含整个 Excel 文件作为一个 (JSON ?) 字符串。我发现 Nu 可以打开 Excel 文件,这非常有用。我只需要一种方法来获得更好的搜索结果显示。:-)
这个问题是关于 Nu 的,而不是任何其他可以实现这一点的 shell、编程语言或工具。:-)
答案1
这里的主要问题是 Nushell 的find
机制无法与电子表格的嵌套表结构“很好地配合”。该find
命令接收的open "huge file.xlsx"
只是 Excel 文件中每个工作表(选项卡)的一行。它会愉快地扫描该行,找到文本,然后返回每个工作表作为一个结果集。
作为一个(JSON?)字符串
find
它不完全是 JSON,甚至不是 Nuon;我猜想当面对嵌套表时,它可能只是内部结果的一些副作用。
有几种方法可以从find
Excel 文件中获得更好的结果。但是,这些方法都不是高效的,因为它们需要多次扫描文件。你说文件“很大”,但大小是相对的,所以我不太清楚这是什么意思。我在这里假设文件不是大到无法加载到内存中。通过在执行以下操作之前将其加载到内存中,性能似乎与“正常的”单个 相当find
。
简单(?)解决方案
首先,针对此问题,有一个通用的 Nu 解决方案,可以保留现有find
功能。为了简洁起见,我在一个较小的文件1(sample.xlsx
如下所列)上运行它,我的搜索词是foo
:
let $excelfile = (open "huge file.xlsx")
$excelfile |
| columns |
| each {
|sheet|
let results = ( $excelfile | get $sheet | enumerate | flatten | find foo )
{
Sheet: $sheet,
Found: $results
}
}
结果见下面的脚注2。
选择
另一种解决方案返回的结果更接近您问题中的示例,但稍微复杂一些。本质上,我们需要“展开”每个嵌套层并分别扫描最终结果,以识别:
- 文件名
- 床单
- 柱子
- 排
... 在其中发现了它。
def xlsx-find [ fileList phrase ] {
$fileList | each {
|filename|
let t = (open $filename)
let sheets = ($t | columns)
$sheets | each {
|sheetname|
let columns = ($t | get $sheetname | columns )
$columns | each {
|columnname|
let findResults = ($t | get $sheetname | get $columnname | enumerate | find $phrase)
$findResults | get index | each {
|row|
{
file: $filename,
sheet: $sheetname,
column: $columnname,
row: $row
}
}
}
}
} | flatten | flatten | flatten
}
对可能比较“棘手”的关键点进行解释:
- 本质上,我们正在循环遍历提供给函数的每个文件。
- 获取并循环遍历该 Excel 文件中的每个工作表。
- 获取并循环遍历该表中的每一列
enumerate
以便我们知道删除不匹配的行后的行号find
'文本- 循环遍历每个结果,仅取
index
(提供的行号enumerate
) - 返回包含所需信息的记录
- 每个
each
语句都会创建自己的表,因此最后我们需要flatten
对每个循环获取一次结果each
。
xlsx-find [ Book1.xlsx ] foo
结果更加紧凑(但仍然是 Nu 表):
╭───┬────────────┬────────┬─────────┬─────╮
│ # │ file │ sheet │ column │ row │
├───┼────────────┼────────┼─────────┼─────┤
│ 0 │ Book1.xlsx │ Sheet2 │ column0 │ 0 │
│ 1 │ Book1.xlsx │ Sheet2 │ column1 │ 0 │
│ 2 │ Book1.xlsx │ Sheet2 │ column2 │ 0 │
│ 3 │ Book1.xlsx │ Sheet3 │ column0 │ 3 │
│ 4 │ Book1.xlsx │ Sheet3 │ column0 │ 5 │
│ 5 │ Book1.xlsx │ Sheet3 │ column1 │ 4 │
╰───┴────────────┴────────┴─────────┴─────╯
当然,完全可以根据上述 Nushell 字符串插值来输出文本。
虽然我还没有走这么远,但是如果你想要获得一些“上下文”(每个找到的结果之前和之后的文本),你可能会使用某种形式来str replace
修剪结果。
表现
我还在一个更大的文件上测试了这一点。我在一个 Excel 文件中有大约 15,0000 个 Stack Overflow 答案(包括它们的 Markdown),用于研究潜在的 ChatGPT/AI 答案。我基本上在几张表中复制了 15k 行,最终在一个 20MB 的文件中得到了超过 100k 行。我不认为这“很大”,但它很可观。巧合的是,它还包含很多带有短语的答案“去做”在里面。
xlsx-find [ hugefile.xlsx ] todo
... 仅用了 15 秒多一点的时间(使用命令timeit
)就返回了 945 个结果。这与正常情况相当find
。但是,如果每次都从磁盘读取文件(而不是提前加载到内存中),则扫描仅需 1 分钟多一点的时间。
脚注
1 sample.xlsx
:
Sheet1:空
工作表2:
╭───┬─────────┬─────────┬─────────╮ │ # │ column0 │ column1 │ column2 │ ├───┼─────────┼─────────┼─────────┤ │ 0 │ Foo1 │ Foo2 │ Foo3 │ ╰───┴─────────┴─────────┴─────────╯
表 3:
╭───┬─────────┬──────────────────────────╮ │ # │ column0 │ column1 │ ├───┼─────────┼──────────────────────────┤ │ 0 │ abc │ 456.00 │ │ 1 │ def │ StackOverflow │ │ 2 │ 123.00 │ SuperUser │ │ 3 │ Foo │ Not found here │ │ 4 │ Bar │ It is foound here though │ │ 5 │ foobar │ │ ╰───┴─────────┴──────────────────────────╯
2第一个命令的结果:
注意:全部“foo”该命令会突出显示找到的内容find
,但是这些内容在 Markdown 中不可见:
╭───┬────────┬────────────────────────────────────────────╮
│ # │ Sheet │ Found │
├───┼────────┼────────────────────────────────────────────┤
│ 0 │ Sheet1 │ [list 0 items] │
│ 1 │ Sheet2 │ ╭───┬─────────┬─────────┬─────────╮ │
│ │ │ │ # │ column0 │ column1 │ column2 │ │
│ │ │ ├───┼─────────┼─────────┼─────────┤ │
│ │ │ │ 0 │ Foo1 │ Foo2 │ Foo3 │ │
│ │ │ ╰───┴─────────┴─────────┴─────────╯ │
│ 2 │ Sheet3 │ ╭───┬─────────┬──────────────────────────╮ │
│ │ │ │ # │ column0 │ column1 │ │
│ │ │ ├───┼─────────┼──────────────────────────┤ │
│ │ │ │ 3 │ Foo │ Not found here │ │
│ │ │ │ 4 │ Bar │ It is foound here though │ │
│ │ │ │ 5 │ foobar │ │ │
│ │ │ ╰───┴─────────┴──────────────────────────╯ │
╰───┴────────┴────────────────────────────────────────────╯