nushell:打开 excel 文件并在其中搜索文本

nushell:打开 excel 文件并在其中搜索文本

我想使用打开多个 Excel 文件,在其中搜索文本并打印每条匹配的行及其位置。例如:

hugh 文件.xsls,工作表 123,第 98765 行:...todo...

为了打开单个文件,我尝试:

open "huge file.xlsx" | find todo

但结果却是一行,包含整个 Excel 文件作为一个 (JSON ?) 字符串。我发现 Nu 可以打开 Excel 文件,这非常有用。我只需要一种方法来获得更好的搜索结果显示。:-)

这个问题是关于 Nu 的,而不是任何其他可以实现这一点的 shell、编程语言或工具。:-)

答案1

这里的主要问题是 Nushell 的find机制无法与电子表格的嵌套表结构“很好地配合”。该find命令接收的open "huge file.xlsx"只是 Excel 文件中每个工作表(选项卡)的一行。它会愉快地扫描该行,找到文本,然后返回每个工作表作为一个结果集。

作为一个(JSON?)字符串

find它不完全是 JSON,甚至不是 Nuon;我猜想当面对嵌套表时,它可能只是内部结果的一些副作用。

有几种方法可以从findExcel 文件中获得更好的结果。但是,这些方法都不是高效的,因为它们需要多次扫描文件。你说文件“很大”,但大小是相对的,所以我不太清楚这是什么意思。我在这里假设文件不是大到无法加载到内存中。通过在执行以下操作之前将其加载到内存中,性能似乎与“正常的”单个 相当find

简单(?)解决方案

首先,针对此问题,有一个通用的 Nu 解决方案,可以保留现有find功能。为了简洁起见,我在一个较小的文件1sample.xlsx如下所列)上运行它,我的搜索词是foo

let $excelfile = (open "huge file.xlsx")
$excelfile | 
| columns |
| each {
    |sheet|
    let results = ( $excelfile | get $sheet | enumerate | flatten | find foo )
    {
      Sheet: $sheet,
      Found: $results
    }
}

结果见下面的脚注2

选择

另一种解决方案返回的结果更接近您问题中的示例,但稍微复杂一些。本质上,我们需要“展开”每个嵌套层并分别扫描最终结果,以识别:

  • 文件名
  • 床单
  • 柱子

... 在其中发现了它。

def xlsx-find [ fileList phrase ] {
  $fileList | each {
    |filename|
    let t = (open $filename)
    let sheets = ($t | columns)
    $sheets | each {
      |sheetname|
      let columns = ($t | get $sheetname | columns )
      $columns | each {
        |columnname|
        let findResults = ($t | get $sheetname | get $columnname | enumerate | find $phrase)
        $findResults | get index | each {
          |row|
          {
            file: $filename,
            sheet: $sheetname,
            column: $columnname,
            row: $row
          }
        }
      }
    }
  } | flatten | flatten | flatten
}

对可能比较“棘手”的关键点进行解释:

  • 本质上,我们正在循环遍历提供给函数的每个文件。
  • 获取并循环遍历该 Excel 文件中的每个工作表。
  • 获取并循环遍历该表中的每一列
  • enumerate以便我们知道删除不匹配的行后的行号
  • find'文本
  • 循环遍历每个结果,仅取index(提供的行号enumerate
  • 返回包含所需信息的记录
  • 每个each语句都会创建自己的表,因此最后我们需要flatten对每个循环获取一次结果each
xlsx-find [ Book1.xlsx ] foo

结果更加紧凑(但仍然是 Nu 表):

╭───┬────────────┬────────┬─────────┬─────╮
│ # │    file    │ sheet  │ column  │ row │
├───┼────────────┼────────┼─────────┼─────┤
│ 0 │ Book1.xlsx │ Sheet2 │ column0 │   0 │
│ 1 │ Book1.xlsx │ Sheet2 │ column1 │   0 │
│ 2 │ Book1.xlsx │ Sheet2 │ column2 │   0 │
│ 3 │ Book1.xlsx │ Sheet3 │ column0 │   3 │
│ 4 │ Book1.xlsx │ Sheet3 │ column0 │   5 │
│ 5 │ Book1.xlsx │ Sheet3 │ column1 │   4 │
╰───┴────────────┴────────┴─────────┴─────╯

当然,完全可以根据上述 Nushell 字符串插值来输出文本。

虽然我还没有走这么远,但是如果你想要获得一些“上下文”(每个找到的结果之前和之后的文本),你可能会使用某种形式来str replace修剪结果。

表现

我还在一个更大的文件上测试了这一点。我在一个 Excel 文件中有大约 15,0000 个 Stack Overflow 答案(包括它们的 Markdown),用于研究潜在的 ChatGPT/AI 答案。我基本上在几张表中复制了 15k 行,最终在一个 20MB 的文件中得到了超过 100k 行。我不认为这“很大”,但它很可观。巧合的是,它还包含很多带有短语的答案“去做”在里面。

xlsx-find [ hugefile.xlsx ] todo

... 仅用了 15 秒多一点的时间(使用命令timeit)就返回了 945 个结果。这与正常情况相当find。但是,如果每次都从磁盘读取文件(而不是提前加载到内存中),则扫描仅需 1 分钟多一点的时间。


脚注

1 sample.xlsx

  • Sheet1:空

  • 工作表2:

    ╭───┬─────────┬─────────┬─────────╮
    │ # │ column0 │ column1 │ column2 │
    ├───┼─────────┼─────────┼─────────┤
    │ 0 │ Foo1    │ Foo2    │ Foo3    │
    ╰───┴─────────┴─────────┴─────────╯
    
  • 表 3:

    ╭───┬─────────┬──────────────────────────╮
    │ # │ column0 │         column1          │
    ├───┼─────────┼──────────────────────────┤
    │ 0 │ abc     │                   456.00 │
    │ 1 │ def     │ StackOverflow            │
    │ 2 │  123.00 │ SuperUser                │
    │ 3 │ Foo     │ Not found here           │
    │ 4 │ Bar     │ It is foound here though │
    │ 5 │ foobar  │                          │
    ╰───┴─────────┴──────────────────────────╯
    

2第一个命令的结果:

注意:全部“foo”该命令会突出显示找到的内容find,但是这些内容在 Markdown 中不可见:

╭───┬────────┬────────────────────────────────────────────╮
│ # │ Sheet  │                   Found                    │
├───┼────────┼────────────────────────────────────────────┤
│ 0 │ Sheet1 │ [list 0 items]                             │
│ 1 │ Sheet2 │ ╭───┬─────────┬─────────┬─────────╮        │
│   │        │ │ # │ column0 │ column1 │ column2 │        │
│   │        │ ├───┼─────────┼─────────┼─────────┤        │
│   │        │ │ 0 │ Foo1    │ Foo2    │ Foo3    │        │
│   │        │ ╰───┴─────────┴─────────┴─────────╯        │
│ 2 │ Sheet3 │ ╭───┬─────────┬──────────────────────────╮ │
│   │        │ │ # │ column0 │         column1          │ │
│   │        │ ├───┼─────────┼──────────────────────────┤ │
│   │        │ │ 3 │ Foo     │ Not found here           │ │
│   │        │ │ 4 │ Bar     │ It is foound here though │ │
│   │        │ │ 5 │ foobar  │                          │ │
│   │        │ ╰───┴─────────┴──────────────────────────╯ │
╰───┴────────┴────────────────────────────────────────────╯

相关内容