我需要从一个巨大的 txt 中删除重复的行。该文件大约有 150 mb。当我尝试 PSPad 时,我收到内存错误(尽管我有 8 GB 的 RAM)。
您对如何删除这些重复项有什么想法或建议吗?
答案1
Gawk:模式扫描和处理语言 下载->二进制文件->Zip
将“awk.exe”(gawk-3.1.6-1-bin\bin\awk.exe)复制到您的目录。创建 bat 文件:
awk "!x[$0]++" huge.txt>output.txt
答案2
您可以下载 $Notepad++ 并使用 TextFX 插件。转到 安装 Text FX Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install
。安装后,将出现一个新菜单,名为TextFX
选择文档中重复的部分(或选择整个文档)。转到TextFX -> TextFX Tools
,选择+Sort outputs only UNIQUE...
和sort lines case sensitive
或sort lines case insensitive
。