windows 需要帮助编辑大型文本文件以删除重复项 - 合并 50GB 以上的 txt 工作

windows 需要帮助编辑大型文本文件以删除重复项 - 合并 50GB 以上的 txt 工作

我有 Windows 2012
32GB RAM I7 CPU 处理器 1TB SSHD

我有 .txt 格式的单词表文件,这些文件的大小从 2GB 到 50GB 不等

什么样的工具或程序可以在如此大的尺寸/行数下工作,将所有文件合并为 1 个 .txt 文件,然后在 1 个 .txt 文件中工作,合并后的文件大小可达 100GB

使用 CauseSinstive 删除重复行,并且不会崩溃、冻结或滞后?我知道我问了一个类似的问题,但我没有得到任何简单的

帮帮我,我不太明白人们使用的 cmd 代码,所以如果可能的话,有人告诉我一个程序可以真正做到这一点而没有问题,或者一个 cmd 方式,为初学者提供简单的解释

比如我需要分步做什么以及最后如何做,我需要一些东西不要让我的电脑崩溃或者运行速度很慢

我已经尝试过 Emeditor,但无法处理 10GB 的文件,而且启动速度非常慢,请帮帮我

答案1

Windows 上管理大量 txt 单词表的最佳工具是:统一列表管理器 (ULM)

超轻型飞机

您可以排序、合并、拆分、删除重复项以及执行许多其他有用的操作。

答案2

您已经在这里问过了:如何将 10GB 以上的大型 txt 文件合并为 1 个 txt 文件,并以最快的方式从该 txt 文件中删除重复的行?

我仍然建议下载 Linux(Ubuntu 或 Mint 或其他)并将其刻录到 CD 或创建可启动的 USB 驱动器,然后无需安装即可启动。然后您可以按照我在此处的建议操作。https://superuser.com/a/1250792/715210

或者安装 Windows 10 Linux Bash Shell:https://www.howtogeek.com/249966/how-to-install-and-use-the-linux-bash-shell-on-windows-10/
我认为这里的命令https://superuser.com/a/1250792/715210应该可以工作,它们确实是基本的 Linux 命令。

编辑: 我使用 Win10 pro 进行了测试(您没有提到您的操作系统)。逐步安装 Windows Linux Bash 并将文件 aa.txt 和 bb.txt 合并到 newfile.txt 并消除重复项(假设您的文件位于 C:\temp):

  1. Win+i打开“设置”
  2. 更新和安全 -> 针对开发人员:选择开发人员模式
    • 即将安装开发者模式
  3. Win+ R-> “控制面板” -> 输入
  4. 程序和功能左侧“程序”或“Windows 功能激活”
    • 选择“Windows Subsystem for Linux Beta”
  5. 重启
  6. 按下Win然后搜索“bash”并打开
  7. 有一些提示你应该回答“Y”,并且会要求你定义一个用户名和密码
    • bash 现已安装。
    • 您的驱动器 C: 现在可在 /mnt/c 下使用。
  8. 写入cd /mnt/c/temp/(或你的路径)然后按回车键
  9. cat aa.txt bb.txt | sort -u > newfile.txt
    • 如果这不起作用,您可以尝试先将文件合并为一个文件,cat aa.txt bb.txt > tempfile.txt然后执行排序命令,例如sort -u tempfile.txt > newfile.txt

相关内容