存储数百万个音频文件并具有搜索功能(如果可能)

存储数百万个音频文件并具有搜索功能(如果可能)

我正在寻找这个问题的解决方案,我存储了价值 7TB 的文件,它们都是音频文件,这些文件是基于星号的服务器 freepbx 的录音。

起初我所做的是在带有 SSD 的服务器上安装 proxmox 以实现更快的访问,然后安装 nextcloud 以通过 Web 访问文件(该服务器仅服务于本地网络,因此安全性不是这里的问题)随着我不断上传文件,我意识到这是一个坏主意,因为它需要花费大量时间搜索一个特定文件,而我的使用量只有 2tb,我已经使用 next cloud 有一段时间了,我知道我可以通过 ssh 或 webdav 搜索,但这也需要花费大量时间,因为这些文件需要多个用户定期访问。

所以我正在寻找此问题的解决方案,因为我仍然有价值 5TB 的数据,并且我正在寻找网络访问或任何其他方式来轻松地从存储中查找和检索数据,或者全新的操作系统/网络服务器,以帮助存储和访问文件。

我有用于启动的 ssd 和用于在 raid5 上存储的 4x4tb 驱动器,该服务器上有 2x 千兆局域网卡,用于通过安装的 proxmox 进行访问并运行一些虚拟机,数据结构为年>月>日期>1000 个文件,名称上有电话号码以便识别。

谢谢您最好的问候,

答案1

我也在处理大量的音频文件。

我发现处理这个问题的最佳方法是:

  • 使用SSD磁盘和RAID1/ZFS镜像来加快访问速度。
  • 不要处理文件,而是处理文件名和元数据:创建一个简单且轻量级的可搜索索引。对于数据库,ElasticSearch 运行良好但占用内存,带有索引字段列的 PostgreSQL 也可以完成这项工作。
  • 当触发访问时,只需使用文件路径的链接。

我的工作流程是:

  1. 从简单的网页浏览基于文本的树和文件名(自制)
  2. 单击访问文件
  3. 网页根据路径检索文件并将其提供给用户(在局域网上或通过互联网)。

顺便说一句,有了这样的数据量,看看数据囤积者使用的工具会很有趣,比如

相关内容