Zlib字典训练

Zlib字典训练

我有一个可能是一个独特的问题需要解决我需要创建一个适用于短字符串(句子)的压缩/解压缩,比如说 100 个字节字符串包含有限数量的唯一 ASCII 字符,实际上总共有 41 个可能的字符。这些字符串还包含一组相对较小的可能子字符串

我想训练 zlib 根据合法的字符集和频繁出现的子字符串创建一个字典

理想情况下,我想通过提供可能的句子的巨大数据集来创建字典,但排除非法字符

有什么建议么?谢谢

相关内容