ファブリス・ベラールのTS Zip(2024)
概要
ts_zipは、大規模言語モデルを利用したテキストファイル専用の高圧縮率圧縮ツール。
GPUと4GB RAMが必須で、速度は従来ツールより遅い。
英語中心に学習されたモデルを採用し、他言語やソースコードにも対応。
実験的な性質のため、バージョン間の互換性なし。
小規模メッセージ圧縮にはts_smsも推奨。
ts_zipの特徴
- **大規模言語モデル(RWKV 169M v4)**によるテキストファイル圧縮
- 従来ツール(xz等)より高い圧縮率を実現
- 圧縮・展開速度:最大1MB/s(RTX 4090使用時)
- 対応ファイル:テキストファイルのみ
- バイナリファイルの圧縮効果は限定的
- 必要環境:GPU、4GB以上のRAM
- 英語データ中心の学習だが、他言語・ソースコードにも対応
- 実験的ツールのため、バージョン間の後方互換性なし
- 小規模メッセージ用圧縮ツール:ts_smsも利用可能
圧縮率比較
-
圧縮率はbits per byte (bpb)で表示
-
代表的なファイルの比較例:
-
alice29.txt
- 元サイズ:152,089 bytes
- xz圧縮:48,492 bytes(2.551 bpb)
- ts_zip圧縮:21,713 bytes(1.142 bpb)
-
enwik8
- 元サイズ:100,000,000 bytes
- xz圧縮:24,865,244 bytes(1.989 bpb)
- ts_zip圧縮:13,825,741 bytes(1.106 bpb)
-
linux-1.2.13.tar
- 元サイズ:9,379,840 bytes
- xz圧縮:1,689,468 bytes(1.441 bpb)
- ts_zip圧縮:1,196,859 bytes(1.021 bpb)
-
他のプログラムとの比較結果はLarge Text Compression Benchmark参照
-
ダウンロード
- Linux版:ts_zip-2024-03-02.tar.gz
- Windows版:ts_zip-2024-03-02-win64.zip
技術情報
- RWKV 169M v4モデル採用
- 速度と圧縮率のバランスに優れる
- 8ビット量子化+BF16浮動小数点で評価
- トークン確率の予測と算術符号化による圧縮
- 決定的かつ再現性のある評価方式
- GPU/CPUやスレッド数に依存しない結果
- 異なるハードウェアやソフトウェアでも展開可能
注意点・補足
- 実験段階のため、将来のバージョンとの互換性保証なし
- Fabrice Bellardによる開発
- 公式サイト:https://bellard.org/