【生成AI】Wan2.2 モデルのVRAM容量と量子化について(5B / 14B)

WAN2.2は、動画生成や画像生成などAI生成の分野で注目されている大規模モデルです。
公開されているモデルは 5B(50億パラメータ) と 14B(140億パラメータ) の2種類のみです。
パラメータ数が大きいほどGPUメモリ(VRAM)が必要になるため、適切な量子化方式を選ぶことが重要です。
■ 量子化とは?
量子化(Quantization)とは、モデルのパラメータ(重み)をより少ないビット数で表現する手法です。
これにより、GPUでモデルを動かす際に必要なVRAMを削減できます。
主な量子化方式
| 方式 | bit | 特徴 |
|---|---|---|
| Q4_K_M | 4 | 軽量化重視。Mixed(M)技術で精度安定 |
| Q4_K_S | 4 | 軽量化・高速重視。単純量子化 |
| Q5_K_M | 5 | バランス型。精度と軽量化両立 |
| Q5_K_S | 5 | バランス型。計算速度優先 |
| Q6_K | 6 | 精度重視の軽量化。多くの環境で実用的 |
| Q8_0 | 8 | 高精度。量子化誤差が少ない |
| fp16 | 16 | 非量子化。精度最大だがVRAM消費大 |
- K_M(Mixed):推論安定性・精度を優先した量子化
- K_S(Speed):軽量化・高速処理重視の量子化
量子化は必須ではありませんが、VRAMが限られた環境では必須級の手法です。
■ VRAMの計算方法(概算)
モデルを動かすのに必要なVRAMは、パラメータ数と量子化ビット数から概算できます。
- モデルのパラメータ数
- 5Bモデル → 5,000,000,000個
- 14Bモデル → 14,000,000,000個
- 1パラメータあたりのメモリ(量子化bit)
- 16bit → 2バイト
- 8bit → 1バイト
- 4bit → 0.5バイト
- 計算式(GB換算)
必要VRAM ≒ パラメータ数 × 1パラメータあたりのバイト ÷ 1GB- 1GB = 1,000,000,000バイト
- 例:14Bモデルを4bit量子化 → 14 × 0.5 ≒ 7GB
実際にはKVキャッシュや推論時のオーバーヘッドを考慮し、少し余裕を持つのがおすすめです。
■ WAN2.2 モデルサイズ別・量子化方式別 VRAM目安
| モデル | 量子化 | bit | VRAM目安 | 特徴 |
|---|---|---|---|---|
| 5B | Q4_K_M | 4 | 2.5GB | 軽量化・精度安定 |
| 5B | Q4_K_S | 4 | 2.5GB | 軽量化・高速重視 |
| 5B | Q5_K_M | 5 | 3.1GB | バランス型 |
| 5B | Q5_K_S | 5 | 3.1GB | バランス型・速度重視 |
| 5B | Q6_K | 6 | 3.8GB | 精度重視の軽量化 |
| 5B | Q8_0 | 8 | 5GB | 高精度 |
| 5B | fp16 | 16 | 10GB | 非量子化 |
| モデル | 量子化 | bit | VRAM目安 | 特徴 |
|---|---|---|---|---|
| 14B | Q4_K_M | 4 | 7GB | 軽量化・精度安定 |
| 14B | Q4_K_S | 4 | 7GB | 軽量化・高速重視 |
| 14B | Q5_K_M | 5 | 8.8GB | バランス型 |
| 14B | Q5_K_S | 5 | 8.8GB | バランス型・速度重視 |
| 14B | Q6_K | 6 | 10.5GB | 精度重視の軽量化 |
| 14B | Q8_0 | 8 | 14GB | 高精度 |
| 14B | fp16 | 16 | 28GB | 非量子化 |
表のVRAMは推定値です。KVキャッシュや推論オーバーヘッドを加味して余裕を持つことをおすすめします。
■ 量子化方式の選び方
- 高精度重視 → fp16
- VRAM節約かつ精度維持 → Q6_K / Q5_K_M
- VRAMが極端に少ない場合 → Q4_K_M / Q4_K_S
量子化は、モデルを自分のGPU環境に合わせて選択しましょう。





ディスカッション
コメント一覧
まだ、コメントがありません