【生成AI】Wan2.2 モデルのVRAM容量と量子化について(5B / 14B)

WAN2.2は、動画生成や画像生成などAI生成の分野で注目されている大規模モデルです。
公開されているモデルは 5B(50億パラメータ)14B(140億パラメータ) の2種類のみです。
パラメータ数が大きいほどGPUメモリ(VRAM)が必要になるため、適切な量子化方式を選ぶことが重要です。

■ 量子化とは?

量子化(Quantization)とは、モデルのパラメータ(重み)をより少ないビット数で表現する手法です。
これにより、GPUでモデルを動かす際に必要なVRAMを削減できます。

主な量子化方式

方式bit特徴
Q4_K_M4軽量化重視。Mixed(M)技術で精度安定
Q4_K_S4軽量化・高速重視。単純量子化
Q5_K_M5バランス型。精度と軽量化両立
Q5_K_S5バランス型。計算速度優先
Q6_K6精度重視の軽量化。多くの環境で実用的
Q8_08高精度。量子化誤差が少ない
fp1616非量子化。精度最大だがVRAM消費大
  • K_M(Mixed):推論安定性・精度を優先した量子化
  • K_S(Speed):軽量化・高速処理重視の量子化

量子化は必須ではありませんが、VRAMが限られた環境では必須級の手法です。

■ VRAMの計算方法(概算)

モデルを動かすのに必要なVRAMは、パラメータ数と量子化ビット数から概算できます。

  1. モデルのパラメータ数
    • 5Bモデル → 5,000,000,000個
    • 14Bモデル → 14,000,000,000個
  2. 1パラメータあたりのメモリ(量子化bit)
    • 16bit → 2バイト
    • 8bit → 1バイト
    • 4bit → 0.5バイト
  3. 計算式(GB換算)必要VRAM ≒ パラメータ数 × 1パラメータあたりのバイト ÷ 1GB
    • 1GB = 1,000,000,000バイト
    • 例:14Bモデルを4bit量子化 → 14 × 0.5 ≒ 7GB

実際にはKVキャッシュや推論時のオーバーヘッドを考慮し、少し余裕を持つのがおすすめです。

■ WAN2.2 モデルサイズ別・量子化方式別 VRAM目安

モデル量子化bitVRAM目安特徴
5BQ4_K_M42.5GB軽量化・精度安定
5BQ4_K_S42.5GB軽量化・高速重視
5BQ5_K_M53.1GBバランス型
5BQ5_K_S53.1GBバランス型・速度重視
5BQ6_K63.8GB精度重視の軽量化
5BQ8_085GB高精度
5Bfp161610GB非量子化
モデル量子化bitVRAM目安特徴
14BQ4_K_M47GB軽量化・精度安定
14BQ4_K_S47GB軽量化・高速重視
14BQ5_K_M58.8GBバランス型
14BQ5_K_S58.8GBバランス型・速度重視
14BQ6_K610.5GB精度重視の軽量化
14BQ8_0814GB高精度
14Bfp161628GB非量子化

表のVRAMは推定値です。KVキャッシュや推論オーバーヘッドを加味して余裕を持つことをおすすめします。

■ 量子化方式の選び方

  • 高精度重視 → fp16
  • VRAM節約かつ精度維持 → Q6_K / Q5_K_M
  • VRAMが極端に少ない場合 → Q4_K_M / Q4_K_S

量子化は、モデルを自分のGPU環境に合わせて選択しましょう。