Add `ignore_patterns` arg for ignoring layers #7

mgoin · 2024-05-23T14:03:18Z

This is needed for MoE models to skip the router layers.

Example for Mixtral:

from datasets import load_dataset
from transformers import AutoTokenizer

from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig

pretrained_model_dir = "mistralai/Mixtral-8x7B-Instruct-v0.1"
quantized_model_dir = "Mixtral-8x7B-Instruct-v0.1-FP8"

tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

ds = load_dataset("mgoin/ultrachat_2k", split="train_sft").select(range(10))
examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")

quantize_config = BaseQuantizeConfig(
    quant_method="fp8",
    activation_scheme="static",
    ignore_patterns=["re:.*lm_head", "re:.*gate"],
)

model = AutoFP8ForCausalLM.from_pretrained(
    pretrained_model_dir, quantize_config=quantize_config
)
model.quantize(examples)
model.save_quantized(quantized_model_dir)

MixtralForCausalLM(
  (model): MixtralModel(
    (embed_tokens): Embedding(32000, 4096)
    (layers): ModuleList(
      (0-31): 32 x MixtralDecoderLayer(
        (self_attn): MixtralSdpaAttention(
          (q_proj): FP8StaticLinear()
          (k_proj): FP8StaticLinear()
          (v_proj): FP8StaticLinear()
          (o_proj): FP8StaticLinear()
          (rotary_emb): MixtralRotaryEmbedding()
        )
        (block_sparse_moe): MixtralSparseMoeBlock(
          (gate): Linear(in_features=4096, out_features=8, bias=False)
          (experts): ModuleList(
            (0-7): 8 x MixtralBlockSparseTop2MLP(
              (w1): FP8StaticLinear()
              (w2): FP8StaticLinear()
              (w3): FP8StaticLinear()
              (act_fn): SiLU()
            )
          )
        )
        (input_layernorm): MixtralRMSNorm()
        (post_attention_layernorm): MixtralRMSNorm()
      )
    )
    (norm): MixtralRMSNorm()
  )
  (lm_head): Linear(in_features=4096, out_features=32000, bias=False)
)

mgoin added 3 commits May 23, 2024 13:44

Add ignore_patterns config

4121b74

Fix examples

d77e518

Cleanup

0e8fe08

mgoin merged commit d69a57f into main May 23, 2024
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add `ignore_patterns` arg for ignoring layers #7

Add `ignore_patterns` arg for ignoring layers #7

mgoin commented May 23, 2024 •

edited

Loading

Add ignore_patterns arg for ignoring layers #7

Add ignore_patterns arg for ignoring layers #7

Conversation

mgoin commented May 23, 2024 • edited Loading

Add `ignore_patterns` arg for ignoring layers #7

Add `ignore_patterns` arg for ignoring layers #7

mgoin commented May 23, 2024 •

edited

Loading