fix qparams decompression #514

shanjiaz · 2025-11-10T21:22:09Z

Updated the decompress_weight function to unpack zero_point/cast scale dtype during decompression. Replace the tensor in module with updated one.
Example script used:

from transformers import AutoModelForCausalLM, AutoTokenizer
from llmcompressor.utils import dispatch_for_generation

#MODEL_ID = "nm-testing/TinyLlama-1.1B-Chat-v1.0-w4a16-asym-awq-e2e"
MODEL_ID = "nm-testing/TinyLlama-1.1B-Chat-v1.0-NVFP4"

model = AutoModelForCausalLM.from_pretrained(MODEL_ID, torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)

print("========== SAMPLE GENERATION ==============")
dispatch_for_generation(model)
input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to(model.device)
output = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output[0]))''
print("==========================================\n\n")

Example script now generates coherent result:

(llm-compressor) [shanjiaz@nma-a100-solo-4-preserve llm-compressor]$ python zp_decompression.py 
`torch_dtype` is deprecated! Use `dtype` instead!
Compressing model: 154it [00:00, 747.12it/s]


========== SAMPLE GENERATION ==============
<s> Hello my name is John and I am a software engineer. I have been working in the tech industry for the past 10 years. I have worked on various projects and have gained a lot of experience. I am passionate about technology and have a keen interest in the latest technologies. I have a bachelor's degree in computer science and have completed several certifications in various technologies. I am currently working as a software engineer at a leading technology company. In my free time, I enjoy
==========================================

dsikka

Just an fyi: #509
This will also impact mxfp4.
I've turned off mxfp4 decompression in the meantime / lower priority anyway

dsikka

Would it be cleaner to add optional:
compress_scale / decompress_scale
and compress_zp / decompress_zp functions?

This would impact:

PackedCompressor (packed zp)
NVFP4PackedCompressor (fp8 scales)
MXFP4PackedCompressor (uint8 scales)

shanjiaz · 2025-11-17T21:12:44Z

Would it be cleaner to add optional: compress_scale / decompress_scale and compress_zp / decompress_zp functions?

This would impact:

PackedCompressor (packed zp)

NVFP4PackedCompressor (fp8 scales)

MXFP4PackedCompressor (uint8 scales)

Sure! I can do that.

src/compressed_tensors/compressors/base.py

kylesayrs

Woop

dsikka

Some comments, needs rebase

src/compressed_tensors/compressors/quantized_compressors/base.py

src/compressed_tensors/quantization/utils/helpers.py

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

src/compressed_tensors/quantization/lifecycle/initialize.py

src/compressed_tensors/compressors/quantized_compressors/base.py

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

src/compressed_tensors/compressors/quantized_compressors/fp4_quantized.py

src/compressed_tensors/compressors/quantized_compressors/pack_quantized.py

kylesayrs · 2025-12-11T23:22:45Z

Please make sure that compressed_data is only updated when you want it to be, and not accidentally updated as part of some other calculation

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

kylesayrs

Nice job

shanjiaz added the bug Something isn't working label Nov 10, 2025

dsikka mentioned this pull request Nov 17, 2025

[MXFP4] Add calibration support #509

Merged

dsikka reviewed Nov 17, 2025

View reviewed changes

dsikka mentioned this pull request Dec 2, 2025

[Feature] Support Zero-point Decompression vllm-project/llm-compressor#1704

Open

shanjiaz changed the title ~~[WIP] fix qparams decompression~~ fix qparams decompression Dec 3, 2025

dsikka mentioned this pull request Dec 6, 2025

AWQ-quantized model fails to load due to "Decompression of packed zero points is not supported" vllm-project/llm-compressor#2099

Closed

shanjiaz changed the title ~~fix qparams decompression~~ [WIP] fix qparams decompression Dec 9, 2025

shanjiaz changed the title ~~[WIP] fix qparams decompression~~ fix qparams decompression Dec 9, 2025

kylesayrs previously approved these changes Dec 10, 2025

View reviewed changes

src/compressed_tensors/compressors/base.py Show resolved Hide resolved

shanjiaz dismissed kylesayrs’s stale review via 1680538 December 10, 2025 17:46

shanjiaz requested a review from kylesayrs December 10, 2025 19:42

kylesayrs previously approved these changes Dec 10, 2025

View reviewed changes

dsikka reviewed Dec 10, 2025

View reviewed changes

src/compressed_tensors/compressors/quantized_compressors/base.py Outdated Show resolved Hide resolved

src/compressed_tensors/quantization/utils/helpers.py Outdated Show resolved Hide resolved

shanjiaz added 13 commits December 10, 2025 20:28

fix qparams decompression

9a1aba1

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

quality

b8e3716

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

quality

2cec6a2

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

Add zero-point compression for asymmetric quantization

7473b17

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

Add scale decompression support

90e4655

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

fix tests

6b38373

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

cleanup

9435242

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

minimal diff

65dd379

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

quality

effed03

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

remove script

36c27b3

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

quality

c301ded

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

minimum diff

2bf6e19

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

added TODO

d492543

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

shanjiaz dismissed kylesayrs’s stale review via d492543 December 10, 2025 20:32

shanjiaz force-pushed the fix-qparams-decompression branch from fd481c0 to d492543 Compare December 10, 2025 20:32

shanjiaz added 2 commits December 10, 2025 22:02

address reviews

63c08ac

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

fix compressed params tracking

f9f3105

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

shanjiaz requested review from dsikka and kylesayrs December 10, 2025 22:27

dsikka reviewed Dec 11, 2025

View reviewed changes

src/compressed_tensors/quantization/lifecycle/initialize.py Outdated Show resolved Hide resolved

src/compressed_tensors/compressors/quantized_compressors/base.py Show resolved Hide resolved

use helper in initialize

c6e2d4b

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

kylesayrs previously approved these changes Dec 11, 2025

View reviewed changes

src/compressed_tensors/compressors/quantized_compressors/fp4_quantized.py Outdated Show resolved Hide resolved

src/compressed_tensors/compressors/quantized_compressors/pack_quantized.py Outdated Show resolved Hide resolved

quality

8cfb375

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

shanjiaz dismissed kylesayrs’s stale review via 8cfb375 December 11, 2025 23:41

shanjiaz added 2 commits December 12, 2025 00:11

addressed reviews

be6f0a8

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

minimum diff

84c9a50

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

shanjiaz requested review from dsikka and kylesayrs December 12, 2025 00:50

Address some comments

ae98316

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

dsikka previously approved these changes Dec 12, 2025

View reviewed changes

shanjiaz enabled auto-merge (squash) December 12, 2025 19:24

remove unneccessary helpers

9f8dc8a

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

shanjiaz dismissed dsikka’s stale review via 9f8dc8a December 12, 2025 20:12

cleanup

cb09f97

Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>

kylesayrs approved these changes Dec 12, 2025

View reviewed changes

shanjiaz requested a review from dsikka December 12, 2025 20:23

dsikka approved these changes Dec 12, 2025

View reviewed changes

shanjiaz merged commit f9e7426 into main Dec 12, 2025
3 checks passed

shanjiaz deleted the fix-qparams-decompression branch December 12, 2025 20:34

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

fix qparams decompression #514

fix qparams decompression #514

Uh oh!

shanjiaz commented Nov 10, 2025 •

edited

Loading

Uh oh!

dsikka left a comment

Uh oh!

dsikka left a comment •

edited

Loading

Uh oh!

shanjiaz commented Nov 17, 2025

Uh oh!

Uh oh!

kylesayrs left a comment

Uh oh!

dsikka left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kylesayrs commented Dec 11, 2025

Uh oh!

kylesayrs left a comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

fix qparams decompression #514

fix qparams decompression #514

Uh oh!

Conversation

shanjiaz commented Nov 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

dsikka left a comment

Choose a reason for hiding this comment

Uh oh!

dsikka left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

shanjiaz commented Nov 17, 2025

Uh oh!

Uh oh!

kylesayrs left a comment

Choose a reason for hiding this comment

Uh oh!

dsikka left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kylesayrs commented Dec 11, 2025

Uh oh!

kylesayrs left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

shanjiaz commented Nov 10, 2025 •

edited

Loading

dsikka left a comment •

edited

Loading