Add support for 8da4w quantization #884

Summary: Add a new quantization for users to quantize their models using int8 per token dynamic activation + int4 per axis grouped weight quantization. Test Plan: tune run quantize --config quantization quantizer._component_=torchtune.utils.quantization.Int8DynActInt4WeightQuantizer quantizer.groupsize=256 Reviewers: jerryzh168, kartikayk, ebsmothers Subscribers: jerryzh168, kartikayk, ebsmothers, supriyar

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add support for 8da4w quantization #884

Add support for 8da4w quantization #884

Commits on Apr 26, 2024