Fix gguf_q4k #11293

rnwang04 · 2024-06-12T10:58:52Z

Description

No change.

change parameter of xe_linear.dequantize_rows
update fp16 benchmark api from model.half() to torch_dtype=torch.float16 (only update "transformer_int4_fp16_gpu_win" and "transformer_int4_fp16_gpu" now) as quantized embedding must accept torch_dtype=torch.float16

rnwang04 added 2 commits June 12, 2024 18:46

udpate embedding parameter

34ae5f9

update benchmark

43fc523

rnwang04 requested a review from Oscilloscope98 June 12, 2024 11:02

Oscilloscope98 approved these changes Jun 12, 2024

View reviewed changes

rnwang04 merged commit 14b1e6b into intel-analytics:main Jun 12, 2024
18 checks passed

rnwang04 deleted the update_quantize_embedding branch June 12, 2024 12:43