[NPU] update save-load API usage #12473

plusbang · 2024-12-02T02:55:16Z

Description

Update save-load API usage.

save: For all cases with optimize_model=True, specify save_directory is required during the first time to load model, ckpt is saved to save_directory after converting.
load: still use load_low_bit API to load, and add python cpp backend support

2. User API changes

# first time load, and ckpt is saved to `save_directory` after converting
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    trust_remote_code=True,
    attn_implementation="eager",
    optimize_model=True,
    max_context_len=1024,
    max_prompt_len=960,
    mixed_precision=True,
    quantization_group_size=0,
    save_directory=save_directory  # required and has related check
)

# load converted model
model = AutoModelForCausalLM.load_low_bit(
    save_directory,
    attn_implementation="eager",
    torch_dtype=torch.float16,
    optimize_model=True,
    max_context_len=1024,
    max_prompt_len=960,
    trust_remote_code=True,
)

example and benchmark scripts have updated.

4. How to test?

Application test

python/llm/src/ipex_llm/transformers/npu_model.py

rnwang04

LGTM

plusbang · 2024-12-03T01:46:07Z

Merge it first and will add tokenizer save-load processing in examples later.

plusbang requested review from rnwang04 and jason-dai December 2, 2024 07:03

jason-dai reviewed Dec 2, 2024

View reviewed changes

python/llm/src/ipex_llm/transformers/npu_model.py Outdated Show resolved Hide resolved

plusbang force-pushed the update-save-load branch from 1397294 to 714887e Compare December 2, 2024 08:56

plusbang requested a review from jason-dai December 2, 2024 09:08

plusbang changed the title ~~[NPU cpp] update save-load API usage~~ [NPU] update save-load API usage Dec 2, 2024

jason-dai reviewed Dec 2, 2024

View reviewed changes

python/llm/src/ipex_llm/transformers/npu_model.py Show resolved Hide resolved

plusbang added 2 commits December 2, 2024 17:27

save_directory is required argument for all models

597075b

add warning

681017d

plusbang force-pushed the update-save-load branch from 714887e to 681017d Compare December 2, 2024 09:30

plusbang added 4 commits December 2, 2024 17:49

update

197ef2c

fix

35e6745

save_directory is required argument for all models

545f814

fix example

3432f3a

rnwang04 approved these changes Dec 3, 2024

View reviewed changes

plusbang merged commit ab01753 into intel-analytics:main Dec 3, 2024
1 check passed

przemekmatusiak pushed a commit to przemekmatusiak/ipex-llm that referenced this pull request Dec 10, 2024

[NPU] update save-load API usage (intel-analytics#12473)

5a6a5d1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[NPU] update save-load API usage #12473

[NPU] update save-load API usage #12473

plusbang commented Dec 2, 2024 •

edited

Loading

rnwang04 left a comment

plusbang commented Dec 3, 2024

[NPU] update save-load API usage #12473

[NPU] update save-load API usage #12473

Conversation

plusbang commented Dec 2, 2024 • edited Loading

Description

2. User API changes

4. How to test?

rnwang04 left a comment

Choose a reason for hiding this comment

plusbang commented Dec 3, 2024

plusbang commented Dec 2, 2024 •

edited

Loading