Support target masking (aka loss masking or label masking) for SFT datasets #736

jmschndev · 2024-06-28T17:39:20Z

Right now, data loading and loss computation assume one is only doing LM pretraining, but it'd be useful to support packed SFT style datasets (i.e. datasets with cleanly delineated prompt/completion pairs, perhaps even a system prompt) and their corresponding masking.

I.e., the masks allow the attention module to reference the prompts/prefix, but only completions/targets' gradients are propogated.

gobbleturk added the feature request label Sep 17, 2024

shralex assigned SurbhiJainUSC Feb 19, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Support target masking (aka loss masking or label masking) for SFT datasets #736

Support target masking (aka loss masking or label masking) for SFT datasets #736

jmschndev commented Jun 28, 2024

Support target masking (aka loss masking or label masking) for SFT datasets #736

Support target masking (aka loss masking or label masking) for SFT datasets #736

Comments

jmschndev commented Jun 28, 2024