-
Notifications
You must be signed in to change notification settings - Fork 6.2k
DeepSeek-R1-Distill-Qwen SFT训练问题 #6833
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
the same problem |
R1蒸馏过的模型输出都是包含think和answer两部分, 那作SFT的时候,数据集里面也要包含think这部分吗? 目前只有成对的指令微调数据,不知道能不能对R1蒸馏过的模型做SFT训练 |
只有指令数据,你凑什么热闹,你想用他啥 |
我反而是没法进入的reasoning过程了,变成普通的qwen2.5了:https://huggingface.co/bluryar/DeepSeek-R1-Distill-Qwen-1.5B-sft 也许加system prompt做控制,然后训练数据混合一些r1的蒸馏数据会可控一点。 |
如果是新的数据格式,是不是应该在data目录下,给出实例数据集? @hiyouga |
想请问一下您的训练参数呢?我训练loss一直为0,调参也没有解决。 |
trainper_device_train_batch_size: 4 |
谢谢,我也在看它的具体数据格式要求。 |
the same problem |
我找到了一个应该适合deepseek3微调的数据格式,参考:https://huggingface.co/datasets/horus-ai-labs/R1-Dstill-SFT-gsm8k?row=3 |
|
我用的sharegpt格式的数据进行的微调,带思维链的数据进行微调感觉效果尚可,这是我拿开源中医数据整理成的数据格式,里面的“\”之类的格式可以自己改,我微调完最终答案总是开头带个\ |
先不SFT,试试GRPO,看看效果 |
@zzwtop1 兄弟您好,这个中医数据您是咋做的呢? |
继续训练qwen的蒸馏模型不可以用qwen2这个模板吗?为什么都用deepseek3模板呢? |
Reminder
System Info
训练数据是alpaca格式,模版设置为deepseek3,为什么LoRA训练后,正常的问答也不行了,领域任务也很差,请问是数据集的格式问题吗?
数据格式如下:
{"instruction": "文本纠错", "input": "目前区次事件的细节还不清楚,伤亡人数也未确定。", "output": "目前这次事件的细节还不清楚,伤亡人数也未确定。"},如果不是这个类型的数据集,可以提供R1 SFT数据实例吗?
Reproduction
Others
No response
The text was updated successfully, but these errors were encountered: