-
Notifications
You must be signed in to change notification settings - Fork 6.2k
求大佬相助!单卡/多卡lora微调qwen都会卡住,但是无报错信息 #8118
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
mark |
我刚刚遇见的情况,不知道是否对你有用。变更deepspeed版本为0.16.4 (官方推荐版本)正常,最新版本和你一样跑不过去。 |
請在 Output dir 裡面尋找 running_log.txt,拉到最下面,會看到最後發生了什麼事。可能遇到的狀況有
|
感谢您的回复!我的output_dir中只有runs文件夹,最里层是一个以events.out.tfevents开头的文件,并没有看到running_log.txt。 @Roylin1003 |
感谢!不过对我这个还是没用。不知道能否能提供排查问题的思路?我怀疑是不是其他包的版本问题 @lnrick |
我遇到了类似的现象。你稍微等一下应该会发现,GPU的利用率是“一阵一阵”的。我意外发现这个情况是当我copy了2条官方的mllm_video_audio里的数据,构成5条数据,bs=2,accumulate_step = 4。就会发现类似卡住的现象,需要等一阵子,直到最后会直接显示一个巨大的loss,一次更新也没有。具体的解决方案还在尝试和debug。。。。感觉是里面iter数据的时候的问题。 |
Uh oh!
There was an error while loading. Please reload this page.
Reminder
System Info
llamafactory
version: 0.9.3.dev0Reproduction
Others
之前使用docker-hub上三个月前发布的镜像进行调qwen2.5,没有任何问题。现在想调一下qwen3,就用了新的镜像文件。
于是就出现了以下的情况:
单卡/多卡训练qwen2.5/3都会卡住,不显示进度,且前面无任何报错。查看gpu有进程占用,但是gpu使用率为0。
小白,求大佬们帮帮忙!
The text was updated successfully, but these errors were encountered: