Skip to content

RL 的时候训练了几个 Step #33

@YooYoo67

Description

@YooYoo67

你好,很荣幸看到这篇工作!
在论文中我没有找到这篇工作的 RL 应该训练多少个 step,我看到文后的 7B图像画了大概 2500 个 step 多一些,但是我跑了 2750 个 step 后结果并不是很好,看到 shell 脚本里写的 10 个 epoch, 5000个 step。所以想问一下该工作 对于 3B、7B、14B 分别一共要训多少个step?

期待您的回复,谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions