-
Notifications
You must be signed in to change notification settings - Fork 972
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
遇到好像是陷入了local minimum的问题 #14
Comments
是每次训练最后都是这个情况,还是偶尔一次会到这个情况?大概跑了多少对局之后出现这种情况?出现这种情况的时候有没有人工和模型对战一下,也是不会防守么? |
11*11的棋盘 每次训练都会遇到这种情况 大概跑了1500局之后 试了人工对战,就是不会防守 |
8 * 8的棋盘跑过是正常的么?如果8 * 8的棋盘训练正常,现在只是增大了棋盘但没有改训练参数就出现这个问题的话,我的建议是可以试试减小mcts_alphaZero.py中dirichlet噪声的参数,具体可以看一下issue 13,现在代码里用的是0.3,可以减小到0.15或0.1,可能可以避免自我对弈每局局面都很类似的情况。 |
好的 我试试 |
还有我想问这与没有异步实现蒙特卡洛树搜索有没有关系 |
我觉得没有关系的,现在每一步用于训练的mini-batch数据也都是从self-play生成的data buffer中随机采样的,不是只用最近一局的数据,所以和一边生成self-play数据一边训练逻辑上差异不大 |
已解决 |
Hi @GeneZC , 能分享下你这边最后发现了什么问题,以及如何解决的么?感觉很多童鞋都有遇到类似的问题,可能有些经验可以供大家借鉴一下 |
|
其实很多时候出现这种情况在我这里往往是因为训练的时间不够长,这才是最关键的地方 |
|
|
好的,我决定试试添加残差,多谢辣! |
@jialeli1 |
@junxiaosong 减小到0.1的话,减小了dirichlet噪声。不是会导致局面类似吗? |
@anxingle 说的是减小dirichlet噪声的参数alpha,这个会让dirichlet噪声更peak,不是减小dirichlet噪声前面的权重 |
我理解错了,原来是这样! 😸 |
在自我对弈的训练中最终陷入到两方都只进攻不防守,导致一局棋很快就结束了而且局面都比较类似,这种情况的问题在哪里?
The text was updated successfully, but these errors were encountered: