差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン 前のリビジョン
intro:researches:machine [2023/05/29 18:47] – [クリティカルバッチサイズの推定] Naoki SATOintro:researches:machine [2023/06/02 13:40] (現在) – [収束解析] Naoki SATO
行 103: 行 103:
 ( \sigma_D^2 + M_D^2 )}}_{C_D} ( \sigma_D^2 + M_D^2 )}}_{C_D}
 \end{align} \end{align}
-ただし、$\alpha^G, \alpha^D$はoptimizerの学習率で、Nはステップ数、bはバッチサイズです。その他の定義については論文を参照してください。このことから、ステップ数$N$とバッチサイズ$b$を大きく、学習率$\alpha^G, \alpha^D$は小さくすれば、それぞれの右辺は0に近くなり、局所的ナッシュ均衡を近似できることがわかります。+ただし、$\alpha^G, \alpha^D$はoptimizerの学習率で、Nはステップ数、bはバッチサイズです。その他の定義については[[https://arxiv.org/pdf/2201.11989.pdf|論文]]を参照してください。このことから、ステップ数$N$とバッチサイズ$b$を大きく、学習率$\alpha^G, \alpha^D$は小さくすれば、それぞれの右辺は0に近くなり、局所的ナッシュ均衡を近似できることがわかります。
  
 ==== ステップ数$N$とバッチサイズ$b$の関係 ==== ==== ステップ数$N$とバッチサイズ$b$の関係 ====
  • intro/researches/machine.txt
  • 最終更新: 2023/06/02 13:40
  • by Naoki SATO