機械学習研究 [数理最適化研究室]

intro:researches:machine

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- intro:researches:machine [2023/05/29 18:22] – [クリティカルバッチサイズの推定] Naoki SATO
+++ intro:researches:machine [2023/06/02 13:40] (現在) – [収束解析] Naoki SATO
@@ 行 103: / 行 103: @@
 ( \sigma_D^2 + M_D^2 )}}_{C_D}
 \end{align}
-ただし、$\alpha^G, \alpha^D$はoptimizerの学習率で、Nはステップ数、bはバッチサイズです。その他の定義については論文を参照してください。このことから、ステップ数$N$とバッチサイズ$b$を大きく、学習率$\alpha^G, \alpha^D$は小さくすれば、それぞれの右辺は0に近くなり、局所的ナッシュ均衡を近似できることがわかります。
+ただし、$\alpha^G, \alpha^D$はoptimizerの学習率で、Nはステップ数、bはバッチサイズです。その他の定義については[[https://arxiv.org/pdf/2201.11989.pdf|論文]]を参照してください。このことから、ステップ数$N$とバッチサイズ$b$を大きく、学習率$\alpha^G, \alpha^D$は小さくすれば、それぞれの右辺は0に近くなり、局所的ナッシュ均衡を近似できることがわかります。
 ==== ステップ数$N$とバッチサイズ$b$の関係 ====
@@ 行 231: / 行 231: @@
 \frac{\sigma_G^2}{\epsilon_G^3} \leq 788.7
 \end{align}
-とできます。これを使えば、AdaBeliefとRMSPropの推定値を計算できます。さらに、生成器のモデルにDCGAN architectureを採用している場合は、この比$\sigma_G^2 / \epsilon_G^3$を適用できるので、別のGANでDCGAN architectureを採用している場合にもこの推定式は有効です。実際、WGAN-GPでCelebAデータセットを訓練する場合にも、推定値と測定値は近くなります。
+とできます。これを使えば、AdaBeliefとRMSPropの推定値を計算できます。推定値は四角で、測定値は丸でマーキングしてあります。
+さらに、生成器のモデルにDCGAN architectureを採用している場合は、この比$\sigma_G^2 / \epsilon_G^3$を適用できるので、別のGANでDCGAN architectureを採用している場合にもこの推定式は有効です。実際、WGAN-GPでCelebAデータセットを訓練する場合にも、推定値と測定値は近くなります。
+{{ :intro:researches:estimated.png?600 |}}
+DCGANがSection4.1で、WGAN-GPがSection4.2に当たります。RMSProp以外では完全に推定に成功していることが分かります。RMSPropで推定が上手くいかない原因は、RMSPropのクリティカルバッチサイズの推定式に$\beta_1$と$\beta_2$が含まれていないことであると考えられます。
 Naoki Sato, Hideaki Iiduka: Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule, Proceedings of The 40th International Conference on Machine Learning, PMLR 202: ??–?? (2023)

intro/researches/machine.txt
最終更新: 2023/06/02 13:40
by Naoki SATO