差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン 前のリビジョン
次のリビジョン
前のリビジョン
次のリビジョン両方とも次のリビジョン
intro:researches:machine [2020/06/26 17:01] Hideaki IIDUKAintro:researches:machine [2021/01/04 00:36] – [多様体上の機械学習アルゴリズム] Hideaki IIDUKA
行 38: 行 38:
 $(x_n)_{n\in\mathbb{N}}$は適応学習率最適化アルゴリズムで生成される点列とし、$\alpha, \beta$ は**定数**学習率(([[https://arxiv.org/pdf/1412.6980.pdf|Adam]] や [[https://arxiv.org/pdf/1904.09237.pdf|AMSGrad]] では、$\beta = 0.9$ を利用しています。))とします。このとき、ある定数 $M_i$ ($i=1,2$) が存在して、 $(x_n)_{n\in\mathbb{N}}$は適応学習率最適化アルゴリズムで生成される点列とし、$\alpha, \beta$ は**定数**学習率(([[https://arxiv.org/pdf/1412.6980.pdf|Adam]] や [[https://arxiv.org/pdf/1904.09237.pdf|AMSGrad]] では、$\beta = 0.9$ を利用しています。))とします。このとき、ある定数 $M_i$ ($i=1,2$) が存在して、
 \begin{align*} \begin{align*}
-\limsup_{n \to + \infty} \mathbb{E}\left[f (x_n)  - f^\star \right] +\liminf_{n \to + \infty} \mathbb{E}\left[f (x_n)  - f^\star \right] 
 \leq  M_1 \alpha + M_2 \beta. \leq  M_1 \alpha + M_2 \beta.
 \end{align*} \end{align*}
行 84: 行 84:
 を満たします (ただし、$M$ は定数) が、損失最小化問題を解くことが保証されていません。また、適切な学習率設定と実用の観点から、**定数**学習率での収束解析は必要です((減少学習率 $\alpha_t = \alpha/\sqrt{t}$ は$t$が十分大きいとき、0 に近似されるため学習アルゴリズムがほとんど動かなくなる恐れがあります。))。 を満たします (ただし、$M$ は定数) が、損失最小化問題を解くことが保証されていません。また、適切な学習率設定と実用の観点から、**定数**学習率での収束解析は必要です((減少学習率 $\alpha_t = \alpha/\sqrt{t}$ は$t$が十分大きいとき、0 に近似されるため学習アルゴリズムがほとんど動かなくなる恐れがあります。))。
 ===== 多様体上の機械学習アルゴリズム ===== ===== 多様体上の機械学習アルゴリズム =====
-  * H. Sakai and [[:iiduka:|H. Iiduka]]: [[https://arxiv.org/pdf/2004.00897.pdf|Riemannian Adaptive Optimization Algorithm and Its Application to Natural Language Processing]], preprint.+  * H. Sakai and [[:iiduka:|H. Iiduka]]: [[https://arxiv.org/pdf/2004.00897.pdf|Riemannian Adaptive Optimization Algorithm and Its Application to Natural Language Processing]], IEEE Transactions on Cybernetics, (2021) {{|PDF}}.
 適切な学習率の設定を考慮しつつ、損失最小化問題を解くことを保証する適応学習率最適化アルゴリズムについて提案しています。\\ 適切な学習率の設定を考慮しつつ、損失最小化問題を解くことを保証する適応学習率最適化アルゴリズムについて提案しています。\\
 $0$に収束するような減少学習率 (例えば、$\alpha_t = \alpha/\sqrt{t}$) を有する既存の適応学習率最適化アルゴリズム [[https://arxiv.org/pdf/1810.00760.pdf|RAMSGrad]] の収束解析とは異なり、**定数**学習率を有する適応学習率最適化アルゴリズムの収束解析を与えています。具体的には、以下の通りです。 $0$に収束するような減少学習率 (例えば、$\alpha_t = \alpha/\sqrt{t}$) を有する既存の適応学習率最適化アルゴリズム [[https://arxiv.org/pdf/1810.00760.pdf|RAMSGrad]] の収束解析とは異なり、**定数**学習率を有する適応学習率最適化アルゴリズムの収束解析を与えています。具体的には、以下の通りです。
行 124: 行 124:
 が定義できます。$P_+, P_{\mathrm{s}}, P_{\mathrm{d}}$ は計算可能なので、写像 $Q$ も容易に計算可能です。更に、[[intro:researches:fixedpoint|不動点近似法]]の理論により、 が定義できます。$P_+, P_{\mathrm{s}}, P_{\mathrm{d}}$ は計算可能なので、写像 $Q$ も容易に計算可能です。更に、[[intro:researches:fixedpoint|不動点近似法]]の理論により、
 $Q$ は準非拡大写像となり、 $\mathrm{Fix}(Q) = X$ を示すことができます。この事実により、$Q$ を取り入れたアルゴリズムで生成される点列は $Q$ の不動点、すなわち、$X$ の点を見つけることが期待できそうです。 $Q$ は準非拡大写像となり、 $\mathrm{Fix}(Q) = X$ を示すことができます。この事実により、$Q$ を取り入れたアルゴリズムで生成される点列は $Q$ の不動点、すなわち、$X$ の点を見つけることが期待できそうです。
-  * [[:iiduka:|H. Iiduka]]: [[https://ieeexplore.ieee.org/document/8744480|Stochastic Fixed Point Optimization Algorithm for Classifier Ensemble]], IEEE Transactions on Cybernetics (accepted {{:iiduka:CYB-E-2018-12-2420.R1.pdf|PDF}}+  * [[:iiduka:|H. Iiduka]]: [[https://ieeexplore.ieee.org/document/8744480|Stochastic Fixed Point Optimization Algorithm for Classifier Ensemble]], IEEE Transactions on Cybernetics, Vol. 50, No. 10, pp. 4370--4380 (2020) {{:iiduka:CYB-E-2018-12-2420.R1.pdf|PDF}}
 この論文では、以下で定義される**確率的不動点最適化アルゴリズム**を提案しています。 この論文では、以下で定義される**確率的不動点最適化アルゴリズム**を提案しています。
 \begin{align*} \begin{align*}
  • intro/researches/machine.txt
  • 最終更新: 2023/06/02 13:40
  • by Naoki SATO