深層学習 (機械学習プロフェッショナルシリーズ) 著者: 岡谷 貴之 出版社: 講談社 発売日: 2015/04/08 メディア: 単行本 ページ数: 176 ページ
![]()
3.5 過適合の緩和 3.5.2 重みの制約 p. 30 Et(w)≡1Nt∑n∈DtEn(w)+λ2‖w‖2 を微分して, ∇Et(w)≡1Nt∑n∈Dt∇En(w)+λw となる部分について考える. |
p 次元ノルムの定義を確認すると [1], ‖x‖p≡(N∑i=1|xi|p)1p=p√|x1|p+|x2|p+⋅⋅⋅+|xN|p である.ここでは,ユークリッドノルムなので,p=2 の場合を考えれば良い.
また,∇ は,このとき w の grad の意味で使われているため, ∇w≡(∂∂w1,∂∂w2,⋅⋅⋅,∂∂wNt) である.第 1 項の微分は自明のため,第 2 項についてのみ考えると, λ2‖w‖2=λ2(√|w1|2+|w2|2+⋅⋅⋅+|wNt|2)2=λ2(|w1|2+|w2|2+⋅⋅⋅+|wNt|2)2 ここで,先ほどの ∇ の定義を思い出して, ∇λ2‖w‖2=λ2[2w1,2w2,⋅⋅⋅2wNt]=λ[w1,w2,⋅⋅⋅wNt]=λw となります.
特筆するほどではないかもしれませんが,絶対値ノルムの扱いに慣れていないと不安になります.(また,今回は f(x)=|x|2=x2 であり,絶対値を考慮する必要がないため,省略していますが,本来は絶対値の微分であることにも,注意が必要です)
3.6.5 モメンタム p. 38 11 行目 「μ=0.9 とセットしたとすると,これは学習係数を 10 倍したことに相当します」について考える. |
実際のところ,2 項関漸化式を解けば 10 倍という値が出てくることは容易に推測できますが,一応計算してみます.
2 項関漸化式 Δw(t)=μΔw(t−1)−ϵ∇Et を解く.ただし,簡便のため,ϵ∇Et を定数として扱う. (1) 式を, Δw(t+1)−α=μ(Δw(t) −α)⇔ Δw(t) −α=μ(Δw(t−1)−α) の形に変形すれば,数列 (Δw(t+1)−α) を,公比 μ の等比数列として扱える.
(2) 式より, Δw(t)−α=μ(Δw(t−1)−α)⇔ Δw(t)−α=μΔw(t−1)−μα⇔ Δw(t) =μΔw(t−1)+α(1−μ) となる.(1) 式と (2′) 式を比較すると, −ϵ∇Et=α(1−μ)⇔ α=−ϵ∇Et1−μ となる. また,(2) より, Δw(t)−α=μ(Δw(t−1)−α)⇔ Δw(t)−αΔw(t−1)−α=μ より, Δw(t)−αΔw(t−1)−αΔw(t−1)−αΔw(t−2)−α⋅⋅⋅Δw(2)−αΔw(1)−α=μ(t−2+1)⇔ Δw(t)−αΔw(1)−α=μ(t−1)⇔ Δw(t)−α=μ(t−1)(Δw(1)−α)⇔ Δw(t)=μ(t−1)(Δw(1)−α)+α となる.(3) 式を代入して, Δw(t)=μ(t−1)(Δw(1)−α)+α⇔ Δw(t)=μ(t−1)(Δw(1)−−ϵ∇Et1−μ)+−ϵ∇Et1−μ となる.ここで,μ<1 の場合, limt→∞(Δw(t))=limt→∞{μ(t−1)(Δw(1)−−ϵ∇Et1−μ)+−ϵ∇Et1−μ}=−ϵ∇Et1−μ=11−μ(−ϵ∇Et) となり,11−μ(−ϵ∇Et) に収束する.これは,μ=0.9 のときに学習係数を 10 倍にしたことに相当する.
3.6.6 重みの初期化 p. 39 wji を初期化する際に,どのような分散 σ2 を与えると,ネットワークへの入力 uj の分散 σ2u が適切な分散となるかを知りたい. このため,σ と σu を結ぶ関係式を導出する. すなわち,uj=∑iwjixi で j と wji を固定したときに, xi を N 回ランダムに選び直したときの uj の標準偏差 σ が, σ=σu/M1/2 となることを示す.(ただし,p. 38 より,w の分布は,wji∼N(μ,σ2)=N(0,σ2) より,平均 μ は μ=0 である) ※ 確率変数 x が,平均 μ で分散 σ2 の多変量正規分布に従う場合,x∼N(μ,σ2) などと表現する.[2] |
一般的に,xi の i の変化に対する分散 Vi(xi) は,各変数を,
xi |
: N個のサンプル={xi|i=1...N} |
μ |
: x の平均 (μ=1N∑Ni=1xi) |
σ |
: 変数 xi の i 方向の変化に対する標準偏差 |
σ2 |
: 変数 xi の i 方向の変化に対する分散 |
fi(xi) |
: 変数 xi の i 方向の変化に対する分布関数 |
と置いたとき, Vi(xi)≡1NN∑i=1(xi−μ)2=σ2Vi(xi)≡N∑i=1(xi−μ)2fi(xi)=σ2 と定義される.
今回は,各種変数を,
X |
: N 枚の画像サンプル (平均 0,分散 Vn(xin) を 1 に標準化されていると仮定する), |
X={xn|n=1...N}, | |
x={xi|i=1...M}, | |
M |
対象とするユニットの入力側結合の数 |
μ |
: x の平均 (μ=1N∑Ni=1xi) |
σu |
: 変数 ujk の k 方向の変化に対する標準偏差 |
σ2u |
: 変数 ujk の k 方向の変化に対する分散 |
σ |
: 変数 wji の変化に対する標準偏差 |
σ2 |
: 変数 wji の変化に対する分散 |
fn(xin) |
: 変数 xin の n 方向の変化に対する確率密度関数 |
fn(uin) |
: 変数 uin の n 方向の変化に対する確率密度関数 |
と定義しておく.
これから計算するのは,入力 X={xn|n=1,⋅⋅⋅,N} が n 方向にランダムに変化したときの分散である. このとき,変数 xi および uj の変化を,変数 n の変化によって xin,ujn と表す.このとき,ujn の n 方向の変化による分散を Vn(ujn) とする.
(I): 分散 Vn(ujn) を求める.
変数 xi が n 方向に変化するとき,変数 uj uj=M∑iwjixi は,n 方向の変化を加えた変数 ujn として, ujn=M∑iwjixin と表記される.このとき,uin の n の変化に対する分散 Vn(uin) は,μ=0 と 確率密度関数 f(ujn)=f(xin)=1N,および,先に入力 xin の平均を 0 と仮定したことに注意して, σ2u=Vn(uin)=N∑n=1(uin−μ)2f(ujn)=N∑n=1(uin−0)2f(ujn)=N∑n=1(M∑i=1wjixin)2f(ujn)=M∑i=1w2jiN∑n=1(xin−0)2fn(ujn)=M∑i=1w2jiN∑n=1(xin−0)2fn(xin)=M∑i=1w2jiVn(xin) となる.
(II): 分散 V(wji) を求める.
確率密度関数 f(wji) は,離散一様分布 [3] なので,f(wji)=1M となることに注意すると,分散 V(wji) は, σ2=V(wji)=M∑i=1(wji−μ)2f(wji)=N∑i=1(wji−0)2f(wji)=1MM∑i=1w2ji となる.
(I) の (1) 式,(II) の (2) 式より, σ2=σ2uMVn(xin) となる.ここで,入力 xin の画像は,平均を 0,分散 Vn(xin) を 1 に標準化していると仮定しているので,(3) 式は, σ2=σ2uMVn(xin)=σ2uM⇔ σ=σu√M となる.以上で導出は示された.
4.4.3 勾配の差分近似計算 p. 53 勾配の差分近似を行う場合に,刻み幅 ϵ は,一般的に, ϵ=√ϵc|wji| と選べば (大きな誤差を生み難いことが多く) 良い. |
これは, 参考文献 [55] の p. 229 "5.7 Numerical Derivatives" で詳細が説明されている. 目的の式は,p. 230 の 式 (5.7.5) である. このページを探すことが大変な作業であったためメモしておく. (なお,同様に参考文献として上げられていた文献 [35] では,この部分の計算が省略されているため,お勧めしない)
"参考文献 [55] W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery. Numerical Recipes 3rd Edition: The Art of Scientific Computing. Cambridge University Press, 2007."
※ 1st Edition および 2nd Edition では,差分近似の解説が無かったように記憶しているので,注意.
"参考文献 [35] 伊理 正夫,藤野 和建.数値計算の常識 .共立出版,1985."
5.5 データの白色化 p. 70 最終行 「一方 PCA 白色化では,各フィルタは離散コサイン変換の基底に酷似しており,それぞれ特定の空間周波数・位相にチューニングされていることがわかります.」 |
離散コサイン変換を理解するのが大変そうだと思って,放置している.進捗及び進捗の予定はないので,だれか超絶丁寧で分かり易い記事を書いて教えて下さい.
以上となります.
Deep Learning を学ぶには,他に下記の上 2 冊も有名です.
1 番目の書籍では,MLPS 深層学習 を執筆された 岡谷 貴之 先生 も共著として執筆されています. 内容としては,人工知能学会誌で 2013-14 年に連載されていた全 7 回の深層学習の解説記事を大幅に加筆修正したものとなっています. (加筆前の記事は,CiNii の定額アクセスに加入している (大学などの) ネットワークから「深層学習 人工知能学会」などと検索すると,「<連載解説>Deep Learning(深層学習)〔第X回〕」のようなタイトルで投稿されています.)
2 番目の書籍は,2016 年 10 月 11 日現在において,アマゾンの人工知能カテゴリでベストセラー 1 位を獲得している書籍で,現在私が最も興味を抱いている書籍です.
3 番目の書籍は,Deep Learning が主題ではありませんが,かずー氏 (@kazoo04) こと五木田 和也さんの書いた書籍で,青木健太郎さんの書くイラストが可愛いと話題沸騰中です. 「終わりに」で "かずー氏が親指を立てながら溶鉱炉に沈んでいくシーン" (※真に受けないで下さい) が非常に感動的だそうです. 数式は一切出てこないので,私としては残念ですが,かずー氏はブログ (Sideswipe) に非常に詳細な汎用人工知能に関す記事 (人工知能アドベントカレンダー) を投稿されており,こうした内容に関しても触れられているようなので,一度読んでおこうと思っています.
深層学習 Deep Learning (監修:人工知能学会) 著者: 麻生 英樹, 安田 宗樹, 前田 新一, 岡野原 大輔, 岡谷 貴之, 久保 陽太郎, ボレガラ ダヌシカ 監修: 人工知能学会 編集: 神嶌 敏弘 出版社: 近代科学社 発売日: 2015/11/05 メディア: 単行本 ページ数: 267 ページ
![]()
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 著者: 斎藤 康毅 出版社: オライリージャパン 発売日: 2016/09/24 メディア: 単行本 (ソフトカバー) ページ数: 320 ページ
![]()
コンピューターで「脳」がつくれるか 著者: 五木田 和也 イラスト: 青木健太郎 出版社: 技術評論社 発売日: 2016/09/27 メディア: 単行本 ページ数: 176 ページ
![]()
参考資料
深層学習 (機械学習プロフェッショナルシリーズ) 岡谷 貴之 (著)
[1] ノルム -Wikipedia
[2] 正規分布
[3] さまざまな確率分布 probability distributions - 数理的思考 - 中川雅央 【知と情報の科学】
[1] ノルム -Wikipedia
[2] 正規分布
[3] さまざまな確率分布 probability distributions - 数理的思考 - 中川雅央 【知と情報の科学】
0 件のコメント:
コメントを投稿