やみとものプログラミング日記 やみとものプログラミング日記
TOP 「Pythonで学ぶ強化学習 入門から実践まで」まとめ
「Pythonで学ぶ強化学習 入門から実践まで」まとめ

「Pythonで学ぶ強化学習 入門から実践まで」まとめ

ディープラーニング Python プログラミング 機械学習 強化学習
作成日時: 2019年11月19日
更新日時: 2019年11月21日
この記事は「Pythonで学ぶ強化学習 入門から実践まで」という本のまとめです。


ニューラルネットワーク ≠ 深層学習

正しくは
ニューラルネットワーク ⊃ 深層学習

機械学習の機械はパラメータを持った数式

機械はモデルとも呼ばれる。
モデルの持つパラメータをデータによって調整することを学習という。
学習方法は次の3つ。
#ul
教師あり学習
教師なし学習
強化学習
#ul_end

強化学習のモデルは「行動の評価方法」を学ぶ

例えばエージェントが右に動いたとき、右に動くという行動の良し悪しを評価する方法を強化学習モデルは学ぶ。
右側には行き止まりしかないのなら悪く評価しよう、右側に宝箱があるのなら高く評価しよう、ということをモデルが自動的に学ぶ。

記号・数式の意味

\( \pi(a|s) \) … 条件付き確率。戦略πに基づいて行動する場合に、状態がsのときに行動aを行う確率。
\( T(s'|s,a) \) … 状態sで行動aを行った後、状態s'に遷移する確率。同じ状態で同じ行動を行っても思わぬ方向にいく場合もあることに注意。