Top

コダマ ナオキ
小玉 直樹 助教
東京理科大学 創域理工学部 経営システム工学科
小玉 直樹 助教
東京理科大学 創域理工学部 経営システム工学科
グループ |
IT |
研究・技術キーワード | 強化学習、機械学習、ニューラルネットワーク、エージェントシステム |
研究・技術テーマ |
|
研究・技術内容 | 多くの強化学習手法は、報酬の最大化を目的とした最適化問題として定式化されており、ニューラルネットワークを利用した深層強化学習は様々な分野で成果を上げている。一方で、本研究では、報酬の最大化の代わりに成功体験の模倣を目的としたヒューリスティックな接近法である経験強化型学習に注目している。中でも、学習結果に対する理論的保障を有するProfit Sharing(PS)に着目し、それを深層強化学習領域へ発展させたDeep Profit Sharing(DeePS)を提唱している。DeePSでは、少ない試行錯誤回数での学習や不完全知覚環境での高い学習性能といった有効性が報告されている。一般に、報酬最大化手法とヒューリスティックな手法は異なる有効性を持つが、それらの融合手法の有効性の検証は未だ不十分である。そこで本研究では、従来の深層強化学習手法とDeePSを融合させたHybrid DeePSを提案し、実問題への応用によりその有効性の検証を行う。本研究によって報酬最大化手法とヒューリスティックな手法の融合の意義が明らかになり、工学的応用の可能性が広がるものと考える。 |
産業への利用 | |
可能な産学連携形態 | 共同研究、受託研究、技術相談および指導 |
具体的な産学連携形態内容 | |
その他所属研究機関 | |
所属研究室 | 原田研究室 |
所有研究装置 | RTX4090を有する計算用マシン その他、RTX3080やRTX3070を有する計算用マシン複数 |
SDGs |