助教

今川孝久

いまがわ　たかひさ

: 情報工学研究院; 知的システム工学研究系
: 2018
東京大学大学院
総合文化研究科
広域科学専攻
博士課程修了
2015
東京大学大学院
総合文化研究科
広域科学専攻
修士課程修了

「知りたい」を仕事に出来るのは魅力的だと、昔から漠然と思っていました。大学に進学し、生命科学、古生物学等といった様々な分野にも興味を持ちました。中でも、「知能」を創るという壮大な夢やそれがもたらす可能性に惹かれて、人工知能の研究の道に進みました。

: 東京大学大学院総合文化研究科広域科学専攻研究奨励賞（2015）
情報処理学会ゲーム情報学研究会研究奨励賞（2016）
IEEE Technologies and Applications of Artificial Intelligence Merit Paper Award（2017）

「賢い」学習と意思決定

● 研究テーマ

❖ 強化学習
❖ 探索アルゴリズム
❖ 上記の応用

● 分野

知能情報学、機械学習

● キーワード

人工知能、強化学習、探索アルゴリズム、プランニング

● 実施中の研究概要

強化学習は、エージェント（学習者）が試行錯誤して、その報酬（結果の良し悪し）に基づき良い行動を学習する方法で、心理学での強化と密接に関係しています。強化学習は、汎用性のある学習方法であり、実際、強化学習は様々な分野（ロボット、ゲーム等）に応用されています。

しかしながら、強化学習の実応用はまだまだ進んでいません。実応用を妨げる原因の一つは、強化学習は効率的でなく、良い行動を学習するために大量のデータを必要とすることにあると考えています。実応用では、必ずしも大量のデータを集められる訳では無いためです。また、初見の状況に上手く対応できないことも実応用を妨げています。一方で人間は初見の状況でも対応できたり、そうでなくとも少し試行錯誤するだけでできるようになったり、非常に効率的に学習できます。

強化学習エージェントが人間のように効率的に学習できない原因の一つは学習環境のモデリングが不十分なことにあると考えています。モデリングが重要な例としては、例えば、他者が上手くタスクを解いている（例えば知恵の輪を解いている）状況が挙げられます。その場合、他者とその周りの物体（知恵の輪を解いている人と知恵の輪）のモデリングを行うことで、他者の行動の列（知恵の輪をどのように動かすか）が抽出でき、そこから学習できる可能性があります。通常の強化学習ではこのような観点で学習はしていません。

現在、私は他者のモデリングの方法と他者のモデリングを通じて得たデータを使って強化学習を効率的に行う方法について研究しています。

● 今後進めたい研究

上記に限らず強化学習を発展させ、汎用人工知能の実現に向けて研究を進めたい。
また、ロボットや自動車等を題材に研究の成果の応用にも取り組みたい。

● 関連リンク先

❖ より詳しい研究者データ

https://hyokadb02.jimu.kyutech.ac.jp/html/100001740_ja.html

今川 孝久