1.
深層強化学習で用いられる「ディープQネットワーク(DQN)」とは何ですか?
2.
強化学習の「経験再生(Experience Replay)」の目的は何ですか?
3.
深層強化学習(Deep Reinforcement Learning, DRL)における「エージェント」とは何を指しますか?
4.
強化学習における「方策勾配法(Policy Gradient Method)」とは何ですか?
5.
DDPG(Deep Deterministic Policy Gradient)の主な利点は何ですか?
6.
深層強化学習において「カリキュラム学習」が導入される理由は何ですか?
7.
深層強化学習で用いられる「ターゲットネットワーク」とは何ですか?
9.
「Multi-Agent Reinforcement Learning(MARL)」が特に適用されるタスクとして最も適切なものはどれですか?
11.
「Advantage Actor-Critic(A2C)」アルゴリズムにおけるAdvantage(A)の役割は何ですか?
12.
「強化学習における状態(State)」とは何を表しますか?
13.
深層強化学習における「環境」とは何を指しますか?
14.
「割引率(Discount Factor)」が強化学習で果たす役割は何ですか?
15.
Q学習において、「Q関数」は何を表しますか?
16.
深層強化学習において、「価値関数」とはどのようなものですか?
17.
強化学習における「方策オフライン学習」と「方策オンライン学習」の違いは何ですか?
18.
「Actor-Critic」アーキテクチャにおけるActorの役割は何ですか?
19.
強化学習における「報酬(Reward)」の役割は何ですか?
20.
深層強化学習における「行動価値関数(Action-Value Function)」とは何ですか?
21.
深層強化学習で報酬の「遅延」が問題となる理由は何ですか?
22.
「Curiosity-driven Exploration」は、どのような場合に強化学習で役立ちますか?
23.
強化学習における「探索」と「活用」のバランスを取るための一般的な方法はどれですか?
24.
強化学習において、エージェントが「最適方策」を学習するためには何が必要ですか?
25.
強化学習における「方策勾配法」がQ学習よりも有効な場合はどのような状況ですか?
26.
A3C(Asynchronous Advantage Actor-Critic)の利点は何ですか?