1.
「Actor-Critic」アーキテクチャにおけるActorの役割は何ですか?
2.
深層強化学習(Deep Reinforcement Learning, DRL)における「エージェント」とは何を指しますか?
3.
深層強化学習において「カリキュラム学習」が導入される理由は何ですか?
4.
強化学習における「方策勾配法」がQ学習よりも有効な場合はどのような状況ですか?
5.
深層強化学習において、「価値関数」とはどのようなものですか?
6.
深層強化学習で報酬の「遅延」が問題となる理由は何ですか?
7.
深層強化学習における「環境」とは何を指しますか?
9.
強化学習の「経験再生(Experience Replay)」の目的は何ですか?
10.
深層強化学習における「行動価値関数(Action-Value Function)」とは何ですか?
11.
「Advantage Actor-Critic(A2C)」アルゴリズムにおけるAdvantage(A)の役割は何ですか?
12.
強化学習における「方策勾配法(Policy Gradient Method)」とは何ですか?
13.
強化学習における「方策オフライン学習」と「方策オンライン学習」の違いは何ですか?
14.
強化学習における「探索」と「活用」のバランスを取るための一般的な方法はどれですか?
15.
「Multi-Agent Reinforcement Learning(MARL)」が特に適用されるタスクとして最も適切なものはどれですか?
16.
「Curiosity-driven Exploration」は、どのような場合に強化学習で役立ちますか?
17.
DDPG(Deep Deterministic Policy Gradient)の主な利点は何ですか?
18.
強化学習における「報酬(Reward)」の役割は何ですか?
19.
深層強化学習で用いられる「ディープQネットワーク(DQN)」とは何ですか?
20.
深層強化学習で用いられる「ターゲットネットワーク」とは何ですか?
21.
強化学習において、エージェントが「最適方策」を学習するためには何が必要ですか?
22.
「割引率(Discount Factor)」が強化学習で果たす役割は何ですか?
23.
「強化学習における状態(State)」とは何を表しますか?
25.
Q学習において、「Q関数」は何を表しますか?
26.
A3C(Asynchronous Advantage Actor-Critic)の利点は何ですか?