1.
「Multi-Agent Reinforcement Learning(MARL)」が特に適用されるタスクとして最も適切なものはどれですか?
3.
深層強化学習において、「価値関数」とはどのようなものですか?
4.
「Actor-Critic」アーキテクチャにおけるActorの役割は何ですか?
5.
強化学習における「方策勾配法(Policy Gradient Method)」とは何ですか?
6.
強化学習における「方策オフライン学習」と「方策オンライン学習」の違いは何ですか?
7.
強化学習における「報酬(Reward)」の役割は何ですか?
8.
「Curiosity-driven Exploration」は、どのような場合に強化学習で役立ちますか?
9.
深層強化学習で用いられる「ターゲットネットワーク」とは何ですか?
10.
強化学習における「探索」と「活用」のバランスを取るための一般的な方法はどれですか?
11.
深層強化学習(Deep Reinforcement Learning, DRL)における「エージェント」とは何を指しますか?
12.
強化学習における「方策勾配法」がQ学習よりも有効な場合はどのような状況ですか?
13.
「割引率(Discount Factor)」が強化学習で果たす役割は何ですか?
14.
Q学習において、「Q関数」は何を表しますか?
15.
強化学習において、エージェントが「最適方策」を学習するためには何が必要ですか?
17.
DDPG(Deep Deterministic Policy Gradient)の主な利点は何ですか?
18.
深層強化学習で用いられる「ディープQネットワーク(DQN)」とは何ですか?
19.
深層強化学習における「環境」とは何を指しますか?
20.
「強化学習における状態(State)」とは何を表しますか?
21.
A3C(Asynchronous Advantage Actor-Critic)の利点は何ですか?
22.
強化学習の「経験再生(Experience Replay)」の目的は何ですか?
23.
深層強化学習において「カリキュラム学習」が導入される理由は何ですか?
24.
「Advantage Actor-Critic(A2C)」アルゴリズムにおけるAdvantage(A)の役割は何ですか?
25.
深層強化学習における「行動価値関数(Action-Value Function)」とは何ですか?
26.
深層強化学習で報酬の「遅延」が問題となる理由は何ですか?