1.
強化学習のタスクにおいて、エピソードの長さを短く設定することにはどのような利点がありますか?
2.
強化学習において、エージェントが環境の動作を直接観察できない場合に使用されるモデルはどれですか?
3.
DQNアルゴリズムで使用される「固定ターゲットネットワーク」の主な目的は何ですか?
4.
強化学習における「方策(ポリシー)」の役割は何ですか?
5.
強化学習において、「エピソード」という用語が示すものは何ですか?
6.
モンテカルロ法はどのように強化学習に利用されますか?
7.
DQNアルゴリズムを使って複雑な環境でエージェントを訓練する際、リプレイバッファのサンプリング戦略として最も効果的な方法はどれですか?
8.
複雑な状態空間を持つ強化学習タスクにおいて、DQNの使用に関して最も考慮すべきことはどれですか?
9.
DQN(Deep Q-Network)で使用される「経験再生(Experience Replay)」の主な目的はどれですか?
10.
強化学習における「探索的行動」と「活用的行動」のバランスを調整するためのϵ-グリーディ法の仕組みはどれですか?
11.
強化学習における「報酬」とは何を指しますか?
12.
強化学習のタスクにおいて、エージェントが報酬を長期的に最大化するために実装すべき戦略はどれですか?
14.
「方策勾配法」が「価値反復法」と異なる点はどれですか?
15.
強化学習における「探索と活用のトレードオフ」とは何ですか?
16.
強化学習における「割引率(ディスカウントファクター)」の役割は何ですか?
17.
強化学習において「エージェント」とは何を指しますか?
18.
強化学習において「ハイパーパラメータの調整」で重要な項目は何ですか?
19.
強化学習を用いたロボットの制御タスクにおいて、エージェントが「サンプル効率」を高めるために考慮すべき手法はどれですか?
20.
強化学習タスクで「割引率(Discount Factor)」が1に近い場合、エージェントの行動にどのような影響を与えますか?
21.
強化学習において「割引率」が0.9に設定されている場合、次の報酬の価値はどのように計算されるでしょうか?
22.
部分観測マルコフ決定過程(POMDP)を使用する強化学習の課題において、エージェントが隠れた状態を推定するために一般的に用いる手法はどれですか?
23.
DQN(Deep Q-Network)の特徴として正しいものはどれですか?
24.
強化学習の「状態」とは何を表していますか?
25.
強化学習における「価値関数(Value Function)」の主な役割はどれですか?
26.
強化学習における「Q学習」の目的は何ですか?