E資格-深層学習の応用(深層強化学習)-

深層強化学習において、連続行動空間を処理するために使用されるアルゴリズムはどれですか？

DQN（Deep Q-Network）

DDPG（Deep Deterministic Policy Gradient）

REINFORCE

Q学習

強化学習において、報酬を割り引くために使用される値は何ですか？

学習率

割引率（Discount Factor, γ）

方策（Policy）

探索パラメータ

次のうち、深層強化学習でよく使用される「アクター・クリティック（Actor-Critic）」の特徴は何ですか？

方策を直接学習するアクターと、価値関数を学習するクリティックが協調して学習を行う

エージェントが方策を持たずに学習を行う

環境の次の状態を予測するモデル

報酬が無い場合でも学習が進行する

強化学習において、「探索」と「活用」のトレードオフは何を意味しますか？

環境の状態を更新することと、行動を選択することのバランス

Q値を更新することと、報酬を得ることのバランス

新しい行動を試すことと、既に得た知識を利用することのバランス

学習速度を速めることと、計算コストを下げることのバランス

強化学習において「逆強化学習（Inverse Reinforcement Learning）」の目的は何ですか？

エージェントの行動を予測すること

環境の状態を再構成すること

報酬関数を未知の状態で推定すること

方策を直接学習すること

「経験再生（Experience Replay）」がDQNに導入される理由として正しいものはどれですか？

訓練データのバイアスを減らし、効率的な学習を行うため

訓練データを削減するため

エージェントの方策を改善するため

報酬をリアルタイムで更新するため

DQNにおいて「Double DQN（DDQN）」が提案された主な理由は何ですか？

Q値の過大評価を防ぎ、学習の安定性を向上させるため

学習速度を向上させるため

方策の更新頻度を増やすため

報酬関数を改善するため

深層強化学習において、次元削減技術が導入される理由として正しいものはどれですか？

状態空間が高次元である場合、効率的に学習するため

行動空間が不確実な場合、行動選択を高速化するため

方策の更新頻度を増加させるため

報酬をより多く得るため

次のうち、「REINFORCE」アルゴリズムの特徴として最も適切なものはどれですか？

Q値を用いて価値関数を近似する

経験再生を行い、効率的に学習を進める

方策勾配法を使用し、方策を直接最適化する

報酬の割引率を調整する

10.

次のうち、深層強化学習で多用される「ソフトアクタークリティック（SAC）」の特徴として正しいものはどれですか？

方策を持たない強化学習手法である

最大エントロピー原理に基づき、行動の多様性を保持しつつ学習する

確定論的な方策を使用して学習する

報酬を一定に保ちながら学習を行う

11.

「マルチエージェント強化学習」における課題の一つはどれですか？

他のエージェントとの相互作用により、環境が動的に変化する

エージェントが報酬を得られない場合がある

エージェントが単独で行動し続けること

環境が静的であること

12.

強化学習における「エージェント」の役割は何ですか？

環境の状態を制御する

環境からの報酬を基に行動を選択する

環境の次の状態を予測する

報酬を設定する

13.

ディープQネットワーク（DQN）における「ターゲットネットワーク」の役割は何ですか？

行動選択の速度を向上させるために使用される

報酬を増加させるために使用される

方策を変更するために使用される

Q値の計算を安定化させるために使用される

14.

強化学習における「方策（Policy）」とは何を指しますか？

エージェントが次の状態を予測するためのモデル

エージェントが各状態でどの行動を取るかを決定するルール

環境から得られる報酬の計算方法

エージェントのQ値を更新するアルゴリズム

15.

次のうち、強化学習において「多腕バンディット問題」が示す課題として最も適切なものはどれですか？

状態空間の次元削減に関する課題

環境の報酬構造を推定する課題

行動の決定に時間がかかる問題

探索と活用のバランスを取る課題

16.

次のうち、「Proximal Policy Optimization（PPO）」の特徴として最も適切なものはどれですか？

方策の更新を制御し、過度な更新を防ぐ

経験再生を使用して効率的に学習する

確率的な行動選択を行わない

データのバッチサイズを動的に変更する

17.

次のうち、Q学習とSarsaの主な違いとして正しいものはどれですか？

Q学習は方策を直接学習し、Sarsaは価値関数を学習する

Q学習はオフポリシー、Sarsaはオンポリシーである

Q学習は方策勾配法を使用し、Sarsaは使わない

Q学習は報酬の割引率を持たず、Sarsaは持つ

18.

ディープQネットワーク（DQN）の主な特徴は何ですか？

エージェントの方策を直接学習する

Q値の更新を行わない

ランダムに行動を選択する

深層ニューラルネットワークを用いてQ値を近似する

19.

Q学習において、Q値（Q-value）は何を表しますか？

状態の予測値

状態-行動ペアの価値

報酬の累積値

行動の確率分布

20.

強化学習の「オフポリシー学習」とは何ですか？

エージェントが同じ行動を繰り返す学習

エージェントがリアルタイムで行動を修正する学習

エージェントが現在の方策に従わずに学習すること

エージェントが報酬の割引率を調整する学習