G検定-ディープラーニングの応用例(深層強化学習)-

深層強化学習で用いられる「ディープQネットワーク（DQN）」とは何ですか？

環境をシミュレートするモデル

報酬の最適化アルゴリズム

Q学習をディープニューラルネットワークで実装したモデル

強化学習で使用する正則化手法

強化学習の「経験再生（Experience Replay）」の目的は何ですか？

エージェントが現在の行動に過去の結果を適用する

エージェントのメモリをリセットする

過去の経験をランダムにリプレイし、学習の効率を高める

報酬を倍増させる

深層強化学習（Deep Reinforcement Learning, DRL）における「エージェント」とは何を指しますか？

環境内で行動を決定する主体

環境の状態を記録する装置

報酬を計算するアルゴリズム

データの前処理を行うシステム

強化学習における「方策勾配法（Policy Gradient Method）」とは何ですか？

Q関数を間接的に最適化する手法

環境の動作をシミュレートする手法

方策（Policy）を直接学習し、最適化する手法

報酬の割引率を計算する手法

DDPG（Deep Deterministic Policy Gradient）の主な利点は何ですか？

連続行動空間での最適な方策学習が可能である

離散行動空間にのみ適用可能である

エージェントが環境を変更できる

学習時間を大幅に短縮できる

深層強化学習において「カリキュラム学習」が導入される理由は何ですか？

エージェントの学習速度を減速させるため

報酬の変動を抑えるため

エージェントが段階的に難易度の高いタスクを学習できるようにするため

環境の状態をリセットするため

深層強化学習で用いられる「ターゲットネットワーク」とは何ですか？

エージェントの行動を評価するためのネットワーク

報酬の割引率を計算するネットワーク

ノイズを除去するためのネットワーク

学習を安定させるために使用されるネットワーク

Q学習において、学習の目標は何ですか？

状態遷移確率を計算する

最適なQ関数を学習し、報酬を最大化する

学習率を最小化する

報酬を無限大にする

「Multi-Agent Reinforcement Learning（MARL）」が特に適用されるタスクとして最も適切なものはどれですか？

チェスや将棋などのターンベースのゲーム

単純な迷路問題の解決

ロボット群による協調作業

画像分類モデルのトレーニング

10.

「ε-greedy法」とは何ですか？

探索と活用のバランスをとるための行動選択手法

環境をリセットする手法

学習率を調整するアルゴリズム

報酬を増やすための手法

11.

「Advantage Actor-Critic（A2C）」アルゴリズムにおけるAdvantage（A）の役割は何ですか？

方策を学習するための損失関数を計算する

環境の報酬を直接予測する

行動をランダムに選択するための確率を計算する

状態の価値と行動の価値の差分を計算し、行動の改善を促進する

12.

「強化学習における状態（State）」とは何を表しますか？

エージェントが実行する行動

環境がエージェントに提供する観測情報

エージェントが受け取る報酬の合計

次に選択される方策

13.

深層強化学習における「環境」とは何を指しますか？

エージェントが行動を取る場所と、その行動の結果を提供するシステム

エージェントが訓練されるニューラルネットワークモデル

強化学習の方策を定義する関数

報酬を決定する関数のみを管理するシステム

14.

「割引率（Discount Factor）」が強化学習で果たす役割は何ですか？

将来の報酬に対する現在の価値を調整する

エージェントの行動頻度を調整する

環境の状態をリセットする

Q関数の更新頻度を減少させる

15.

Q学習において、「Q関数」は何を表しますか？

状態と行動のペアに対する期待される累積報酬

行動の選択確率

エージェントの行動方針

環境の変化速度

16.

深層強化学習において、「価値関数」とはどのようなものですか？

環境の状態を予測する関数

エージェントが受け取る報酬の期待値を表す関数

方策を直接決定するためのモデル

ディープニューラルネットワークの学習損失を計算する関数

17.

強化学習における「方策オフライン学習」と「方策オンライン学習」の違いは何ですか？

オフライン学習では既存のデータを用いて学習し、オンライン学習ではリアルタイムでデータを収集しながら学習する

オフライン学習では報酬を即座に受け取り、オンライン学習では報酬を遅延させる

オフライン学習では行動が確率的であり、オンライン学習では行動が決定的である

オフライン学習はノイズを除去するが、オンライン学習はノイズを含む

18.

「Actor-Critic」アーキテクチャにおけるActorの役割は何ですか？

状態価値関数を計算する

行動方針を選択し、エージェントの行動を決定する

報酬を最大化するために環境を変化させる

行動価値関数を評価する

19.

強化学習における「報酬（Reward）」の役割は何ですか？

環境の状態を変える

エージェントが行った行動の評価

エージェントのメモリをリセットする

エージェントの行動履歴を保存する

20.

深層強化学習における「行動価値関数（Action-Value Function）」とは何ですか？

行動を選択する確率を示す関数

報酬の割引率を計算する関数

環境の状態を変化させる関数

状態と行動のペアに対する期待される報酬の総和を示す関数

21.

深層強化学習で報酬の「遅延」が問題となる理由は何ですか？

エージェントが遅延報酬を正しく評価できないことが多いため

遅延報酬はエージェントに無関係なため

遅延報酬は常に負の値であるため

遅延報酬は割引率に影響されないため

22.

「Curiosity-driven Exploration」は、どのような場合に強化学習で役立ちますか？

環境に明示的な報酬がほとんど存在しない場合

環境が大きな報酬を明確に提供する場合

環境がエージェントに常に同じ状態を提供する場合

エージェントが確率的に行動する場合

23.

強化学習における「探索」と「活用」のバランスを取るための一般的な方法はどれですか？

正規化とドロップアウト

Boltzmann探索とε-greedy法

勾配降下法と逆伝播

サンプリングとリサンプリング

24.

強化学習において、エージェントが「最適方策」を学習するためには何が必要ですか？

状態空間の削減

十分な探索と適切な報酬設計

事前に最適な行動の知識を持つ

報酬を均等に設定する

25.

強化学習における「方策勾配法」がQ学習よりも有効な場合はどのような状況ですか？

連続的な行動空間を持つ問題の場合

離散的な行動空間を持つ問題の場合

環境が静的な場合

報酬が常に正の値の場合

26.

A3C（Asynchronous Advantage Actor-Critic）の利点は何ですか？

Q関数を最適化することができる

離散的な行動空間にのみ適用可能である

報酬の割引率を調整できる

並列処理を用いて学習速度を向上させることができる