G検定-機械学習の概要(強化学習)-

強化学習のタスクにおいて、エピソードの長さを短く設定することにはどのような利点がありますか？

報酬が得られる頻度が減る

環境の状態が複雑になる

行動選択の難易度が上がる

学習が早く進む可能性がある

強化学習において、エージェントが環境の動作を直接観察できない場合に使用されるモデルはどれですか？

Q学習

DQN

部分観測マルコフ決定過程（POMDP）

SARSA

DQNアルゴリズムで使用される「固定ターゲットネットワーク」の主な目的は何ですか？

エージェントの行動を制御するため

Q値の更新を安定化させるため

環境の報酬を固定するため

モデルの学習速度を上げるため

強化学習における「方策（ポリシー）」の役割は何ですか？

特定の状態における行動選択のルール

エージェントが受け取る報酬を決定する

環境の遷移を管理する

学習アルゴリズムの一部

強化学習において、「エピソード」という用語が示すものは何ですか？

環境内での単一の行動

状態から次の状態への遷移

エージェントが初期状態から終了状態に到達する一連の相互作用

モデルのハイパーパラメータを調整するプロセス

モンテカルロ法はどのように強化学習に利用されますか？

エピソード全体の報酬を利用して方策を更新する

行動を完全にランダムに選択する

状態遷移モデルを学習する

Q値を即座に更新する

DQNアルゴリズムを使って複雑な環境でエージェントを訓練する際、リプレイバッファのサンプリング戦略として最も効果的な方法はどれですか？

優先サンプリングを行う

ランダムサンプリングを行う

全ての経験を均等にサンプリングする

環境の最新の経験のみを使用する

複雑な状態空間を持つ強化学習タスクにおいて、DQNの使用に関して最も考慮すべきことはどれですか？

エピソードの長さを無限にする

行動選択を常にランダムにする

適切なニューラルネットワークのアーキテクチャを選択する

割引率を0に設定する

DQN（Deep Q-Network）で使用される「経験再生（Experience Replay）」の主な目的はどれですか？

訓練データを増やす

ネットワークの重みを初期化する

報酬をリセットする

データの非依存性を高め、効率的な学習を実現する

10.

強化学習における「探索的行動」と「活用的行動」のバランスを調整するためのϵ-グリーディ法の仕組みはどれですか？

常にランダムな行動を選択する

一定の確率で最適行動を選択し、それ以外はランダムな行動を取る

最適行動のみを選択する

確率分布に基づいて行動を選択する

11.

強化学習における「報酬」とは何を指しますか？

環境の変化を表す数値

エージェントが受け取る行動の効果

エージェントの行動に対するフィードバックとして与えられる数値

学習率を調整する値

12.

強化学習のタスクにおいて、エージェントが報酬を長期的に最大化するために実装すべき戦略はどれですか？

行動を完全に固定する

報酬を短期的なものに依存させる

環境の状態を無視する

割引率を設定して未来の報酬を考慮する

13.

「方策勾配法」とは何を指しますか？

行動選択をランダムに行う方法

方策を直接最適化するためのアルゴリズム

Q値を更新するための方法

状態遷移モデルを学習する方法

14.

「方策勾配法」が「価値反復法」と異なる点はどれですか？

即時報酬を直接最適化する

方策（ポリシー）を直接最適化する

状態遷移モデルを必要とする

勾配消失問題を完全に解消する

15.

強化学習における「探索と活用のトレードオフ」とは何ですか？

環境の状態を観測しないこと

新しい行動を試すこと（探索）と既に知られている良い行動を繰り返すこと（活用）のバランスを取ること

行動を完全にランダムに選ぶこと

エージェントが報酬を得ないこと

16.

強化学習における「割引率（ディスカウントファクター）」の役割は何ですか？

未来の報酬の価値を現在の報酬と比較するため

学習率を決定する

行動選択を調整する

環境の動きを変化させる

17.

強化学習において「エージェント」とは何を指しますか？

環境の状態

行動を選択して報酬を得る主体

学習アルゴリズム

状態遷移モデル

18.

強化学習において「ハイパーパラメータの調整」で重要な項目は何ですか？

環境の状態数

エピソードの長さ

Q値の初期値

学習率や割引率、探索率

19.

強化学習を用いたロボットの制御タスクにおいて、エージェントが「サンプル効率」を高めるために考慮すべき手法はどれですか？

環境の動作を完全にランダムにする

モデルベースの手法を導入する

行動選択を完全にランダムにする

環境の状態を簡素化する

20.

強化学習タスクで「割引率（Discount Factor）」が1に近い場合、エージェントの行動にどのような影響を与えますか？

長期的な報酬を考慮する行動を取る

即時報酬を優先する行動を取る

短期的な報酬のみを考慮する

行動方針がランダムになる

21.

強化学習において「割引率」が0.9に設定されている場合、次の報酬の価値はどのように計算されるでしょうか？

未来の報酬の影響が10%になる

将来の報酬は無視される

現在の報酬が100%評価される

未来の報酬が90%評価される

22.

部分観測マルコフ決定過程（POMDP）を使用する強化学習の課題において、エージェントが隠れた状態を推定するために一般的に用いる手法はどれですか？

信念状態を用いる

行動をランダムに選ぶ

環境のモデルを完全に構築する

状態を無視する

23.

DQN（Deep Q-Network）の特徴として正しいものはどれですか？

Q値を直接テーブルに保存する

環境モデルを使用する

行動選択が完全にランダムである

ニューラルネットワークを用いてQ値を近似する

24.

強化学習の「状態」とは何を表していますか？

エージェントが選択した行動

環境の現在の状況や情報を示すもの

エージェントが受け取った報酬

学習プロセスのパラメータ

25.

強化学習における「価値関数（Value Function）」の主な役割はどれですか？

各状態での即時報酬を予測する

各行動の最適な遷移確率を計算する

各状態または状態-行動ペアの長期的な累積報酬を評価する

探索と活用のバランスを調整する

26.

強化学習における「Q学習」の目的は何ですか？

行動を完全にランダムに選択すること

環境の動きを模倣すること

状態-行動ペアの価値を学習し、最適な方策を見つけること

報酬を即座に得ること