1.
次のうち、強化学習において「多腕バンディット問題」が示す課題として最も適切なものはどれですか?
2.
ディープQネットワーク(DQN)の主な特徴は何ですか?
3.
「マルチエージェント強化学習」における課題の一つはどれですか?
4.
深層強化学習において、次元削減技術が導入される理由として正しいものはどれですか?
5.
次のうち、深層強化学習で多用される「ソフトアクタークリティック(SAC)」の特徴として正しいものはどれですか?
6.
強化学習において、報酬を割り引くために使用される値は何ですか?
7.
強化学習の「オフポリシー学習」とは何ですか?
8.
次のうち、深層強化学習でよく使用される「アクター・クリティック(Actor-Critic)」の特徴は何ですか?
9.
強化学習において、「探索」と「活用」のトレードオフは何を意味しますか?
10.
強化学習における「方策(Policy)」とは何を指しますか?
11.
Q学習において、Q値(Q-value)は何を表しますか?
12.
ディープQネットワーク(DQN)における「ターゲットネットワーク」の役割は何ですか?
13.
強化学習における「エージェント」の役割は何ですか?
14.
DQNにおいて「Double DQN(DDQN)」が提案された主な理由は何ですか?
15.
深層強化学習において、連続行動空間を処理するために使用されるアルゴリズムはどれですか?
16.
次のうち、「Proximal Policy Optimization(PPO)」の特徴として最も適切なものはどれですか?
17.
「経験再生(Experience Replay)」がDQNに導入される理由として正しいものはどれですか?
18.
次のうち、Q学習とSarsaの主な違いとして正しいものはどれですか?
19.
次のうち、「REINFORCE」アルゴリズムの特徴として最も適切なものはどれですか?
20.
強化学習において「逆強化学習(Inverse Reinforcement Learning)」の目的は何ですか?