G検定-ディープラーニングの応用例(深層強化学習)-

1. 
「Actor-Critic」アーキテクチャにおけるActorの役割は何ですか?

2. 
深層強化学習(Deep Reinforcement Learning, DRL)における「エージェント」とは何を指しますか?

3. 
深層強化学習において「カリキュラム学習」が導入される理由は何ですか?

4. 
強化学習における「方策勾配法」がQ学習よりも有効な場合はどのような状況ですか?

5. 
深層強化学習において、「価値関数」とはどのようなものですか?

6. 
深層強化学習で報酬の「遅延」が問題となる理由は何ですか?

7. 
深層強化学習における「環境」とは何を指しますか?

8. 
Q学習において、学習の目標は何ですか?

9. 
強化学習の「経験再生(Experience Replay)」の目的は何ですか?

10. 
深層強化学習における「行動価値関数(Action-Value Function)」とは何ですか?

11. 
「Advantage Actor-Critic(A2C)」アルゴリズムにおけるAdvantage(A)の役割は何ですか?

12. 
強化学習における「方策勾配法(Policy Gradient Method)」とは何ですか?

13. 
強化学習における「方策オフライン学習」と「方策オンライン学習」の違いは何ですか?

14. 
強化学習における「探索」と「活用」のバランスを取るための一般的な方法はどれですか?

15. 
「Multi-Agent Reinforcement Learning(MARL)」が特に適用されるタスクとして最も適切なものはどれですか?

16. 
「Curiosity-driven Exploration」は、どのような場合に強化学習で役立ちますか?

17. 
DDPG(Deep Deterministic Policy Gradient)の主な利点は何ですか?

18. 
強化学習における「報酬(Reward)」の役割は何ですか?

19. 
深層強化学習で用いられる「ディープQネットワーク(DQN)」とは何ですか?

20. 
深層強化学習で用いられる「ターゲットネットワーク」とは何ですか?

21. 
強化学習において、エージェントが「最適方策」を学習するためには何が必要ですか?

22. 
「割引率(Discount Factor)」が強化学習で果たす役割は何ですか?

23. 
「強化学習における状態(State)」とは何を表しますか?

24. 
「ε-greedy法」とは何ですか?

25. 
Q学習において、「Q関数」は何を表しますか?

26. 
A3C(Asynchronous Advantage Actor-Critic)の利点は何ですか?

コメントを残すにはログインしてください。