1.
Transformerのマルチヘッド注意機構では、異なる「ヘッド」を使用する利点は何ですか?
2.
次のうち、Transformerが従来のSeq2Seqモデル(RNNベース)に比べて優れている点として正しいものはどれですか?
3.
Transformerにおける「Decoder」の役割として正しいものはどれですか?
4.
Transformerモデルにおいて、従来のRNNと異なる最大の特徴は何ですか?
5.
Transformerの各層において、正規化(Normalization)はどのような役割を果たしますか?
6.
Transformerモデルにおける「Layer Normalization」は、どの段階で適用されますか?
7.
自己注意(Self-Attention)機構の計算において、各トークンのスコアはどのように計算されますか?
8.
次のうち、Transformerが自己注意メカニズムを使用することの利点として最も適切なものはどれですか?
9.
Transformerモデルで使用される「自己注意(Self-Attention)」機構の役割は何ですか?
10.
Transformerの「Feedforward Neural Network」部分は何を行いますか?
11.
「Scaled Dot-Product Attention」において、スコアをスケーリングする理由は何ですか?
12.
次のうち、Transformerにおける残差接続(Residual Connection)の目的として正しいものはどれですか?
13.
「自己回帰モデル(Auto-Regressive Model)」とTransformerの関係性について正しいものはどれですか?
14.
次の中で、BERT(Bidirectional Encoder Representations from Transformers)とTransformerの主な違いとして正しいものはどれですか?
15.
次のうち、Transformerモデルが機械翻訳において従来のRNNやLSTMベースのSeq2Seqモデルに勝っている理由はどれですか?
16.
Transformerにおける「ポジショナルエンコーディング」の役割は何ですか?
17.
Transformerの構成要素の一つである「Multi-Head Attention」の目的は何ですか?
18.
Transformerにおける「Encoder-Decoder構造」の役割は何ですか?
19.
次の中で、「Attention is All You Need」という論文が最初に導入した手法はどれですか?
20.
次のうち、Transformerにおける「マスク付き注意機構(Masked Attention)」の役割として正しいものはどれですか?