1.
BERT(Bidirectional Encoder Representations from Transformers)がTransformerのエンコーダを使用することで、従来のseq2seqモデルに対して持つ利点は何ですか?
2.
Transformerモデルにおいて「Layer Normalization(層正規化)」が行われる主な理由は何ですか?
3.
Transformerモデルにおいて、「位置的注意スコア」はどのように計算されますか?
4.
Transformerモデルで用いられる「FFN(Feed-Forward Network)」の役割は何ですか?
5.
Transformerモデルにおける「自己注意機構(Self-Attention)」の役割は何ですか?
6.
Transformerモデルのトレーニングにおいて「学習率ウォームアップ」を使用する理由は何ですか?
7.
自己回帰型Transformerモデルにおいて「学習時と推論時のギャップ」を軽減する手法はどれですか?
8.
GPT-3のような自己回帰型モデルにおいて「注意欠陥」が起こる理由は何ですか?
9.
TransformerモデルがRNNベースのseq2seqモデルと比較して持つ利点はどれですか?
11.
GPT-3のような大規模言語モデルにおいて「Few-shot learning」が効果的である理由は何ですか?
12.
Transformerモデルの「Layer-wise Relevance Propagation(LRP)」は何を目的としていますか?
13.
Transformerモデルにおける「学習率スケジューリング」の効果は何ですか?
14.
Transformerモデルにおいて「エンコーダスタック」と「デコーダスタック」の役割の違いは何ですか?
15.
Transformerモデルにおける「マルチヘッドアテンション」の目的は何ですか?
16.
Transformerモデルにおける「ポジションエンコーディング」の役割は何ですか?
17.
GPT(Generative Pre-trained Transformer)モデルがBERTとは異なる点は何ですか?
18.
Transformerモデルにおいて「残差接続(Residual Connection)」の目的は何ですか?
19.
BERTモデルで使用される「マスク付き言語モデル(MLM)」の目的は何ですか?
20.
Transformerモデルにおける「ドロップアウト」の目的は何ですか?