E資格-深層学習の基礎(Transformer)-

自己注意（Self-Attention）機構の計算において、各トークンのスコアはどのように計算されますか？

各トークンのベクトルの内積

各トークンの位置情報を参照

トークンの順序を無視してランダムに決定

トークンの勾配に基づいて計算

「Scaled Dot-Product Attention」において、スコアをスケーリングする理由は何ですか？

スコアが小さくなりすぎるのを防ぐため

スコアが大きくなりすぎるのを防ぐため

勾配消失を防ぐため

計算コストを削減するため

Transformerのマルチヘッド注意機構では、異なる「ヘッド」を使用する利点は何ですか？

モデルのパラメータ数を減少させるため

異なる部分の情報に注意を向け、より多様な特徴を学習するため

モデルの計算速度を向上させるため

出力層での勾配を安定させるため

次のうち、Transformerにおける残差接続（Residual Connection）の目的として正しいものはどれですか？

モデルのパラメータを削減する

勾配消失問題を緩和し、深いネットワークでも学習を安定させる

モデルの計算速度を向上させる

出力層の精度を向上させる

次のうち、Transformerにおける「マスク付き注意機構（Masked Attention）」の役割として正しいものはどれですか？

現在のトークン以降の情報を参照できないようにする

出力の一部を無視する

モデルの計算速度を向上させる

モデルの重みを固定する

Transformerモデルで使用される「自己注意（Self-Attention）」機構の役割は何ですか？

シーケンス内の全ての単語に均一な重みを割り当てる

各単語の相対的位置関係を強調する

各単語がシーケンス内の他の単語とどのように関連するかを捉える

各単語をランダムにシャッフルする

Transformerにおける「ポジショナルエンコーディング」の役割は何ですか？

シーケンス全体を圧縮する

時系列データの位置情報を反映させる

勾配消失を防ぐ

モデルの出力を正規化する

次のうち、Transformerが従来のSeq2Seqモデル（RNNベース）に比べて優れている点として正しいものはどれですか？

時間的依存性が強くなる

全てのシーケンスを逐次処理する

モデルのサイズが小さい

長いシーケンスでも並列処理が可能である

次の中で、「Attention is All You Need」という論文が最初に導入した手法はどれですか？

Transformer

Seq2Seq

GRU

CNN

10.

次のうち、Transformerが自己注意メカニズムを使用することの利点として最も適切なものはどれですか？

並列処理が可能で、長いシーケンスも効率的に処理できる

時系列依存を完全に無視できる

勾配消失問題を根本的に解決する

各トークンの位置情報を完全に消去する

11.

Transformerの「Feedforward Neural Network」部分は何を行いますか？

データを圧縮する

各トークンの自己注意後の表現をさらに変換し、次の層に渡す

各トークンの位置情報を埋め込む

勾配をクリッピングする

12.

Transformerにおける「Decoder」の役割として正しいものはどれですか？

入力シーケンスの圧縮された表現を生成する

自己注意のみを使用して出力を予測する

残差接続を使用して入力シーケンスをそのまま出力する

エンコードされた情報を基に、出力シーケンスを逐次生成する

13.

Transformerモデルにおいて、従来のRNNと異なる最大の特徴は何ですか？

並列計算が可能であること

時系列データを扱えないこと

シーケンスの長さが固定であること

勾配消失問題を解決できないこと

14.

Transformerモデルにおける「Layer Normalization」は、どの段階で適用されますか？

マルチヘッド注意機構の出力と残差接続の間

フィードフォワード層の入力部分

モデル全体の最終層

ポジショナルエンコーディングの後

15.

Transformerの構成要素の一つである「Multi-Head Attention」の目的は何ですか？

単一の注意機構よりも複雑な関係を捉えるため

計算リソースを削減するため

モデルの層を深くするため

勾配消失問題を回避するため

16.

次のうち、Transformerモデルが機械翻訳において従来のRNNやLSTMベースのSeq2Seqモデルに勝っている理由はどれですか？

より少ないパラメータで学習できる

シーケンス長に依存しないため、非常に短い文でも高精度な翻訳ができる

並列計算が可能であり、大規模なデータセットを短時間で処理できる

各トークンに対して固定の重みが割り当てられている

17.

Transformerにおける「Encoder-Decoder構造」の役割は何ですか？

データの圧縮と復元

入力データと出力データの間でシーケンスを学習する

勾配の計算を高速化する

バッチ処理を効率化する

18.

次の中で、BERT（Bidirectional Encoder Representations from Transformers）とTransformerの主な違いとして正しいものはどれですか？

BERTは双方向の自己注意を使用し、Transformerは単方向の自己注意を使用する

BERTはエンコーダー部分のみを使用し、Transformerはエンコーダーとデコーダーの両方を使用する

BERTは逐次処理を行い、Transformerは並列処理を行う

BERTは画像データ専用で、Transformerはテキストデータ専用である

19.

Transformerの各層において、正規化（Normalization）はどのような役割を果たしますか？

計算コストを削減する

出力を安定化させ、学習を効率化する

モデルの深さを減らす

残差接続を削除する

20.

「自己回帰モデル（Auto-Regressive Model）」とTransformerの関係性について正しいものはどれですか？

Transformerは自己回帰モデルとして動作する

Transformerは自己回帰モデルの欠点を補完する

Transformerは自己回帰モデルの一部である

Transformerは自己回帰モデルを全く使用しない