AI実装検定S級~模擬試験①~ 2024年12月8日2025年3月1日 ailearn 1. 「クロスアテンション」とは何ですか? 自己注意機構と同様に動作し、入力シーケンス内の関係性を学習する デコーダ内でのみ使用されるアテンション機構 エンコーダとデコーダ間で異なるシーケンスに対して注意を向ける機構 同じシーケンス内で注意を向ける機構 None 2. ResNetの「スキップ接続」の動作により、勾配消失問題が軽減される理由は何ですか? 各層の出力がリセットされるため 入力データを直接次の層に渡し、重要な情報を失わないようにするため 層の数が減るため 活性化関数を無効にするため None 3. BERT(Bidirectional Encoder Representations from Transformers)がTransformerのエンコーダを使用することで、従来のseq2seqモデルに対して持つ利点は何ですか? 単方向の文脈しか学習できないため、情報が失われにくい 両方向の文脈を同時に学習し、より精度の高い文脈理解が可能になるため モデルのサイズが小さくなるため モデルの訓練時間が短縮されるため None 4. Transformerモデルのトレーニングにおいて「学習率ウォームアップ」を使用する理由は何ですか? モデルの学習を開始する前に、学習率を徐々に増加させて安定した学習を行うため モデルの重みを初期化するため モデルの過学習を防ぐため データの正規化を行うため None 5. Transformerモデルにおける「学習率スケジューリング」の効果は何ですか? モデルのサイズを削減する モデルの重みを初期化する 学習率を段階的に調整することで、最適な学習速度を維持する モデルの出力を正規化する None 6. seq2seqモデルにおいて、「コンテキストベクトル」の役割は何ですか? モデルの出力を最適化する モデルの誤差を修正する モデルの学習率を調整する エンコーダが入力シーケンスをエンコードした結果をまとめ、デコーダに渡す情報を要約する None 7. GoogLeNetが従来のCNNモデルよりも効率的に計算できる理由は何ですか? モデルの層が浅いため 1x1の畳み込みによる次元削減が計算量を大幅に削減するため 重みがランダムに初期化されているため プーリング層が使用されていないため None 8. VGGモデルにおいて、「過学習」を防ぐために取られる一般的な対策は何ですか? モデルの層数を増やす ドロップアウト層を導入する 重みのランダム初期化を行う 活性化関数を変更する None 9. VGGネットワークの「小さな3x3カーネル」を使用することの利点は何ですか? より大きなカーネルサイズを使用した場合と同じ受容野を確保しつつ、パラメータ数を抑えるため モデルの計算量を削減するため 訓練データを削減するため モデルの過学習を防ぐため None 10. VGGネットワークが「パラメータ数が多い」という点が意味するものは何ですか? モデルが計算資源を多く消費し、メモリ使用量が増える 訓練データの量が少なくても高い性能を発揮する モデルの訓練時間が短くなる パラメータチューニングが不要になる None 11. ResNetが「オーバーフィッティング」を防ぐために使用する手法は次のうちどれですか? ドロップアウト 残差接続 正則化 L2正則化 None 12. seq2seqモデルのデコーダにおいて「Teacher Forcing」が効果的である理由は何ですか? 訓練中にモデルが誤った予測をしても、正解データを使って次のステップの予測ができるから モデルの出力シーケンスを高速化できるから モデルの学習データを自動生成できるから 訓練データの量を削減できるから None 13. GoogLeNetモデルの主な特徴は次のうちどれですか? 全結合層の数を増やしたモデル Inceptionモジュールを使用し、畳み込みとプーリングを並列に処理する ReLUを活性化関数として使用しないモデル 深さが浅いCNNモデル None 14. Transformerモデルにおいて、「マルチヘッドアテンション」が持つ効果は何ですか? 訓練データのサイズを削減する モデルの各層の出力を全て同時に計算する 複数の異なるアテンションを並行して学習し、文脈の多様な側面を捉える デコーダが全ての入力シーケンスをシャッフルする None 15. ResNet-50の「50」という数字が示しているのは次のうちどれですか? ネットワークの残差ブロック数 全ての層の合計数(畳み込み層、プーリング層、全結合層の合計) 最終出力の次元数 各ブロックで使用されるカーネルサイズ None 16. VGGネットワークの層の総数が多い理由は何ですか? 複雑な画像処理をシンプルにするため 各層で異なるレベルの特徴を学習し、高次の抽象的特徴を得るため 各層のパラメータ数を減らすため モデルの訓練を容易にするため None 17. Transformerモデルにおいて「エンコーダスタック」と「デコーダスタック」の役割の違いは何ですか? エンコーダは出力シーケンスを生成し、デコーダは入力シーケンスをエンコードする エンコーダはアテンションを無視し、デコーダはアテンションを利用する エンコーダは入力シーケンスをエンコードし、デコーダはエンコーダの出力に基づいて出力シーケンスを生成する エンコーダは出力シーケンスをシャッフルし、デコーダは元に戻す None 18. GPT(Generative Pre-trained Transformer)モデルがBERTとは異なる点は何ですか? GPTは双方向の文脈を同時に学習するが、BERTは単方向の文脈しか学習しない GPTは単方向の文脈を学習し、テキスト生成タスクに特化している GPTはエンコーダのみを使用し、BERTはデコーダのみを使用する GPTは翻訳タスク専用で、BERTは分類タスク専用である None 19. WideResNetのようなモデルで「スキップ接続」が無い場合、どのような影響が考えられますか? モデルの性能が向上する モデルのパラメータ数が増加する 学習速度が向上する 勾配消失問題が悪化し、学習が進まなくなる可能性がある None 20. Transformerモデルにおける「自己注意機構(Self-Attention)」の役割は何ですか? モデルが過去のデータを削除するため 入力シーケンスの全ての単語間の関係性を同時に計算し、重要な単語に注意を向けるため モデルの重みを自動で調整するため 出力シーケンスをシャッフルするため None 21. VGGネットワークの設計において「全結合層」を使用する目的は何ですか? 特徴マップのサイズを減らすため 畳み込み層で抽出した特徴を元に、最終的なクラス分類を行うため モデルのパラメータ数を削減するため 活性化関数を変更するため None 22. GoogLeNetの訓練において、学習率スケジューリングを使用する理由は何ですか? モデルの訓練時間を増やすため モデルのパラメータ数を増やすため 学習が進むにつれて学習率を徐々に減少させ、最適な収束を促すため 勾配消失問題を防ぐため None 23. VGGネットワークの全結合層を削減した場合、予想される効果は何ですか? モデルの精度が大幅に向上する パラメータ数が減少し、メモリ使用量が少なくなる モデルの計算速度が遅くなる モデルの訓練が困難になる None 24. seq2seqモデルにおいて、損失関数として「クロスエントロピー損失」がよく使用される理由は何ですか? モデルのトレーニングを自動化できるため データの前処理を省略できるため モデルの出力をバイナリデータに変換するため モデルの出力が確率分布であり、正解ラベルとの誤差を測定するのに適しているため None 25. GoogLeNetの「auxiliary classifiers」を使用しない場合、どのような影響がありますか? モデルの勾配消失問題が悪化する可能性がある モデルの性能が向上する モデルの訓練速度が向上する モデルのパラメータ数が減少する None 26. WideResNetが「深さ」を増やす代わりに「幅」を増やす選択をする理由は何ですか? 訓練データの量を減らすため 計算量を削減するため 勾配消失問題を軽減しつつ、より多様な特徴を学習するため モデルのパラメータ数を減らすため None 27. Transformerモデルにおける「マルチヘッドアテンション」の目的は何ですか? 学習速度を向上させるため 複数の異なるアテンションを同時に学習し、文脈の多様な側面を捉えるため データのノイズを削除するため モデルのサイズを小さくするため None 28. seq2seqモデルで「デコーダ」が生成するのは何ですか? 入力シーケンスの次元数 出力シーケンス モデルの重み エンコーダの隠れ状態 None 29. Transformerモデルにおける「ポジションエンコーディング」の役割は何ですか? 入力シーケンスの位置情報を付与することで、単語の順序をモデルに理解させるため モデルの重みを調整するため 入力シーケンスをシャッフルするため モデルの学習速度を向上させるため None 30. GoogLeNetの設計において、Inceptionモジュールを使用する利点は何ですか? 全ての特徴を1つのカーネルサイズで学習する 畳み込み層のパラメータ数を増やす 異なるサイズの特徴を同時に学習し、より多様な特徴抽出が可能になる モデルの学習速度を低下させる None 31. Transformerモデルがseq2seqモデルに対して持つ最大の利点は何ですか? アテンション機構のみを使用することで、並列処理が可能であり、長いシーケンスでも効率的に処理できるため モデルのサイズを削減するため パラメータ数を減らすため モデルの訓練時間を短縮するため None 32. ResNetが「非常に深いネットワーク」においても有効に機能する理由は何ですか? 全ての層で勾配を消失させるため 残差接続が勾配消失問題を防ぎ、層が深くなっても学習が安定するため 全結合層を多用するため 勾配爆発を引き起こすため None 33. seq2seqモデルにおいて、「BLEUスコア」とは何を測定する指標ですか? モデルの出力シーケンスの生成速度 生成されたシーケンスが、ターゲットシーケンスとどれだけ一致しているかを測定する指標 モデルの損失関数の値 モデルのハイパーパラメータの最適性 None 34. GPT-3のような自己回帰型モデルにおいて「注意欠陥」が起こる理由は何ですか? モデルが過去の情報に過剰に依存しすぎるため モデルが同じトークンに繰り返し注意を向けるため モデルが次のトークンを生成する際に、遠い過去の情報を無視する可能性があるため モデルが文法的な構造を理解しないため None 35. VGGネットワークが「事前学習済みモデル」としてよく使用される理由は何ですか? モデルが軽量であるため ネットワークの深さが浅いため パラメータ数が少ないため 多くの異なる画像データセットで良好な性能を発揮するため None 36. VGGネットワークで使用される「最大プーリング(Max Pooling)」の主な目的は何ですか? 特徴マップのサイズを増加させる モデルの計算速度を遅くするため 重要な特徴を抽出し、特徴マップのサイズを縮小するため モデルの出力サイズを固定するため None 37. GoogLeNetの「Inceptionモジュール」における「5x5の畳み込み層」を削除した場合、予想される影響は何ですか? 広域の特徴を学習する能力が低下する モデルの計算量が増加する モデルのパラメータ数が増加する 特徴マップのチャネル数が増加する None 38. ResNetの設計における「ボトルネックブロック」の役割は何ですか? モデルの出力層の次元を増やす 残差ブロックのパラメータ数を削減しつつ、同等の表現力を保つ 勾配消失を引き起こす 全結合層の数を増やす None 39. seq2seqモデルにおける「アテンション機構」の役割は何ですか? モデルのトレーニング時間を短縮するため モデルが全ての入力シーケンスを同時に処理するため デコーダがエンコーダの全ての出力に注意を向けて、適切な情報を重視するため モデルがデータをシャッフルするため None 40. GoogLeNetにおいて、各Inceptionモジュールで「3x3の畳み込み層」を使用する理由は何ですか? 計算コストを削減するため 特徴マップのチャネル数を増やすため プーリング層の代わりに使用されるため 中間的なサイズの特徴を学習し、細かいパターンを捉えるため None 41. ResNetの設計において、最大の特徴である「残差接続(Residual Connection)」の目的は何ですか? モデルの計算コストを削減するため 非線形性を増加させるため 勾配消失問題を軽減し、深い層でも学習が安定するようにするため モデルのパラメータ数を増加させるため None 42. seq2seqモデルにおいて、入力シーケンスの長さが異なるデータを処理するために最も適している手法はどれですか? 固定長のベクトルに入力シーケンスを切り捨てる パディングを使い、入力シーケンスを同じ長さに揃える 全ての入力シーケンスを同じ長さのデータに変換する 入力シーケンスを無視する None 43. VGGネットワークのような深層学習モデルで、深い層を追加する際に発生する「勾配消失問題」を解決するための手法はどれですか? ReLU活性化関数を使用する 重み減衰を適用する 全結合層を削除する バッチ正規化を導入する None 44. VGGネットワークで「転移学習」が効果的な理由は何ですか? モデルが浅いネットワーク構造を持つため 事前学習された特徴が多くの異なるタスクに対して汎用的であるため モデルのパラメータ数が少ないため モデルが固定された出力サイズを持つため None 45. ResNet/WideResNetにおける「Global Average Pooling(GAP)」の使用は何を目的としていますか? パラメータ数を増加させるため 最終的な特徴マップを集約し、過学習を防ぐため 特徴マップのサイズを増加させるため 勾配消失問題を軽減するため None 46. Transformerモデルにおける「ドロップアウト」の目的は何ですか? 訓練中に一部のニューロンをランダムに無効化し、過学習を防ぐ モデルの学習速度を向上させる モデルのハイパーパラメータを調整する モデルの出力シーケンスをシャッフルする None 47. Transformerモデルの「Layer-wise Relevance Propagation(LRP)」は何を目的としていますか? モデルの学習速度を向上させる モデルの各層における出力の重要度を評価し、説明可能なAIを実現するため モデルの出力を調整するため データの欠損を補完するため None 48. VGGネットワークにおける「ゼロパディング」の主な役割は何ですか? 特徴マップのサイズを固定し、畳み込み層で情報の損失を防ぐため モデルの訓練時間を短縮するため モデルの出力をシャッフルするため モデルの重みを初期化するため None 49. WideResNetが従来のResNetと異なる点は何ですか? スキップ接続を持たない 全ての畳み込み層を1x1に置き換える 残差ブロックの数が減少している 各残差ブロック内のチャネル数が広く設定されている None 50. seq2seqモデルにおいて、LSTM(Long Short-Term Memory)がRNNに比べて優れている点は何ですか? 訓練データのサイズを自動的に削減できる 勾配消失問題を軽減し、長期的な依存関係を学習できる モデルの学習速度を向上させる 出力の次元数を減らす None Time's up