AI実装検定S級~模擬試験~ 2024年11月3日 ailearn 1. Word2VecのSkip-gramモデルにおける「softmax関数」の役割は何ですか? モデルの出力を正規化し、各文脈語に対する確率を計算するため モデルのパラメータを初期化するため モデルの損失関数を計算するため モデルの学習速度を向上させるため None 2. MobileNetの「αパラメータ」を減少させることによって予想される影響は何ですか? モデルの計算コストが増加し、精度が低下する モデルの計算コストが減少し、精度が向上する モデルの計算コストが減少し、精度が低下する パラメータ数が増加し、モデルが過学習する None 3. MobileNetV2の「インバーテッド残差構造」が従来の残差構造と異なる点は何ですか? 残差接続を削除している 全ての層でReLUを使用していない 非線形活性化を使用していない 高次元空間での特徴抽出後に次元削減を行う None 4. WideResNetが従来のResNetと異なる点は何ですか? スキップ接続を持たない 全ての畳み込み層を1x1に置き換える 残差ブロックの数が減少している 各残差ブロック内のチャネル数が広く設定されている None 5. Transformerモデルにおける「学習率スケジューリング」の効果は何ですか? モデルのサイズを削減する モデルの重みを初期化する 学習率を段階的に調整することで、最適な学習速度を維持する モデルの出力を正規化する None 6. Transformerモデルにおいて、「位置的注意スコア」はどのように計算されますか? 出力とターゲットシーケンスの距離に基づいて計算される エンコーダとデコーダの出力を直接比較する モデルの重みから自動計算される クエリとキーの内積を計算し、それをソフトマックスで正規化する None 7. seq2seqモデルにおける「双方向エンコーダ(Bidirectional Encoder)」の利点は何ですか? モデルの計算コストを削減するため デコーダの性能を向上させるため 入力シーケンスを前方向と後方向の両方から処理し、文脈の理解を深めるため モデルの訓練時間を短縮するため None 8. WideResNetのようなモデルで「スキップ接続」が無い場合、どのような影響が考えられますか? モデルの性能が向上する モデルのパラメータ数が増加する 学習速度が向上する 勾配消失問題が悪化し、学習が進まなくなる可能性がある None 9. HREDモデルの訓練でよく使用される損失関数は次のうちどれですか? 平均二乗誤差 ヒンジ損失 L2正則化 クロスエントロピー損失 None 10. DenseNetが「パラメータの再利用」により他のモデルよりも効率的である理由は何ですか? 残差接続を用いているため 各層が独立して学習を行うため モデルの深さを増やしているため 各層が前の全ての層の出力を使用し、新しいパラメータを最小限に抑えるため None 11. DenseNetにおける「トランジションレイヤー」の畳み込み操作は何を目的としていますか? パラメータ数を増やし、学習を促進するため 特徴マップの解像度を増加させるため 特徴マップの次元を減少させ、メモリ使用量を抑えるため モデルの幅を調整するため None 12. HREDモデルが通常のseq2seqモデルと異なる点は何ですか? seq2seqモデルは並列処理が可能だが、HREDはできない HREDは発話や文の階層構造を扱うが、seq2seqモデルは単一のシーケンスのみを扱う HREDはTransformerに基づくモデルである HREDは畳み込み層を持つ None 13. GoogLeNetの訓練において、学習率スケジューリングを使用する理由は何ですか? モデルの訓練時間を増やすため モデルのパラメータ数を増やすため 学習が進むにつれて学習率を徐々に減少させ、最適な収束を促すため 勾配消失問題を防ぐため None 14. seq2seqモデルのエンコーダにおいて、「長短期記憶(LSTM)」を用いるメリットとして正しいものはどれですか? モデルの学習時間を短縮できる 長期的な依存関係を保持しやすく、勾配消失問題を回避できる デコーダの出力を最適化する パディングを行わずに入力シーケンスを処理できる None 15. Transformerモデルにおいて「残差接続(Residual Connection)」の目的は何ですか? モデルの重みを削減するため モデルの学習速度を向上させるため データの前処理を自動化するため 各層の出力に入力を加算し、勾配消失を防ぎ、深いネットワークでも学習を安定化させるため None 16. ResNetが「オーバーフィッティング」を防ぐために使用する手法は次のうちどれですか? ドロップアウト 残差接続 正則化 L2正則化 None 17. HREDのような階層型モデルが一般的なRNNに比べて長期依存関係を捉えるのに優れている理由は何ですか? モデルのパラメータ数が少ないため 訓練時間が短いため 全てのシーケンスが並列処理されるため 階層構造によって文や発話単位の依存関係を保持しやすいため None 18. EfficientNetが従来のモデルよりも計算効率が高い理由は何ですか? 全ての畳み込み層でストライド2を使用しているため モデルの層数を削減しているため Compound Scalingにより、計算コストを抑えつつ精度を向上させているため 活性化関数を変更したため None 19. Transformerモデルのトレーニングにおいて「学習率ウォームアップ」を使用する理由は何ですか? モデルの学習を開始する前に、学習率を徐々に増加させて安定した学習を行うため モデルの重みを初期化するため モデルの過学習を防ぐため データの正規化を行うため None 20. HREDモデルはどのようなタスクに特に適していますか? 文書生成や対話システム 画像分類 機械翻訳 音声認識 None 21. seq2seqモデルにおける「アテンション機構」の役割は何ですか? モデルのトレーニング時間を短縮するため モデルが全ての入力シーケンスを同時に処理するため デコーダがエンコーダの全ての出力に注意を向けて、適切な情報を重視するため モデルがデータをシャッフルするため None 22. DenseNetにおける「勾配爆発」や「勾配消失」を防ぐために有効な設計は次のうちどれですか? 各層での残差接続 全層での独立した学習 密結合による勾配の伝播とバッチ正規化の使用 活性化関数を完全に無効化する None 23. Word2VecのSkip-gramモデルで「コサイン類似度」を使用する理由は何ですか? モデルの重みを最適化するため 単語ベクトルの次元数を削減するため 単語間のベクトル距離を測定し、類似度を数値化するため 単語の頻度を正規化するため None 24. MobileNetの効率的な設計において、「次元削減」の目的は何ですか? 計算コストを削減しながら、特徴マップの表現力を維持するため モデルの学習速度を遅くするため 残差接続を使用するため 勾配消失を引き起こすため None 25. seq2seqモデルにおいて、入力シーケンスの長さが異なるデータを処理するために最も適している手法はどれですか? 固定長のベクトルに入力シーケンスを切り捨てる パディングを使い、入力シーケンスを同じ長さに揃える 全ての入力シーケンスを同じ長さのデータに変換する 入力シーケンスを無視する None 26. Transformerモデルにおける「ポジションエンコーディング」の役割は何ですか? 入力シーケンスの位置情報を付与することで、単語の順序をモデルに理解させるため モデルの重みを調整するため 入力シーケンスをシャッフルするため モデルの学習速度を向上させるため None 27. EfficientNetが「Squeeze-and-Excitation(SE)」ブロックを導入している理由は何ですか? パラメータ数を削減するため 各チャネルの重要度を学習し、適応的に重み付けを行うため 特徴マップのサイズを拡大するため 活性化関数を変更するため None 28. seq2seqモデルで「デコーダ」が生成するのは何ですか? 入力シーケンスの次元数 出力シーケンス モデルの重み エンコーダの隠れ状態 None 29. 自己回帰型Transformerモデルにおいて「学習時と推論時のギャップ」を軽減する手法はどれですか? スケジュールサンプリング ビームサーチ 正則化 ドロップアウト None 30. Skip-gramモデルにおける「単語ベクトル」の次元数が増えると、何が改善される可能性がありますか? モデルの計算速度が向上する モデルの過学習が防止される 単語間の意味的な関係がより詳細に捉えられるようになる モデルの出力サイズが固定される None 31. EfficientNetのスケーリング戦略である「Compound Scaling」の目的は何ですか? 計算コストを無視して最大限の精度を追求するため 幅、深さ、解像度をバランスよく拡大し、効率的に精度を向上させるため モデルのパラメータ数を削減するため モデルの訓練時間を短縮するため None 32. VGGネットワークの「小さな3x3カーネル」を使用することの利点は何ですか? より大きなカーネルサイズを使用した場合と同じ受容野を確保しつつ、パラメータ数を抑えるため モデルの計算量を削減するため 訓練データを削減するため モデルの過学習を防ぐため None 33. GoogLeNetの設計において、Inceptionモジュールを使用する利点は何ですか? 全ての特徴を1つのカーネルサイズで学習する 畳み込み層のパラメータ数を増やす 異なるサイズの特徴を同時に学習し、より多様な特徴抽出が可能になる モデルの学習速度を低下させる None 34. MobileNetV2で導入された「インバーテッド残差構造(Inverted Residuals)」の主な利点は何ですか? 残差接続を無効にする 低次元空間での学習を避け、計算効率を向上させる 活性化関数をReLUからSigmoidに変更する 特徴マップのサイズを増加させる None 35. EfficientNetのMBConvブロックで「リニアボトルネック」を採用する理由は何ですか? 計算コストを削減しつつ、情報の損失を防ぐため パラメータ数を増加させるため 特徴マップのサイズを増加させるため 残差接続を無効にするため None 36. VGGネットワークが従来のCNNモデルと比較して持つ利点は何ですか? 訓練時間が大幅に短縮される より浅いネットワークで同等の性能を達成する より深い層を使用することで、より抽象的な特徴を学習できる 全結合層を減らすことでパラメータ数が減る None 37. HREDモデルの訓練時に「長短期記憶(LSTM)」と「ゲート付きリカレントユニット(GRU)」のどちらを使用するか選択する際のポイントは何ですか? モデルのパラメータ数がLSTMよりもGRUの方が少なく、計算が高速になるため LSTMの方がGRUよりも常に優れているため GRUは勾配消失問題を完全に解決できるため GRUは学習速度が遅いため None 38. Word2VecのSkip-gramモデルにおける「ウィンドウサイズ」が大きすぎると、どのような問題が発生する可能性がありますか? 単語の類似性が低下する ノイズが増加し、関連性の低い単語が学習される可能性がある モデルのパラメータが減少する 単語の出現回数が増加する None 39. ResNet-50の「50」という数字が示しているのは次のうちどれですか? ネットワークの残差ブロック数 全ての層の合計数(畳み込み層、プーリング層、全結合層の合計) 最終出力の次元数 各ブロックで使用されるカーネルサイズ None 40. Transformerモデルにおける「ドロップアウト」の目的は何ですか? 訓練中に一部のニューロンをランダムに無効化し、過学習を防ぐ モデルの学習速度を向上させる モデルのハイパーパラメータを調整する モデルの出力シーケンスをシャッフルする None 41. GoogLeNetの「auxiliary classifiers」を使用しない場合、どのような影響がありますか? モデルの勾配消失問題が悪化する可能性がある モデルの性能が向上する モデルの訓練速度が向上する モデルのパラメータ数が減少する None 42. MobileNetにおいて「Depthwise Separable Convolution」の主な利点は何ですか? ネットワークの層数を増やすため 計算量とパラメータ数を削減するため 特徴抽出能力を低下させるため モデルの学習速度を遅くするため None 43. EfficientNetにおいて「MBConvブロック」の主な役割は何ですか? 低次元空間での情報を学習し、計算コストを削減するため チャネルの次元を削減し、重要な特徴を強調するため 残差接続を無効にするため 特徴マップを拡大して精度を向上させるため None 44. VGGネットワークの「プーリング層」の主な役割は何ですか? 畳み込み層の出力を正規化するため モデルのパラメータ数を増加させるため モデルの訓練時間を増加させるため 特徴マップのサイズを縮小し、重要な特徴を抽出するため None 45. HREDモデルが「対話システム」において持つ最大の利点は何ですか? 訓練時間を短縮できる 過去の対話の文脈を長期間にわたり保持し、文脈に基づいた応答を生成できる 生成する応答を短縮できる 各発話を独立して処理できる None 46. Skip-gramモデルの訓練時に「バッチサイズ」を大きくすることの利点は何ですか? モデルの計算時間を減少させる モデルの訓練が安定し、ノイズが少なくなる モデルのパラメータ数が増える 学習率を自動的に最適化する None 47. DenseNetの「密結合」構造が、他のモデルと比較してパラメータ効率を向上させる理由は何ですか? 各層が残差接続を使用しているため 活性化関数をReLUからLeaky ReLUに変更しているため 各層が新しいパラメータを必要とせず、既存の特徴を再利用するため 特徴マップの解像度を一定に保っているため None 48. GPT-3のような自己回帰型モデルにおいて「注意欠陥」が起こる理由は何ですか? モデルが過去の情報に過剰に依存しすぎるため モデルが同じトークンに繰り返し注意を向けるため モデルが次のトークンを生成する際に、遠い過去の情報を無視する可能性があるため モデルが文法的な構造を理解しないため None 49. Skip-gramモデルにおける「単語の頻度に基づくダウンサンプリング」が効果的である理由は何ですか? 高頻度の単語が学習の邪魔をしないようにし、低頻度の単語に焦点を当てるため 低頻度の単語を削除するため 文中の単語をシャッフルするため 単語の出現回数を正規化するため None 50. DenseNetの設計における「トランジションレイヤー(Transition Layer)」の役割は何ですか? 特徴マップのサイズを増やす 勾配消失を防ぐ 特徴マップのサイズを縮小し、次のブロックに送る モデルの計算コストを増加させる None Time's up