AI実装検定S級~模擬試験~ 2024年11月3日 ailearn 1. ResNetの「ボトルネックブロック」が非常に深い層でも有効に機能する理由は何ですか? パラメータ数を減らすことで計算効率を向上させ、勾配消失を防ぐため 各層で出力を増加させるため 全結合層を使用しないため 活性化関数を削除するため None 2. ResNetで「恒等写像(Identity Mapping)」が重要な理由は何ですか? 残差接続の計算を簡単にするため 活性化関数を適用しないため 各ブロックがそのままの情報を保持し、特徴を消失させないため モデルの層数を増やすため None 3. HREDモデルにアテンション機構を導入することで得られる利点は何ですか? モデルのパラメータ数を減らす モデルの訓練速度を向上させる 文脈内の重要な部分に注意を向け、情報を劣化させずに保持できる データの正規化が不要になる None 4. VGGネットワークにおける「ゼロパディング」の主な役割は何ですか? 特徴マップのサイズを固定し、畳み込み層で情報の損失を防ぐため モデルの訓練時間を短縮するため モデルの出力をシャッフルするため モデルの重みを初期化するため None 5. WideResNetが従来のResNetと異なる点は何ですか? スキップ接続を持たない 全ての畳み込み層を1x1に置き換える 残差ブロックの数が減少している 各残差ブロック内のチャネル数が広く設定されている None 6. GoogLeNetのInceptionモジュールにおいて、「1x1の畳み込み層」を事前に適用しない場合、どういった問題が発生する可能性がありますか? モデルの性能が向上する 計算量が大幅に増加し、訓練に時間がかかる 特徴マップのサイズが増加しすぎて、過学習が発生する モデルのパラメータ数が減少する None 7. Word2VecのSkip-gramモデルの目的は次のうちどれですか? 中心語に対してその文脈語を予測する 文全体の意味をエンコードする 文脈に基づいて文章を生成する 文中の単語をシャッフルする None 8. seq2seqモデルにおいて「エンコーダ」の役割は何ですか? 入力シーケンスを受け取り、隠れ状態に変換する 出力シーケンスを生成する モデルの重みを最適化する 入力データの次元を削減する None 9. DenseNetが非常に深いネットワークにおいても「勾配消失」を防げる主な理由は何ですか? 各層が前の全ての層と接続され、勾配が効果的に伝播するため 活性化関数が使用されていないため モデルが浅く設計されているため トランジションレイヤーが全ての層に適用されるため None 10. VGGネットワークで「転移学習」が効果的な理由は何ですか? モデルが浅いネットワーク構造を持つため 事前学習された特徴が多くの異なるタスクに対して汎用的であるため モデルのパラメータ数が少ないため モデルが固定された出力サイズを持つため None 11. VGGネットワークが「パラメータ数が多い」という点が意味するものは何ですか? モデルが計算資源を多く消費し、メモリ使用量が増える 訓練データの量が少なくても高い性能を発揮する モデルの訓練時間が短くなる パラメータチューニングが不要になる None 12. seq2seqモデルのエンコーダとデコーダ間の情報伝達において、エンコーダの最終隠れ状態だけでなく、アテンション機構が重要となる理由は何ですか? 全ての入力シーケンスに均等に注意を向けるため エンコーダの全ての隠れ状態にアクセスすることで、長いシーケンスの情報を劣化させずに利用できるため モデルの訓練時間を短縮するため デコーダの性能を低下させないため None 13. ResNetの設計において、最大の特徴である「残差接続(Residual Connection)」の目的は何ですか? モデルの計算コストを削減するため 非線形性を増加させるため 勾配消失問題を軽減し、深い層でも学習が安定するようにするため モデルのパラメータ数を増加させるため None 14. Skip-gramモデルで単語ベクトルが生成される際、どのように単語の意味的類似性が表現されますか? 単語の出現頻度に基づいてベクトルが作成される 文法的な関係がベクトルの距離に影響を与える 意味が類似した単語同士は、ベクトル空間上で近い位置に配置される 単語のアルファベット順にベクトルが作成される None 15. DenseNetが「勾配消失問題」を効果的に防ぐ理由は何ですか? 各層が残差接続を使用しているため モデルの深さが浅いため 全ての層が前の層から直接情報を受け取る密結合構造を持つため 活性化関数を使用していないため None 16. EfficientNetの「Compound Scaling」を調整する際、幅を大きくスケーリングしすぎるとどのような問題が発生しますか? モデルの深さが減少し、学習が不安定になる 計算コストが減少しすぎ、精度が著しく低下する 特徴マップのチャネル数が減少しすぎて、表現力が低下する モデルの計算コストが大幅に増加し、効率が低下する None 17. DenseNetの最大の特徴は何ですか? 各層が独立して学習を行う構造 全ての層が他の全ての層に接続される「密結合」構造 畳み込み層の数を増やすことによる性能向上 残差接続を用いて勾配消失を防ぐ None 18. ResNetで「非常に深いネットワーク」を使用するとき、勾配消失問題を完全に解決できない場合、他にどのような問題が発生する可能性がありますか? モデルの精度が大幅に向上する ネットワークが適切に収束せず、精度が低下する 残差接続が無効になる モデルのパラメータ数が減少する None 19. DenseNetにおいて「バッチ正規化(Batch Normalization)」が使用される主な理由は何ですか? 各層の出力を正規化し、学習の安定性を向上させるため パラメータ数を減らすため モデルの解像度を上げるため 特徴マップのサイズを増やすため None 20. VGGネットワークの「小さな3x3カーネル」を使用することの利点は何ですか? より大きなカーネルサイズを使用した場合と同じ受容野を確保しつつ、パラメータ数を抑えるため モデルの計算量を削減するため 訓練データを削減するため モデルの過学習を防ぐため None 21. Skip-gramモデルで、負のサンプリング(Negative Sampling)を使用する際に最も重要なハイパーパラメータは何ですか? バッチサイズ 学習率 ウィンドウサイズ サンプリングの負例の数 None 22. MobileNetの効率的な設計において、「次元削減」の目的は何ですか? 計算コストを削減しながら、特徴マップの表現力を維持するため モデルの学習速度を遅くするため 残差接続を使用するため 勾配消失を引き起こすため None 23. seq2seqモデルのエンコーダにおいて、「長短期記憶(LSTM)」を用いるメリットとして正しいものはどれですか? モデルの学習時間を短縮できる 長期的な依存関係を保持しやすく、勾配消失問題を回避できる デコーダの出力を最適化する パディングを行わずに入力シーケンスを処理できる None 24. GoogLeNetにおいて、各Inceptionモジュールで「3x3の畳み込み層」を使用する理由は何ですか? 計算コストを削減するため 特徴マップのチャネル数を増やすため プーリング層の代わりに使用されるため 中間的なサイズの特徴を学習し、細かいパターンを捉えるため None 25. MobileNetの「アーキテクチャ検索(NAS)」技術を使用することで得られる主な利点は何ですか? モデルのパラメータ数を削減する ストライドを最適化する モデルの出力次元数を固定する モデルの学習を自動化し、最適なアーキテクチャを見つけることができる None 26. HREDモデルにおいて「ドメイン特化型対話システム」を作成する際に考慮すべき点はどれですか? モデルのパラメータ数を減らす 特定のドメインに特化したデータセットでモデルを訓練し、そのドメインに適した応答生成を行う モデルの学習速度を向上させるために、一般的なデータセットを使用する モデルの出力シーケンスをシャッフルする None 27. Word2VecモデルのSkip-gramとCBOW(Continuous Bag of Words)の主な違いは何ですか? Skip-gramは文全体を入力とし、CBOWは単語のみを入力とする Skip-gramは文脈語から中心語を予測し、CBOWは中心語から文脈語を予測する Skip-gramは畳み込み層を使用し、CBOWは使用しない Skip-gramは単語間の関係を無視するが、CBOWは関係を考慮する None 28. HREDモデルはどのようなタスクに特に適していますか? 文書生成や対話システム 画像分類 機械翻訳 音声認識 None 29. HREDモデルが通常のseq2seqモデルと異なる点は何ですか? seq2seqモデルは並列処理が可能だが、HREDはできない HREDは発話や文の階層構造を扱うが、seq2seqモデルは単一のシーケンスのみを扱う HREDはTransformerに基づくモデルである HREDは畳み込み層を持つ None 30. EfficientNetの「スケーリング係数φ(フィー)」が調整するのは次のうちどれですか? モデルの学習率 全結合層の数 活性化関数の種類 モデルの深さ、幅、解像度のバランス None 31. seq2seqモデルにおいて、LSTM(Long Short-Term Memory)がRNNに比べて優れている点は何ですか? 訓練データのサイズを自動的に削減できる 勾配消失問題を軽減し、長期的な依存関係を学習できる モデルの学習速度を向上させる 出力の次元数を減らす None 32. ResNetが「オーバーフィッティング」を防ぐために使用する手法は次のうちどれですか? ドロップアウト 残差接続 正則化 L2正則化 None 33. VGGネットワークの全結合層を削減した場合、予想される効果は何ですか? モデルの精度が大幅に向上する パラメータ数が減少し、メモリ使用量が少なくなる モデルの計算速度が遅くなる モデルの訓練が困難になる None 34. Skip-gramモデルにおける「単語の頻度に基づくダウンサンプリング」が効果的である理由は何ですか? 高頻度の単語が学習の邪魔をしないようにし、低頻度の単語に焦点を当てるため 低頻度の単語を削除するため 文中の単語をシャッフルするため 単語の出現回数を正規化するため None 35. WideResNetが標準のResNetに比べて「計算効率」を高めるために採用している設計方針は次のうちどれですか? 残差ブロックの数を減らし、幅を増やすことで学習速度を向上させる 全ての畳み込み層を1x1に置き換える モデルの深さをさらに増やす 全結合層を削除する None 36. DenseNetにおける「勾配爆発」や「勾配消失」を防ぐために有効な設計は次のうちどれですか? 各層での残差接続 全層での独立した学習 密結合による勾配の伝播とバッチ正規化の使用 活性化関数を完全に無効化する None 37. HREDモデルが適用される領域で特に重要な「転移学習」の利点は何ですか? モデルの学習速度を遅くする モデルのパラメータ数を増やす 新しいドメインに少量のデータで適応できる モデルの損失関数を変更する None 38. seq2seqモデルにおいて、「学習時のスケジュールサンプリング」が持つ効果は何ですか? モデルの学習速度を速めるため モデルのパラメータ数を減少させるため 訓練時にモデルが予測したトークンを使い、実運用に近い形で学習するため モデルのハイパーパラメータを自動的に最適化するため None 39. ResNet-50の「50」という数字が示しているのは次のうちどれですか? ネットワークの残差ブロック数 全ての層の合計数(畳み込み層、プーリング層、全結合層の合計) 最終出力の次元数 各ブロックで使用されるカーネルサイズ None 40. VGGネットワークの設計において、特徴的な要素は何ですか? 大きなカーネルサイズを持つ畳み込み層 複数の小さい3x3のカーネルを積み重ねる設計 平均プーリングのみを使用する ReLU活性化関数を使用しない None 41. MobileNetの設計において、「ストライド2」のDepthwise Convolutionを使用する主な目的は何ですか? 計算量を増加させるため モデルのパラメータ数を増やすため 特徴マップのチャネル数を減らすため 特徴マップの空間解像度を縮小し、重要な特徴を強調するため None 42. seq2seqモデルにおいて、「ペナルティ付きビームサーチ」が適用される理由は何ですか? モデルの訓練時間を短縮するため モデルが無限ループに入るのを防ぐため 短いシーケンスばかりが選ばれるのを防ぎ、より適切な長さのシーケンスを生成するため モデルのパラメータ数を削減するため None 43. DenseNetの設計における「トランジションレイヤー(Transition Layer)」の役割は何ですか? 特徴マップのサイズを増やす 勾配消失を防ぐ 特徴マップのサイズを縮小し、次のブロックに送る モデルの計算コストを増加させる None 44. Skip-gramモデルの訓練時に「バッチサイズ」を大きくすることの利点は何ですか? モデルの計算時間を減少させる モデルの訓練が安定し、ノイズが少なくなる モデルのパラメータ数が増える 学習率を自動的に最適化する None 45. HREDモデルの訓練時に「長短期記憶(LSTM)」と「ゲート付きリカレントユニット(GRU)」のどちらを使用するか選択する際のポイントは何ですか? モデルのパラメータ数がLSTMよりもGRUの方が少なく、計算が高速になるため LSTMの方がGRUよりも常に優れているため GRUは勾配消失問題を完全に解決できるため GRUは学習速度が遅いため None 46. EfficientNetが従来のモデルよりも計算効率が高い理由は何ですか? 全ての畳み込み層でストライド2を使用しているため モデルの層数を削減しているため Compound Scalingにより、計算コストを抑えつつ精度を向上させているため 活性化関数を変更したため None 47. HREDモデルの訓練でよく使用される損失関数は次のうちどれですか? 平均二乗誤差 ヒンジ損失 L2正則化 クロスエントロピー損失 None 48. EfficientNetの「Compound Scaling」の調整によって「解像度」を過度にスケーリングした場合、どのような問題が発生しますか? 解像度が高すぎて、学習が進まなくなる モデルの計算コストが急激に増加し、処理が遅くなる モデルの幅が狭くなり、パフォーマンスが低下する モデルが過学習する None 49. EfficientNetが「軽量」でありながら「高精度」を実現できる理由は何ですか? MBConvブロック、リニアボトルネック、SEブロックの効率的な組み合わせによるため 全結合層を使用していないため 活性化関数をReLUからSigmoidに変更したため モデルの深さを無限に増やせるため None 50. HREDモデルの生成した応答が一貫性を欠く場合、どのような改善策が考えられますか? モデルの出力を正規化する コンテキストエンコーダにアテンション機構を導入し、文脈の重要な部分に注意を向けさせる モデルのパラメータを増やす モデルの訓練データを減らす None Time's up