AI実装検定S級~模擬試験~ 2024年11月3日 ailearn 1. Transformerモデルにおける「自己注意機構(Self-Attention)」の役割は何ですか? モデルが過去のデータを削除するため 入力シーケンスの全ての単語間の関係性を同時に計算し、重要な単語に注意を向けるため モデルの重みを自動で調整するため 出力シーケンスをシャッフルするため None 2. VGGネットワークの全結合層を削減した場合、予想される効果は何ですか? モデルの精度が大幅に向上する パラメータ数が減少し、メモリ使用量が少なくなる モデルの計算速度が遅くなる モデルの訓練が困難になる None 3. BERT(Bidirectional Encoder Representations from Transformers)がTransformerのエンコーダを使用することで、従来のseq2seqモデルに対して持つ利点は何ですか? 単方向の文脈しか学習できないため、情報が失われにくい 両方向の文脈を同時に学習し、より精度の高い文脈理解が可能になるため モデルのサイズが小さくなるため モデルの訓練時間が短縮されるため None 4. Transformerモデルにおける「学習率スケジューリング」の効果は何ですか? モデルのサイズを削減する モデルの重みを初期化する 学習率を段階的に調整することで、最適な学習速度を維持する モデルの出力を正規化する None 5. EfficientNetが「軽量」でありながら「高精度」を実現できる理由は何ですか? MBConvブロック、リニアボトルネック、SEブロックの効率的な組み合わせによるため 全結合層を使用していないため 活性化関数をReLUからSigmoidに変更したため モデルの深さを無限に増やせるため None 6. HREDモデルが「探索空間の爆発」に対処するために適用される技術は何ですか? ビームサーチ グリーディーサーチ ドロップアウト 学習率の減少 None 7. HREDモデルの「文エンコーダ」にLSTMを使用する利点は何ですか? モデルの訓練時間を短縮できる モデルのパラメータ数を減少させる LSTMは勾配消失問題が発生しやすいため LSTMは長期的な依存関係を保持しやすく、文中の単語間の関係をより正確に捉えることができる None 8. HREDモデルの訓練時に「長短期記憶(LSTM)」と「ゲート付きリカレントユニット(GRU)」のどちらを使用するか選択する際のポイントは何ですか? モデルのパラメータ数がLSTMよりもGRUの方が少なく、計算が高速になるため LSTMの方がGRUよりも常に優れているため GRUは勾配消失問題を完全に解決できるため GRUは学習速度が遅いため None 9. VGGネットワークを転移学習に使用する際、全結合層を新しいタスクに合わせて再トレーニングする理由は何ですか? 全結合層は画像全体の意味を捉えるため、他のタスクに対応する必要があるから 全結合層は学習済みの重みを使えないため 全結合層の活性化関数が異なるため 全結合層は事前学習に含まれないため None 10. DenseNetが「パラメータの再利用」により他のモデルよりも効率的である理由は何ですか? 残差接続を用いているため 各層が独立して学習を行うため モデルの深さを増やしているため 各層が前の全ての層の出力を使用し、新しいパラメータを最小限に抑えるため None 11. Transformerモデルにおいて、「マルチヘッドアテンション」が持つ効果は何ですか? 訓練データのサイズを削減する モデルの各層の出力を全て同時に計算する 複数の異なるアテンションを並行して学習し、文脈の多様な側面を捉える デコーダが全ての入力シーケンスをシャッフルする None 12. EfficientNetの主な特徴は何ですか? 深さのみをスケールさせたモデル モデルの幅、解像度、深さをバランスよくスケールさせる 幅を広げることでパフォーマンスを向上させたモデル 全結合層を多用した設計 None 13. Word2VecのSkip-gramモデルの目的は次のうちどれですか? 中心語に対してその文脈語を予測する 文全体の意味をエンコードする 文脈に基づいて文章を生成する 文中の単語をシャッフルする None 14. TransformerモデルがRNNベースのseq2seqモデルと比較して持つ利点はどれですか? モデルのパラメータ数が少ない 時系列処理に依存せず、並列処理が可能で学習が高速化される 学習に多くのデータが必要 モデルが入力シーケンスを自動で正規化する None 15. Skip-gramモデルで単語ベクトルが生成される際、どのように単語の意味的類似性が表現されますか? 単語の出現頻度に基づいてベクトルが作成される 文法的な関係がベクトルの距離に影響を与える 意味が類似した単語同士は、ベクトル空間上で近い位置に配置される 単語のアルファベット順にベクトルが作成される None 16. ResNet-101の主な特徴は次のうちどれですか? 残差ブロックの数が101個である 101層の全てが全結合層で構成されている 101個のカーネルサイズを持つ 残差接続を使用しない None 17. ResNetが「オーバーフィッティング」を防ぐために使用する手法は次のうちどれですか? ドロップアウト 残差接続 正則化 L2正則化 None 18. WideResNetの幅を増やすことによる「表現力」の向上が、どのようにモデルの性能に影響を与える可能性がありますか? 残差接続が無効になる 表現力が向上することで、より多様な特徴を学習しやすくなり、精度が向上する モデルの精度が低下する 勾配消失問題が発生する None 19. GoogLeNetの設計で「プーリング層」を使用する主な目的は何ですか? パラメータ数を増やすため モデルの計算速度を低下させるため 特徴マップのサイズを縮小し、重要な特徴を強調するため 活性化関数を最適化するため None 20. 「クロスアテンション」とは何ですか? 自己注意機構と同様に動作し、入力シーケンス内の関係性を学習する デコーダ内でのみ使用されるアテンション機構 エンコーダとデコーダ間で異なるシーケンスに対して注意を向ける機構 同じシーケンス内で注意を向ける機構 None 21. HREDモデルが適用される領域で特に重要な「転移学習」の利点は何ですか? モデルの学習速度を遅くする モデルのパラメータ数を増やす 新しいドメインに少量のデータで適応できる モデルの損失関数を変更する None 22. MobileNetで使用される「ReLU6」の活性化関数は、どのような利点がありますか? ネガティブな値を強調するため 活性化出力を大幅に増加させるため 計算精度をFP16などの低精度演算に適応させるため モデルのパラメータ数を削減するため None 23. GoogLeNetで「Global Average Pooling(GAP)」が使用される理由は何ですか? 全結合層を削減し、過学習を防ぐため 特徴マップのサイズを増やすため 活性化関数を最適化するため モデルの計算速度を低下させるため None 24. EfficientNetのスケーリング戦略である「Compound Scaling」の目的は何ですか? 計算コストを無視して最大限の精度を追求するため 幅、深さ、解像度をバランスよく拡大し、効率的に精度を向上させるため モデルのパラメータ数を削減するため モデルの訓練時間を短縮するため None 25. VGGネットワークが「パラメータ数が多い」という点が意味するものは何ですか? モデルが計算資源を多く消費し、メモリ使用量が増える 訓練データの量が少なくても高い性能を発揮する モデルの訓練時間が短くなる パラメータチューニングが不要になる None 26. DenseNetにおいて「トランジションレイヤー」が適切に設計されていない場合、どのような問題が発生しますか? 特徴マップが過度に大きくなり、計算効率が悪化する モデルのパラメータ数が減少しすぎて精度が低下する 勾配消失が発生しやすくなる モデルが学習しなくなる None 27. Transformerモデルにおける「ドロップアウト」の目的は何ですか? 訓練中に一部のニューロンをランダムに無効化し、過学習を防ぐ モデルの学習速度を向上させる モデルのハイパーパラメータを調整する モデルの出力シーケンスをシャッフルする None 28. ResNetで「恒等写像(Identity Mapping)」が重要な理由は何ですか? 残差接続の計算を簡単にするため 活性化関数を適用しないため 各ブロックがそのままの情報を保持し、特徴を消失させないため モデルの層数を増やすため None 29. GoogLeNetの設計において「枝分かれしたネットワーク(分岐)」を採用する理由は何ですか? モデルの計算速度を向上させるため モデルのパラメータ数を削減するため 単一の出力に依存することを防ぐため 異なる解像度で特徴を学習し、モデルの汎用性を高めるため None 30. HREDモデルにおける「コンテキストエンコーダ」の役割は何ですか? 全体の文脈情報をエンコードし、各文の情報を統合する 各文の意味をエンコードする モデルの重みを最適化する モデルの学習率を調整する None 31. GoogLeNetの「auxiliary classifiers」を使用しない場合、どのような影響がありますか? モデルの勾配消失問題が悪化する可能性がある モデルの性能が向上する モデルの訓練速度が向上する モデルのパラメータ数が減少する None 32. MobileNetの「Depthwise Separable Convolution」と従来の畳み込み層を比較した場合、パラメータ数の削減率はどの程度ですか? 約10% 約50% 約75% 約90% None 33. VGGネットワークの「プーリング層」の主な役割は何ですか? 畳み込み層の出力を正規化するため モデルのパラメータ数を増加させるため モデルの訓練時間を増加させるため 特徴マップのサイズを縮小し、重要な特徴を抽出するため None 34. Skip-gramモデルの学習において「ネガティブサンプリング」の目的は何ですか? モデルの学習率を最適化する 計算コストを削減しながら、モデルの精度を維持するため 単語ベクトルの次元数を増やすため 文脈語の出現頻度を増やすため None 35. DenseNetの最大の特徴は何ですか? 各層が独立して学習を行う構造 全ての層が他の全ての層に接続される「密結合」構造 畳み込み層の数を増やすことによる性能向上 残差接続を用いて勾配消失を防ぐ None 36. Word2VecのSkip-gramモデルで「コサイン類似度」を使用する理由は何ですか? モデルの重みを最適化するため 単語ベクトルの次元数を削減するため 単語間のベクトル距離を測定し、類似度を数値化するため 単語の頻度を正規化するため None 37. VGGネットワークにおける「ゼロパディング」の主な役割は何ですか? 特徴マップのサイズを固定し、畳み込み層で情報の損失を防ぐため モデルの訓練時間を短縮するため モデルの出力をシャッフルするため モデルの重みを初期化するため None 38. EfficientNetにおいて「MBConvブロック」の設計が計算効率を高める理由は何ですか? 残差接続とリニアボトルネックを組み合わせて計算量を減少させるため 畳み込み層を完全に除去しているため モデルの幅を減少させているため 活性化関数を変更しているため None 39. EfficientNetが、特にモバイル端末や組み込みシステムで優れている理由は次のうちどれですか? モデルの深さを無限に増やせるため 軽量かつ計算効率が高く、リソースが限られた環境でも高精度を実現できるため 大規模なデータセットが必要ないため 全結合層を使用していないため None 40. seq2seqモデルにおいて、「学習時のスケジュールサンプリング」が持つ効果は何ですか? モデルの学習速度を速めるため モデルのパラメータ数を減少させるため 訓練時にモデルが予測したトークンを使い、実運用に近い形で学習するため モデルのハイパーパラメータを自動的に最適化するため None 41. DenseNetにおける「密結合」の利点は次のうちどれですか? モデルのパラメータ数を削減する 各層が他の層からの情報を再利用し、効率的な学習が可能となる モデルの訓練時間を短縮する 全ての層が独立して動作する None 42. DenseNetの「成長率(Growth Rate)」が小さすぎる場合、どのような影響がありますか? モデルのパラメータ数が増加しすぎる モデルの表現力が低下し、精度が低くなる可能性がある 特徴マップのサイズが増加しすぎる 勾配消失問題が発生する None 43. Transformerモデルのトレーニングにおいて「学習率ウォームアップ」を使用する理由は何ですか? モデルの学習を開始する前に、学習率を徐々に増加させて安定した学習を行うため モデルの重みを初期化するため モデルの過学習を防ぐため データの正規化を行うため None 44. VGG16において「16」という数字が示しているものは何ですか? 畳み込み層のカーネルサイズ ネットワーク内の畳み込み層と全結合層の合計数 ネットワークの深さ プーリング層の数 None 45. VGGネットワークのような深層学習モデルで、深い層を追加する際に発生する「勾配消失問題」を解決するための手法はどれですか? ReLU活性化関数を使用する 重み減衰を適用する 全結合層を削除する バッチ正規化を導入する None 46. WideResNetの主な目的は何ですか? モデルの深さを増やすため 活性化関数を変更するため モデルのパラメータ数を削減するため 残差ブロックの幅(チャネル数)を増やして、計算量を減らしつつ性能を向上させるため None 47. Transformerモデルにおいて、「位置的注意スコア」はどのように計算されますか? 出力とターゲットシーケンスの距離に基づいて計算される エンコーダとデコーダの出力を直接比較する モデルの重みから自動計算される クエリとキーの内積を計算し、それをソフトマックスで正規化する None 48. Skip-gramモデルにおける「負のサンプリング(Negative Sampling)」で、正例と負例の比率を調整する理由は何ですか? モデルの精度を向上させるため 正例が多すぎると過学習が発生するため 負例が多すぎるとモデルの学習が遅くなるため 正例と負例のバランスを取り、効率的な学習を行うため None 49. DenseNetにおいて「バッチ正規化(Batch Normalization)」が使用される主な理由は何ですか? 各層の出力を正規化し、学習の安定性を向上させるため パラメータ数を減らすため モデルの解像度を上げるため 特徴マップのサイズを増やすため None 50. EfficientNet-B0が他のEfficientNetシリーズよりも軽量である理由は何ですか? Compound Scalingの基準となるモデルで、パラメータ数が少ないため モデルの幅と解像度が固定されているため より多くの畳み込み層を使用しているため ストライド2の畳み込みが多用されているため None Time's up