AI実装検定S級～模擬試験②～

DenseNetにおける「勾配爆発」や「勾配消失」を防ぐために有効な設計は次のうちどれですか？

各層での残差接続

全層での独立した学習

密結合による勾配の伝播とバッチ正規化の使用

活性化関数を完全に無効化する

None

Skip-gramモデルの「潜在意味解析（LSA）」との違いは何ですか？

Skip-gramは単語間の意味的関係をベクトル空間上で捉えるが、LSAは頻度行列を使用する

Skip-gramは文書全体を扱うが、LSAは単語を直接扱う

Skip-gramは次元削減を行わないが、LSAは次元削減を行う

Skip-gramは全ての単語を同じ次元に変換する

None

HREDモデルの「グローバル文脈」と「ローカル文脈」の役割を正しく説明したものはどれですか？

グローバル文脈は各文の詳細を扱い、ローカル文脈は全体の流れを保持する

グローバル文脈は長期的な文脈を保持し、ローカル文脈は現在の文や発話の情報を保持する

グローバル文脈は現在の文の情報を保持し、ローカル文脈は長期的な文脈を扱う

グローバル文脈は文の出力を生成し、ローカル文脈は入力シーケンスをエンコードする

None

MobileNetの「Depthwise Separable Convolution」と従来の畳み込み層を比較した場合、パラメータ数の削減率はどの程度ですか？

約10%

約50%

約75%

約90%

None

MobileNetにおいて「Depthwise Separable Convolution」の主な利点は何ですか？

ネットワークの層数を増やすため

計算量とパラメータ数を削減するため

特徴抽出能力を低下させるため

モデルの学習速度を遅くするため

None

EfficientNetの「スケーリング係数φ（フィー）」が調整するのは次のうちどれですか？

モデルの学習率

全結合層の数

活性化関数の種類

モデルの深さ、幅、解像度のバランス

None

EfficientNetが「Squeeze-and-Excitation（SE）」ブロックを導入している理由は何ですか？

パラメータ数を削減するため

各チャネルの重要度を学習し、適応的に重み付けを行うため

特徴マップのサイズを拡大するため

活性化関数を変更するため

None

HREDモデルにおいて「情報ボトルネック問題」が発生する可能性がある理由は何ですか？

モデルが過去の対話を全て記憶するため

モデルが同じ応答を繰り返し生成するため

コンテキストエンコーダが全ての情報を1つのベクトルに圧縮するため、長い対話では情報が失われやすくなるため

モデルの計算コストが高いため

None

DenseNetが他の深層学習モデルに比べて「メモリ効率が高い」と言われる理由は何ですか？

モデルのパラメータ数が少ないため

トランジションレイヤーが全ての層に適用されているため

特徴マップのサイズを一定に保っているため

各層が特徴マップを再利用し、不要な計算を減らしているため

None

10.

DenseNetの「密結合」構造において、層ごとに出力される特徴が前層の出力と統合されることによって得られる効果は何ですか？

モデルのパラメータ数が増加する

層ごとに冗長な特徴を抽出し、精度が向上する

学習速度が遅くなる

特徴の再利用によって、効率的な学習が行われ、より高い性能が得られる

None

11.

Word2VecのSkip-gramモデルの目的は次のうちどれですか？

中心語に対してその文脈語を予測する

文全体の意味をエンコードする

文脈に基づいて文章を生成する

文中の単語をシャッフルする

None

12.

Skip-gramモデルにおける「単語ベクトル」の次元数が増えると、何が改善される可能性がありますか？

モデルの計算速度が向上する

モデルの過学習が防止される

単語間の意味的な関係がより詳細に捉えられるようになる

モデルの出力サイズが固定される

None

13.

MobileNetV3で新たに採用された「ハードスワッシュ（Hard-Swish）」の活性化関数は、何を改善するために使用されますか？

ReLU6の計算効率をさらに向上させるため

ネガティブな出力を増加させるため

特徴抽出のための出力範囲を広げるため

活性化関数の非線形性を減らすため

None

14.

MobileNetが主に使用されるアプリケーション分野はどれですか？

モバイル端末や組み込みシステムなどの計算資源が限られた環境

高性能なサーバーでのバッチ処理

大規模なデータセットのトレーニング

分散コンピューティング環境

None

15.

Skip-gramモデルが大規模なデータセットで効果的に機能する理由は何ですか？

モデルが全ての単語ペアを一度に処理するため

中心語と文脈語のペアが多く生成され、豊富な意味的関係を学習できるため

モデルが単語の出現頻度に依存しないため

モデルが文の構造を無視するため

None

16.

EfficientNetにおいて「Global Average Pooling（GAP）」が使用される理由は何ですか？

パラメータ数を減らし、過学習を防ぐため

特徴マップを拡大して精度を向上させるため

モデルの幅をスケーリングするため

活性化関数を無効にするため

None

17.

MobileNetV2で導入された「インバーテッド残差構造（Inverted Residuals）」の主な利点は何ですか？

残差接続を無効にする

低次元空間での学習を避け、計算効率を向上させる

活性化関数をReLUからSigmoidに変更する

特徴マップのサイズを増加させる

None

18.

DenseNetで「スキップ接続」が無い場合に発生しうる問題は何ですか？

勾配消失問題が発生しやすくなり、学習が進まなくなる

モデルのパラメータ数が大幅に減少する

特徴マップのチャネル数が増加する

モデルの学習速度が著しく向上する

None

19.

HREDモデルにアテンション機構を導入することで得られる利点は何ですか？

モデルのパラメータ数を減らす

モデルの訓練速度を向上させる

文脈内の重要な部分に注意を向け、情報を劣化させずに保持できる

データの正規化が不要になる

None

20.

HREDモデルの「階層構造」の主な利点は何ですか？

学習データの量を減らせる

訓練速度を向上させる

長いシーケンスや対話の文脈を効果的に学習できる

モデルの計算コストを削減する

None

21.

DenseNetの「トランジションレイヤー」において、プーリング操作が行われる理由は何ですか？

特徴マップの解像度を縮小し、計算コストを削減するため

特徴マップのチャネル数を増やすため

モデルのパラメータ数を削減するため

勾配消失を防ぐため

None

22.

Word2VecモデルのSkip-gramとCBOW（Continuous Bag of Words）の主な違いは何ですか？

Skip-gramは文全体を入力とし、CBOWは単語のみを入力とする

Skip-gramは文脈語から中心語を予測し、CBOWは中心語から文脈語を予測する

Skip-gramは畳み込み層を使用し、CBOWは使用しない

Skip-gramは単語間の関係を無視するが、CBOWは関係を考慮する

None

23.

MobileNetの効率的な設計において、「次元削減」の目的は何ですか？

計算コストを削減しながら、特徴マップの表現力を維持するため

モデルの学習速度を遅くするため

残差接続を使用するため

勾配消失を引き起こすため

None

24.

Word2VecのSkip-gramモデルにおける「学習率」を最適化する理由は何ですか？

モデルの出力を正規化するため

過学習を防ぐため

モデルが最適なパラメータ更新を行い、効率的に収束するため

モデルの計算速度を増加させるため

None

25.

DenseNetが「勾配消失問題」を効果的に防ぐ理由は何ですか？

各層が残差接続を使用しているため

モデルの深さが浅いため

全ての層が前の層から直接情報を受け取る密結合構造を持つため

活性化関数を使用していないため

None

26.

Skip-gramモデルにおける「単語の頻度に基づくダウンサンプリング」が効果的である理由は何ですか？

高頻度の単語が学習の邪魔をしないようにし、低頻度の単語に焦点を当てるため

低頻度の単語を削除するため

文中の単語をシャッフルするため

単語の出現回数を正規化するため

None

27.

DenseNetで「成長率（Growth Rate）」が過度に高く設定されると、どのような問題が発生する可能性がありますか？

モデルのパラメータ数が増加し、メモリ使用量が大幅に増える

計算コストが減少し、性能が低下する

成長率が高いほどモデルの性能が向上するため問題は発生しない

モデルが浅くなり、学習が進まない

None

28.

Word2VecのSkip-gramモデルで「コサイン類似度」を使用する理由は何ですか？

モデルの重みを最適化するため

単語ベクトルの次元数を削減するため

単語間のベクトル距離を測定し、類似度を数値化するため

単語の頻度を正規化するため

None

29.

HREDモデルの「文エンコーダ」にLSTMを使用する利点は何ですか？

モデルの訓練時間を短縮できる

モデルのパラメータ数を減少させる

LSTMは勾配消失問題が発生しやすいため

LSTMは長期的な依存関係を保持しやすく、文中の単語間の関係をより正確に捉えることができる

None

30.

EfficientNetで使用される「バッチ正規化（Batch Normalization）」の役割は何ですか？

モデルのパラメータ数を削減する

全ての層で活性化関数を無効にする

各層の出力を正規化し、学習の安定性を向上させる

モデルの幅を調整する

None

31.

EfficientNetの「Compound Scaling」の理論的根拠は何ですか？

モデルの幅を最も重要視するという理論に基づいている

深さのみをスケーリングすることが効率的であるという仮定に基づいている

解像度をスケールするだけで精度が向上するという考え方に基づいている

各要素（幅、深さ、解像度）が異なるスケールで同等に性能に影響を与えるという仮定に基づいている

None

32.

HREDモデルにおける「コンテキストエンコーダ」の役割は何ですか？

全体の文脈情報をエンコードし、各文の情報を統合する

各文の意味をエンコードする

モデルの重みを最適化する

モデルの学習率を調整する

None

33.

EfficientNet-B0が他のEfficientNetシリーズよりも軽量である理由は何ですか？

Compound Scalingの基準となるモデルで、パラメータ数が少ないため

モデルの幅と解像度が固定されているため

より多くの畳み込み層を使用しているため

ストライド2の畳み込みが多用されているため

None

34.

Word2VecのSkip-gramモデルにおいて、「単語ベクトルの正規化」を行う理由は何ですか？

モデルの学習速度を向上させるため

単語の出現頻度を増加させるため

モデルの出力サイズを削減するため

単語ベクトルの大きさを統一し、コサイン類似度の計算を容易にするため

None

35.

HREDのような階層型モデルが一般的なRNNに比べて長期依存関係を捉えるのに優れている理由は何ですか？

モデルのパラメータ数が少ないため

訓練時間が短いため

全てのシーケンスが並列処理されるため

階層構造によって文や発話単位の依存関係を保持しやすいため

None

36.

MobileNetの最大の特徴は次のうちどれですか？

モデルのパラメータ数を増やして高精度を実現する

分離可能な畳み込み（Depthwise Separable Convolution）による効率的な計算

大規模な計算リソースを必要とする

全結合層を削除している

None

37.

HREDモデルはどのようなタスクに特に適していますか？

文書生成や対話システム

画像分類

機械翻訳

音声認識

None

38.

HREDモデルが通常のseq2seqモデルと異なる点は何ですか？

seq2seqモデルは並列処理が可能だが、HREDはできない

HREDは発話や文の階層構造を扱うが、seq2seqモデルは単一のシーケンスのみを扱う

HREDはTransformerに基づくモデルである

HREDは畳み込み層を持つ

None

39.

Word2VecのSkip-gramモデルにおける「ウィンドウサイズ」が大きすぎると、どのような問題が発生する可能性がありますか？

単語の類似性が低下する

ノイズが増加し、関連性の低い単語が学習される可能性がある

モデルのパラメータが減少する

単語の出現回数が増加する

None

40.

EfficientNetが「軽量」でありながら「高精度」を実現できる理由は何ですか？

MBConvブロック、リニアボトルネック、SEブロックの効率的な組み合わせによるため

全結合層を使用していないため

活性化関数をReLUからSigmoidに変更したため

モデルの深さを無限に増やせるため

None

41.

MobileNetV2がMobileNetV1に比べてパフォーマンスが向上した主な理由は何ですか？

Depthwise Separable Convolutionを使用しなくなったため

インバーテッド残差構造とリニアボトルネックを導入したため

モデルの幅を狭くしたため

1x1の畳み込みを削除したため

None

42.

Word2VecのSkip-gramモデルが「類似語」を見つけるために利用される理由は何ですか？

モデルが単語をクラスタリングできるため

意味的に類似した単語がベクトル空間上で近い位置に配置されるため

単語の出現頻度を基に類似性を測定するため

モデルが全ての単語を同じように扱うため

None

43.

Skip-gramモデルの訓練時に「バッチサイズ」を大きくすることの利点は何ですか？

モデルの計算時間を減少させる

モデルの訓練が安定し、ノイズが少なくなる

モデルのパラメータ数が増える

学習率を自動的に最適化する

None

44.

EfficientNetの「Compound Scaling」を調整する際、幅を大きくスケーリングしすぎるとどのような問題が発生しますか？

モデルの深さが減少し、学習が不安定になる

計算コストが減少しすぎ、精度が著しく低下する

特徴マップのチャネル数が減少しすぎて、表現力が低下する

モデルの計算コストが大幅に増加し、効率が低下する

None

45.

Word2VecのSkip-gramモデルで「文脈が不明な単語」を効果的に処理するために使用される技術は何ですか？

文脈を複数のサンプルに分割して、異なる文脈で単語を学習させる

単語のシャッフリング

単語ベクトルの次元数を増やす

文法的ルールを適用する

None

46.

EfficientNetの「Compound Scaling」が従来のスケーリング手法と異なる点は何ですか？

幅、解像度、深さを同時にバランスよくスケールさせる

幅のみをスケールさせる

モデルの解像度だけを増加させる

深さを固定し、解像度を大きくスケールさせる

None

47.

DenseNetが非常に深いネットワークにおいても「勾配消失」を防げる主な理由は何ですか？

各層が前の全ての層と接続され、勾配が効果的に伝播するため

活性化関数が使用されていないため

モデルが浅く設計されているため

トランジションレイヤーが全ての層に適用されるため

None

48.

DenseNetの「成長率（Growth Rate）」が小さすぎる場合、どのような影響がありますか？

モデルのパラメータ数が増加しすぎる

モデルの表現力が低下し、精度が低くなる可能性がある

特徴マップのサイズが増加しすぎる

勾配消失問題が発生する

None

49.

EfficientNetのスケーリング戦略である「Compound Scaling」の目的は何ですか？

計算コストを無視して最大限の精度を追求するため

幅、深さ、解像度をバランスよく拡大し、効率的に精度を向上させるため

モデルのパラメータ数を削減するため

モデルの訓練時間を短縮するため

None

50.

HREDモデルの訓練でよく使用される損失関数は次のうちどれですか？

平均二乗誤差

ヒンジ損失

L2正則化

クロスエントロピー損失

None

Time's up