AI実装検定S級～模擬試験～

Skip-gramモデルにおける「単語ベクトル」の次元数が増えると、何が改善される可能性がありますか？

モデルの計算速度が向上する

モデルの過学習が防止される

単語間の意味的な関係がより詳細に捉えられるようになる

モデルの出力サイズが固定される

None

seq2seqモデルにおいて「エンコーダ」の役割は何ですか？

入力シーケンスを受け取り、隠れ状態に変換する

出力シーケンスを生成する

モデルの重みを最適化する

入力データの次元を削減する

None

Skip-gramモデルの訓練時に「バッチサイズ」を大きくすることの利点は何ですか？

モデルの計算時間を減少させる

モデルの訓練が安定し、ノイズが少なくなる

モデルのパラメータ数が増える

学習率を自動的に最適化する

None

seq2seqモデルにおいて、「コンテキストベクトル」の役割は何ですか？

モデルの出力を最適化する

モデルの誤差を修正する

モデルの学習率を調整する

エンコーダが入力シーケンスをエンコードした結果をまとめ、デコーダに渡す情報を要約する

None

DenseNetにおける「密結合」の利点は次のうちどれですか？

モデルのパラメータ数を削減する

各層が他の層からの情報を再利用し、効率的な学習が可能となる

モデルの訓練時間を短縮する

全ての層が独立して動作する

None

MobileNetの設計において、「ストライド2」のDepthwise Convolutionを使用する主な目的は何ですか？

計算量を増加させるため

モデルのパラメータ数を増やすため

特徴マップのチャネル数を減らすため

特徴マップの空間解像度を縮小し、重要な特徴を強調するため

None

Transformerモデルにおいて「エンコーダスタック」と「デコーダスタック」の役割の違いは何ですか？

エンコーダは出力シーケンスを生成し、デコーダは入力シーケンスをエンコードする

エンコーダはアテンションを無視し、デコーダはアテンションを利用する

エンコーダは入力シーケンスをエンコードし、デコーダはエンコーダの出力に基づいて出力シーケンスを生成する

エンコーダは出力シーケンスをシャッフルし、デコーダは元に戻す

None

MobileNetV3で導入された「Squeeze-and-Excitation（SE）ブロック」の役割は何ですか？

モデルのパラメータ数を増加させるため

特徴マップの空間的解像度を増加させるため

各チャネルの重要度を学習し、適応的に特徴マップの重み付けを行うため

活性化関数をReLUに変更するため

None

Transformerモデルにおける「ポジションエンコーディング」の役割は何ですか？

入力シーケンスの位置情報を付与することで、単語の順序をモデルに理解させるため

モデルの重みを調整するため

入力シーケンスをシャッフルするため

モデルの学習速度を向上させるため

None

10.

Transformerモデルのトレーニングにおいて「学習率ウォームアップ」を使用する理由は何ですか？

モデルの学習を開始する前に、学習率を徐々に増加させて安定した学習を行うため

モデルの重みを初期化するため

モデルの過学習を防ぐため

データの正規化を行うため

None

11.

HREDモデルの訓練でよく使用される損失関数は次のうちどれですか？

平均二乗誤差

ヒンジ損失

L2正則化

クロスエントロピー損失

None

12.

MobileNetの「αパラメータ」を減少させることによって予想される影響は何ですか？

モデルの計算コストが増加し、精度が低下する

モデルの計算コストが減少し、精度が向上する

モデルの計算コストが減少し、精度が低下する

パラメータ数が増加し、モデルが過学習する

None

13.

EfficientNetの「Compound Scaling」を調整する際、幅を大きくスケーリングしすぎるとどのような問題が発生しますか？

モデルの深さが減少し、学習が不安定になる

計算コストが減少しすぎ、精度が著しく低下する

特徴マップのチャネル数が減少しすぎて、表現力が低下する

モデルの計算コストが大幅に増加し、効率が低下する

None

14.

VGGネットワークで使用される「最大プーリング（Max Pooling）」の主な目的は何ですか？

特徴マップのサイズを増加させる

モデルの計算速度を遅くするため

重要な特徴を抽出し、特徴マップのサイズを縮小するため

モデルの出力サイズを固定するため

None

15.

seq2seqモデルにおいて、LSTM（Long Short-Term Memory）がRNNに比べて優れている点は何ですか？

訓練データのサイズを自動的に削減できる

勾配消失問題を軽減し、長期的な依存関係を学習できる

モデルの学習速度を向上させる

出力の次元数を減らす

None

16.

Word2VecのSkip-gramモデルの目的は次のうちどれですか？

中心語に対してその文脈語を予測する

文全体の意味をエンコードする

文脈に基づいて文章を生成する

文中の単語をシャッフルする

None

17.

seq2seqモデルのエンコーダとデコーダ間の情報伝達において、エンコーダの最終隠れ状態だけでなく、アテンション機構が重要となる理由は何ですか？

全ての入力シーケンスに均等に注意を向けるため

エンコーダの全ての隠れ状態にアクセスすることで、長いシーケンスの情報を劣化させずに利用できるため

モデルの訓練時間を短縮するため

デコーダの性能を低下させないため

None

18.

EfficientNetで使用される「バッチ正規化（Batch Normalization）」の役割は何ですか？

モデルのパラメータ数を削減する

全ての層で活性化関数を無効にする

各層の出力を正規化し、学習の安定性を向上させる

モデルの幅を調整する

None

19.

GoogLeNetにおいて「複数の出力層（auxiliary classifiers）」を追加する目的は何ですか？

モデルのパラメータ数を増加させるため

中間層でも学習を行い、勾配消失問題を防ぐため

訓練データの量を増やすため

全結合層を削減するため

None

20.

MobileNetV3で新たに採用された「ハードスワッシュ（Hard-Swish）」の活性化関数は、何を改善するために使用されますか？

ReLU6の計算効率をさらに向上させるため

ネガティブな出力を増加させるため

特徴抽出のための出力範囲を広げるため

活性化関数の非線形性を減らすため

None

21.

GoogLeNetが「事前学習済みモデル」として広く使用される理由は何ですか？

モデルが軽量であるため

事前学習された特徴が他のタスクに適用できないため

異なる画像データセットに対しても高い性能を発揮するため

モデルの層が浅いため

None

22.

WideResNetが従来のResNetと異なる点は何ですか？

スキップ接続を持たない

全ての畳み込み層を1x1に置き換える

残差ブロックの数が減少している

各残差ブロック内のチャネル数が広く設定されている

None

23.

EfficientNetの「スケーリング係数φ（フィー）」が調整するのは次のうちどれですか？

モデルの学習率

全結合層の数

活性化関数の種類

モデルの深さ、幅、解像度のバランス

None

24.

HREDモデルの生成した応答が一貫性を欠く場合、どのような改善策が考えられますか？

モデルの出力を正規化する

コンテキストエンコーダにアテンション機構を導入し、文脈の重要な部分に注意を向けさせる

モデルのパラメータを増やす

モデルの訓練データを減らす

None

25.

Skip-gramモデルで単語ベクトルが生成される際、どのように単語の意味的類似性が表現されますか？

単語の出現頻度に基づいてベクトルが作成される

文法的な関係がベクトルの距離に影響を与える

意味が類似した単語同士は、ベクトル空間上で近い位置に配置される

単語のアルファベット順にベクトルが作成される

None

26.

自己回帰型Transformerモデルにおいて「学習時と推論時のギャップ」を軽減する手法はどれですか？

スケジュールサンプリング

ビームサーチ

正則化

ドロップアウト

None

27.

MobileNetの設計において、「ハイパーパラメータα（アルファ）」は何を調整するために使用されますか？

モデルの深さを調整する

活性化関数の種類を決定する

モデルの幅（チャネル数）を調整し、計算コストと精度をバランスさせる

モデルの学習率を最適化する

None

28.

VGG16において「16」という数字が示しているものは何ですか？

畳み込み層のカーネルサイズ

ネットワーク内の畳み込み層と全結合層の合計数

ネットワークの深さ

プーリング層の数

None

29.

HREDモデルにおける「コンテキストエンコーダ」の役割は何ですか？

全体の文脈情報をエンコードし、各文の情報を統合する

各文の意味をエンコードする

モデルの重みを最適化する

モデルの学習率を調整する

None

30.

VGGネットワークの「小さな3x3カーネル」を使用することの利点は何ですか？

より大きなカーネルサイズを使用した場合と同じ受容野を確保しつつ、パラメータ数を抑えるため

モデルの計算量を削減するため

訓練データを削減するため

モデルの過学習を防ぐため

None

31.

HREDモデルの「階層構造」の主な利点は何ですか？

学習データの量を減らせる

訓練速度を向上させる

長いシーケンスや対話の文脈を効果的に学習できる

モデルの計算コストを削減する

None

32.

HREDモデルの「文エンコーダ」にLSTMを使用する利点は何ですか？

モデルの訓練時間を短縮できる

モデルのパラメータ数を減少させる

LSTMは勾配消失問題が発生しやすいため

LSTMは長期的な依存関係を保持しやすく、文中の単語間の関係をより正確に捉えることができる

None

33.

Transformerモデルの「Layer-wise Relevance Propagation（LRP）」は何を目的としていますか？

モデルの学習速度を向上させる

モデルの各層における出力の重要度を評価し、説明可能なAIを実現するため

モデルの出力を調整するため

データの欠損を補完するため

None

34.

VGGネットワークが通常使用する活性化関数は何ですか？

Sigmoid関数

Tanh関数

ReLU（Rectified Linear Unit）関数

Softmax関数

None

35.

HREDモデルの訓練時に「長短期記憶（LSTM）」と「ゲート付きリカレントユニット（GRU）」のどちらを使用するか選択する際のポイントは何ですか？

モデルのパラメータ数がLSTMよりもGRUの方が少なく、計算が高速になるため

LSTMの方がGRUよりも常に優れているため

GRUは勾配消失問題を完全に解決できるため

GRUは学習速度が遅いため

None

36.

DenseNetにおいて「バッチ正規化（Batch Normalization）」が使用される主な理由は何ですか？

各層の出力を正規化し、学習の安定性を向上させるため

パラメータ数を減らすため

モデルの解像度を上げるため

特徴マップのサイズを増やすため

None

37.

ResNetの設計における「ボトルネックブロック」の役割は何ですか？

モデルの出力層の次元を増やす

残差ブロックのパラメータ数を削減しつつ、同等の表現力を保つ

勾配消失を引き起こす

全結合層の数を増やす

None

38.

EfficientNetのスケーリング戦略である「Compound Scaling」の目的は何ですか？

計算コストを無視して最大限の精度を追求するため

幅、深さ、解像度をバランスよく拡大し、効率的に精度を向上させるため

モデルのパラメータ数を削減するため

モデルの訓練時間を短縮するため

None

39.

VGGネットワークが従来のCNNモデルと比較して持つ利点は何ですか？

訓練時間が大幅に短縮される

より浅いネットワークで同等の性能を達成する

より深い層を使用することで、より抽象的な特徴を学習できる

全結合層を減らすことでパラメータ数が減る

None

40.

EfficientNetの「Compound Scaling」の理論的根拠は何ですか？

モデルの幅を最も重要視するという理論に基づいている

深さのみをスケーリングすることが効率的であるという仮定に基づいている

解像度をスケールするだけで精度が向上するという考え方に基づいている

各要素（幅、深さ、解像度）が異なるスケールで同等に性能に影響を与えるという仮定に基づいている

None

41.

Transformerモデルにおいて、「マルチヘッドアテンション」が持つ効果は何ですか？

訓練データのサイズを削減する

モデルの各層の出力を全て同時に計算する

複数の異なるアテンションを並行して学習し、文脈の多様な側面を捉える

デコーダが全ての入力シーケンスをシャッフルする

None

42.

EfficientNetにおいて「MBConvブロック」の設計が計算効率を高める理由は何ですか？

残差接続とリニアボトルネックを組み合わせて計算量を減少させるため

畳み込み層を完全に除去しているため

モデルの幅を減少させているため

活性化関数を変更しているため

None

43.

WideResNetが「深さ」を増やす代わりに「幅」を増やす選択をする理由は何ですか？

訓練データの量を減らすため

計算量を削減するため

勾配消失問題を軽減しつつ、より多様な特徴を学習するため

モデルのパラメータ数を減らすため

None

44.

HREDモデルが「対話システム」において持つ最大の利点は何ですか？

訓練時間を短縮できる

過去の対話の文脈を長期間にわたり保持し、文脈に基づいた応答を生成できる

生成する応答を短縮できる

各発話を独立して処理できる

None

45.

DenseNetにおいて「トランジションレイヤー」が適切に設計されていない場合、どのような問題が発生しますか？

特徴マップが過度に大きくなり、計算効率が悪化する

モデルのパラメータ数が減少しすぎて精度が低下する

勾配消失が発生しやすくなる

モデルが学習しなくなる

None

46.

seq2seqモデルの性能評価において、「精度」よりも「F1スコア」を使用する理由は何ですか？

精度が高いと過学習が発生するから

精度がクラス不均衡なデータセットに対して適切でない場合があるから

F1スコアはモデルのトレーニング時間を減少させるから

F1スコアはデータ前処理を必要としないから

None

47.

TransformerモデルがRNNベースのseq2seqモデルと比較して持つ利点はどれですか？

モデルのパラメータ数が少ない

時系列処理に依存せず、並列処理が可能で学習が高速化される

学習に多くのデータが必要

モデルが入力シーケンスを自動で正規化する

None

48.

seq2seqモデルにおける「双方向エンコーダ（Bidirectional Encoder）」の利点は何ですか？

モデルの計算コストを削減するため

デコーダの性能を向上させるため

入力シーケンスを前方向と後方向の両方から処理し、文脈の理解を深めるため

モデルの訓練時間を短縮するため

None

49.

EfficientNetの主な特徴は何ですか？

深さのみをスケールさせたモデル

モデルの幅、解像度、深さをバランスよくスケールさせる

幅を広げることでパフォーマンスを向上させたモデル

全結合層を多用した設計

None

50.

DenseNetの「密結合」構造が、他のモデルと比較してパラメータ効率を向上させる理由は何ですか？

各層が残差接続を使用しているため

活性化関数をReLUからLeaky ReLUに変更しているため

各層が新しいパラメータを必要とせず、既存の特徴を再利用するため

特徴マップの解像度を一定に保っているため

None

Time's up