DS検定-データサイエンス力(非構造化データ処理)-

非構造化データである画像データの前処理において、「データ拡張（Data Augmentation）」が有効である主な理由はどれですか？

モデルの過学習を防ぐため。

データのラベル付けを自動化するため。

データの解像度を向上させるため。

訓練時間を短縮するため。

非構造化データ処理において、画像データの特徴量抽出に「ResNet」が有効とされる主な理由は次のうちどれですか？

高次元データを低次元に圧縮するため。

訓練時間を大幅に短縮するため。

データのラベルなしで学習を進めるため。

勾配消失問題を軽減し、非常に深いネットワークを構築可能にするため。

非構造化データの中で、画像の特徴量を抽出するために使用される「SURF」や「SIFT」は何の例ですか？

オブジェクト検出手法

画像の圧縮アルゴリズム

画像分類モデル

画像の特徴点検出手法

テキストデータを扱う際、トークン化後の単語数が非常に多い場合に生じる問題は何ですか？

次元の呪い

オーバーフィッティング

アンダーフィッティング

クラスターの数が増加する

非構造化データ処理において、テキストデータを数値化する際に「TF-IDF」の手法がよく用いられる理由は何ですか？

テキストデータ内の文法を解析するため。

単語の出現頻度とその重要度を考慮するため。

テキストデータを深層学習モデルに直接入力できるようにするため。

テキストデータのトピックを自動的に分類するため。

画像データの分類において、転移学習が有効である理由は何ですか？

新しいモデルをゼロから学習する必要がないため

全てのデータをランダムに処理できるため

画像を前処理する必要がないため

モデルの複雑さを低減するため

非構造化データを用いる機械学習において、ワードベクトル（word embeddings）を生成する技術として広く使用されている手法はどれですか？

Word2Vec

K-meansクラスタリング

主成分分析

決定木

BERTなどのトランスフォーマーモデルが従来のRNN（リカレントニューラルネットワーク）に対して優れている点はどれですか？

訓練時間が短い

小規模なデータセットでも優れた性能を発揮する

高度な前処理が不要である

長い依存関係を捉えやすい

音声データを処理する際、音の周波数成分を時間とともに解析するために使用される手法はどれですか？

Fourier変換

自己相関

遅延プロット

サポートベクターマシン

10.

動画データ処理において、アクション認識（Action Recognition）を実現するために使用される技術の組み合わせとして最も適切なのは次のうちどれですか？

CNNとLSTM

RNNとTF-IDF

ResNetとBERT

GANとWord2Vec

11.

非構造化データの処理において、ディープラーニングを使用する際に直面する最も一般的な課題は何ですか？

モデルの精度が常に低い

ラベル付きデータの不足

データの前処理が複雑すぎる

ハイパーパラメータのチューニングが不要

12.

自然言語処理（NLP）において、テキストの単語やフレーズを数値データに変換する手法として最も一般的なのはどれですか？

トークン化

One-hotエンコーディング

TF-IDF

正規化

13.

非構造化データの特徴量抽出において、音声データからメル周波数ケプストラム係数 (MFCC) を使用する主な理由は何ですか？

音声データを画像データに変換するため

音声信号を人間の聴覚に基づいた特徴量に変換するため

音声データを標準化するため

音声データを二値データに変換するため

14.

自然言語処理において、トピックモデリングを行うために広く使われる手法はどれですか？

TF-IDF

LDA（潜在ディリクレ配分）

ワード2ベクトル

アテンションメカニズム

15.

自然言語処理において、Word2Vecモデルが特定の単語間の意味的類似性を学習する仕組みは次のうちどれですか？

各単語の共起行列を直接計算する。

単語の品詞情報を基にベクトルを生成する。

周辺単語の文脈情報を使用してベクトルを最適化する。

各単語を直接One-Hotエンコーディングで表現する。

16.

非構造化データにおける「アノテーション」とは何を指しますか？

データのラベル付けを行う作業

データの可視化を行う作業

データの正規化を行う作業

データの欠損値を補完する作業

17.

テキストデータの前処理において、ストップワードとは何ですか？

重要な単語

頻繁に出現するが、意味的な価値が少ない単語

文書の最後に登場する単語

文書全体の主題を表す単語

18.

大規模な画像データセットを効率的に処理するために使用されるテクニックはどれですか？

正則化

グリッドサーチ

ミニバッチ学習

主成分分析

19.

テキスト分類モデルにおいて、マルチラベル分類の実装が必要な場合、次のうち適切なアプローチはどれですか？

各ラベルごとに独立したバイナリ分類器を作成する

一つの分類器で全てのラベルを一度に分類する

ラベルの相関を無視して処理する

ラベルの階層構造を前提とした回帰モデルを作成する

20.

非構造化データとは何を指しますか？

テーブル形式で保存されたデータ

事前に定義された形式がなく、自由な形で存在するデータ

時系列データ

データベースに保存された数値データ

21.

非構造化データの分類において、深層学習の利点として正しいものはどれですか？

手作業での特徴抽出が不要になる

モデルが単純で計算リソースを消費しない

全てのデータを同じアルゴリズムで処理できる

特徴量の選択が容易になる

22.

非構造化データ処理において、画像データの特徴抽出によく使用される手法はどれですか？

CNN（畳み込みニューラルネットワーク）

K-meansクラスタリング

決定木

線形回帰

23.

音声認識モデルにおいて、時間的な依存性を考慮したネットワーク構造は次のどれですか？

畳み込みニューラルネットワーク (CNN)

リカレントニューラルネットワーク (RNN)

k-近傍法 (k-NN)

決定木

24.

音声データ処理において、リカレントニューラルネットワーク（RNN）の代わりにトランスフォーマーモデルが使用されることが増えている主な理由は次のうちどれですか？

トランスフォーマーモデルは、時間的な順序を完全に無視できるため。

トランスフォーマーモデルは、長い依存関係を効率的に学習できるため。

RNNよりも学習速度が遅く、精度が高いから。

トランスフォーマーモデルは、音声データ専用に設計されているから。

25.

画像認識において、画像のサイズや位置の違いに対してロバストなモデルを作成するために使用される手法はどれですか？

データ拡張

クラスタリング

主成分分析

ロジスティック回帰

26.

非構造化データを処理する際に、データの前処理で重要なステップの一つは何ですか？

データの正規化

データの並べ替え

データのクラスタリング

特徴量エンジニアリング