DS検定～模擬試験④～

次のうち、データを説明する際に避けるべき行動はどれですか？

結論をデータに基づいて示す

データを過度に装飾して印象操作する

グラフを使って説明する

データの出典を明示する

None

変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか？

散布図

中央値

ヒストグラム

因果推論モデル（Causal Inference Model）

None

モデルのパフォーマンスを向上させるために、次元削減が必要な場合に使用される手法はどれですか？

ランダムフォレスト

PCA（主成分分析）

ロジスティック回帰

k-近傍法

None

分析評価における「F1スコア」とは何を表していますか？

モデルの計算速度

データセットのサイズとモデルの適合性

モデルの訓練時間

精度と再現率の調和平均

None

モデルがデータの相関に基づいて誤った予測を行わないようにするためには、次のどの手法が有効ですか？

クロスバリデーション

正則化

特徴選択

全て

None

データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか？

データポイントを増やす

移動平均線を追加してトレンドを明確化する

折れ線グラフを棒グラフに変更する

グラフの色を変えることで視覚的にわかりやすくする

None

データ共有において、ファイルベースの共有よりも「データベースを介した共有」が推奨される理由は次のうちどれですか？

データのサイズを圧縮できるため

データの更新や検索が効率的に行えるため

データの共有が容易に行えるため

データの形式が自動的に標準化されるため

None

データの異常値（外れ値）を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか？

平均値を明確に表示する

データの相関を示す

時系列データを示す

外れ値を視覚的に確認できる

None

「データ共有プラットフォーム」のスケーラビリティを向上させるために一般的に使用される手法は次のうちどれですか？

クラウドストレージのキャッシュ

圧縮アルゴリズムの変更

マイクロサービスアーキテクチャ

データのファイル形式を変更する

None

10.

多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか？

各クラスのデータ量を均等にするため。

モデルが複雑な場合でも簡易な計算が可能になるため。

多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。

クラス間の相関を最大化するため。

None

11.

クロスバリデーションの目的は次のうちどれですか？

モデルの精度を最大化するために、データセット全体を使用する

モデルの処理速度を向上させるため

モデルの汎化性能を評価するために、異なるデータセットでモデルを検証する

データの前処理を自動化するため

None

12.

モデルのフェアネス（公平性）を評価する際に使用される指標として適切なものは次のうちどれですか？

混同行列

クロスエントロピー

デメトリックパリティ（Demographic Parity）

平均二乗誤差（MSE）

None

13.

データ加工において、「特徴量生成」が必要になる場面として最も適切なものは次のうちどれですか？

データ量が少なく、より多くの情報をモデルに提供したい場合。

外れ値を削除する必要がある場合。

カテゴリ変数を数値データに変換する場合。

欠損値を補完する必要がある場合。

None

14.

モデルのデプロイ後に予測結果をリアルタイムで提供する際、必要とされる機能として最も適切なものは次のうちどれですか？

バッチ処理機能

REST APIまたはgRPCの提供

モデルの再トレーニング機能

データ可視化ダッシュボード

None

15.

データの説明において、偏りを防ぐために考慮すべき重要な要素は次のうちどれですか？

データが全体を代表するかどうかを確認する

データを無作為に削除する

データの一部のみを使用して説明する

主観的な意見を混ぜる

None

16.

データ共有において、「データレイク」の設計時に最も注意すべき課題は次のうちどれですか？

データの検索性と品質を確保すること

データの容量を最小化すること

データのスキーマを事前に固定すること

データの形式をCSVに統一すること

None

17.

モデルのパフォーマンスを評価するためにROC曲線を使用する主な目的は何ですか？

モデルの予測値を確認するため

モデルの複雑さを測定するため

モデルがどのようにクラスを区別するかを評価するため

モデルの正確な予測確率を示すため

None

18.

データ分析の評価指標として「R²（決定係数）」が示すものは次のうちどれですか？

モデルの精度が100%に近いこと

モデルがデータの変動をどれだけ説明できるか

モデルがデータに過適合している割合

モデルのエラーを最小化するための方法

None

19.

回帰モデルの説明において「決定係数（R²）」が示す意味として正しいものは次のうちどれですか？

モデルの精度がどれほど高いかを示す指標

モデルのデータのばらつきが大きいことを示す指標

モデルの変数の相関が弱いことを示す指標

モデルの適合度が低いことを示す指標

None

20.

データの共有において、データの完全性と機密性を保つために使用される技術は次のうちどれですか？

圧縮

暗号化

トークン化

フィルタリング

None

21.

2つのカテゴリ変数間の関係性をデータフレームで確認したい場合、最も適切な方法は次のうちどれですか？

クロス集計表を作成する

散布図を作成する

ヒストグラムを作成する

箱ひげ図を使用する

None

22.

決定木モデルにおいて「枝刈り（pruning）」を行う目的は何ですか？

モデルの学習速度を向上させるため

モデルの予測精度を高めるため

モデルのサイズを小さくし、過学習を防ぐため

モデルの出力を標準化するため

None

23.

データ加工において、「データの正規化（Normalization）」と「標準化（Standardization）」の主な違いとして正しいものは次のうちどれですか？

正規化はデータの平均を0にするが、標準化はしない。

正規化は欠損値を補完する手法で、標準化は特徴量のエンコーディングに使用される。

正規化は外れ値を削除するが、標準化は外れ値を無視する。

正規化はデータを0～1の範囲にスケーリングするが、標準化は分散を1にスケーリングする。

None

24.

分析評価における「ヒストリカルバイアス」を排除するために有効な手法は次のうちどれですか？

データ収集期間を見直し、最新のデータを優先する

モデルのパラメータを変更する

バイアスが含まれたデータをそのまま使用する

データの分散を高める

None

25.

データ加工において、非線形な特徴量をモデルに取り入れるために一般的に使用される手法は次のうちどれですか？

Zスコアを計算する

ワンホットエンコーディングを行う

多項式特徴量（Polynomial Features）を作成する

正規化を行う

None

26.

「ヒートマップ」は次のうちどの目的で使用されますか？

データの相関関係を視覚的に示すため

データの平均値を計算するため

データの標準偏差を表示するため

データを並び替えるため

None

27.

クラウド環境において、異なるユーザー間でデータを共有する際に考慮すべき主要な課題は次のうちどれですか？

データのサイズと圧縮

データのファイル形式

データの権限管理とアクセス制御

データの可視化方法

None

28.

モデルの性能を検証するために、データセットを訓練データとテストデータに分割する理由は何ですか？

データ量を増やすため

モデルが過学習しているかを評価するため

データの正規性を確保するため

訓練データの分散を減らすため

None

29.

データ分析でよく使用される「分散分析（ANOVA）」の目的は何ですか？

単一のグループの中央値を求める

2つの変数間の相関を確認する

データの時系列分析を行う

複数のグループの平均値の差が有意かどうかを確認する

None

30.

データの不均衡に対処するための「アンダーサンプリング」の主なデメリットは次のうちどれですか？

データの一部を削除するため、重要な情報が失われるリスクがある

データが増えることで処理時間が長くなる

データの不均衡をさらに悪化させる可能性がある

モデルの精度が低下する可能性がある

None

31.

多クラス分類問題における評価指標として適切なものは次のどれですか？

精度

平均二乗誤差（MSE）

決定係数

マクロ平均F1スコア

None

32.

次のうち、データを説明する際に「ピボットテーブル」を使う主な利点は何ですか？

データを無作為に並び替えることができる

データの正確性を低下させる

データの可視化を自動的に行う

データを簡単に集計し、視覚的に示すことができる

None

33.

データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか？

平均値を強調する

外れ値を無視する

箱ひげ図を使って外れ値を視覚的に示す

外れ値を削除して説明する

None

34.

比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか？

円グラフ

散布図

棒グラフ

ヒストグラム

None

35.

データ共有の際に、「データの非対称暗号化」が採用される理由は次のうちどれですか？

全てのユーザーが同じ鍵を使用して、データを暗号化できるため

データの送信者と受信者が異なる鍵を使用して、データの安全性を高めるため

データのサイズを圧縮するため

データのリアルタイム性を保証するため

None

36.

データを説明する際に、棒グラフを選択する最も適切な状況は次のうちどれですか？

カテゴリごとの比較を行いたい場合

時系列データの変化を表現したい場合

変数間の相関を示したい場合

データの分布を示したい場合

None

37.

データの相関関係を説明する際、散布図を使用した結果、明確な相関が見られない場合に考慮すべき最も適切な対応は次のうちどれですか？

データの他の変数を確認し、新たな相関を探す

相関がないと結論付けて分析を終了する

相関関係を人工的に作るためにデータを加工する

散布図を折れ線グラフに変更する

None

38.

正規化の手法の一つである「最小-最大スケーリング（Min-Max Scaling）」の目的は何ですか？

データの平均を0にする

データの分布を正規分布に近づける

データを指定した範囲にスケーリングする

データを標準偏差1にする

None

39.

分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか？

データセットを無作為に分割して評価する

モデルの出力だけを比較する

全てのデータを削除して再収集する

データ収集時点での条件を再確認する

None

40.

データを説明する際、対象者の理解を促進するために考慮すべき要素は次のうちどれですか？

対象者のバックグラウンドや専門知識レベル

データの量

グラフの色彩

文字の大きさ

None

41.

あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか？

ヒストグラム

散布図

箱ひげ図

円グラフ

None

42.

データ共有プラットフォームで「データのインタープリタビリティ（相互運用性）」を確保するために必要なものは次のうちどれですか？

大規模なデータストレージ

データの暗号化アルゴリズム

データベースのスケーリング機能

標準化されたデータフォーマットとAPI

None

43.

「ファイル共有サービス」で一般的に使用されるプロトコルは次のうちどれですか？

SMTP

FTP

IMAP

HTTP/2

None

44.

データを説明する際に「ヒートマップ」を使用する主な目的は次のうちどれですか？

時系列データの変化を示す

2次元データのパターンや相関を視覚化する

カテゴリデータの分布を示す

外れ値を特定する

None

45.

モデルを運用環境にデプロイする際に考慮すべき「レイテンシー」とは何ですか？

モデルの予測精度

モデルの再トレーニングにかかる時間

モデルの応答速度

モデルの学習に必要なデータ量

None

46.

モデルの学習において、「早期終了（Early Stopping）」が適用される主な目的は次のうちどれですか？

学習データを効率的に使用するため。

モデルの過学習を防ぐため。

モデルの収束速度を向上させるため。

モデルのハイパーパラメータを自動調整するため。

None

47.

データの散らばり具合を示す指標である「標準偏差」は、次のうちどのような意味を持ちますか？

データの平均値

データの中央値

データが平均からどれだけ離れているかを示す

データの最大値と最小値の差

None

48.

効果的なデータの説明における「データの可視化」の目的として正しいものは次のうちどれですか？

データを視覚的にわかりやすく伝える

データを簡単に削除するため

データを正確に分析するため

データを隠すため

None

49.

データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか？

データを圧縮して保存できる

データをリアルタイムで共有できる

データの完全性を保証できる

大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる

None

50.

モデルを本番環境にデプロイする際に、クラウドプラットフォームを利用する主な利点として最も適切なものは次のうちどれですか？

モデルの再トレーニングが不要になる。

スケーラビリティと可用性が向上する。

モデルの精度が自動的に向上する。

モデルのバイアスが自動的に修正される。

None

51.

データ共有において、データの「キャッシュ」を利用する主な目的は次のうちどれですか？

データの圧縮を行い、保存スペースを節約するため

データのアクセス権を管理するため

データの暗号化強度を高めるため

頻繁にアクセスされるデータの応答時間を短縮するため

None

52.

モデルの利活用において、予測精度の評価に使われる指標の一つはどれですか？

平均二乗誤差 (MSE)

パラメータ数

サンプル数

分散

None

53.

データ共有において、「非構造化データ」として適切な例は次のうちどれですか？

SQLデータベースのテーブル

CSVファイル

画像ファイル

JSON形式のログデータ

None

54.

モデルの「ブラックボックス」問題とは何ですか？

モデルの予測結果が解釈できないこと

モデルがすべてのデータをランダムに処理すること

モデルのパラメータが固定されていること

モデルが正確な予測を常に行うこと

None

55.

本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか？

モデルのハイパーパラメータが変更された。

トレーニングデータが削除された。

モデルのアルゴリズムが過学習を起こした。

データドリフトが発生した。

None

56.

相関関係を説明する際に使用される統計指標は次のうちどれですか？

中央値

相関係数

分散

四分位範囲

None

57.

データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか？

データの精度を向上させる

データの欠損値を補完する

データを完全に削除する

データの次元数を減らし、計算コストを削減する

None

58.

モデルの評価指標として、精度（accuracy）以外にモデルの性能を評価するために適切な指標はどれですか？

AUC-ROC

平均二乗誤差（MSE）

p値

偏差

None

59.

データ共有において、「メタデータ」の役割として正しいものはどれですか？

データの内容や構造に関する情報を提供する

データを暗号化する

データの圧縮アルゴリズムを指定する

データをリアルタイムで同期する

None

60.

データの代表値の一つである「中央値」はどのようなデータの特徴を表しますか？

データの最頻値

データの平均値

データを大小順に並べたとき、中央に位置する値

データの最大値と最小値の差

None

61.

データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか？

単回帰分析

移動平均

ロジスティック回帰

相関分析

None

62.

分析評価のプロセスで「AUC（ROC曲線下の面積）」を使用する理由は次のうちどれですか？

モデルの処理速度を測定するため

データセットのサイズを確認するため

モデルの再現率を最適化するため

モデルが様々な閾値でどの程度正確に分類できるかを測定するため

None

63.

「リッジ回帰」がL2正則化を使用する主な理由は次のうちどれですか？

モデルのパフォーマンスを向上させるため

モデルのトレーニング速度を向上させるため

モデルの評価基準を単純化するため

モデルの過学習を防ぐためにパラメータを制約するため

None

64.

あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか？

データは正規分布している

データは左に歪んでいる（左偏）

データは右に歪んでいる（右偏）

データは一様分布している

None

65.

分析評価において、適合率（precision）を向上させるためには、次のどの要素に焦点を当てるべきですか？

モデルが誤って予測する「偽陽性」を減らす

モデルの計算速度を向上させる

データセットを小さくする

モデルの訓練時間を短縮する

None

66.

データの不均衡を解消するために、「オーバーサンプリング」を行う利点は次のうちどれですか？

少数クラスのデータを増やすことで、クラスのバランスを保つことができる

データの精度を向上させるため

データセット全体のサイズを減少させるため

カテゴリデータを自動的に数値に変換できるため

None

67.

欠損データが発生している場合、欠損の発生パターンに応じて適切な処理方法を選択することが重要ですが、データが「完全にランダムに欠損している」場合に適切な処理方法はどれですか？

データを無作為に削除する

欠損部分を平均値で補完する

欠損部分を推測して補完する

欠損部分をそのまま残す

None

68.

データ加工において、「外れ値」を検出するための統計手法として一般的に使用されるものは次のうちどれですか？

標準偏差

主成分分析（PCA）

K-平均クラスタリング

平均二乗誤差（MSE）

None

69.

「主成分分析（PCA）」の主な目的は次のうちどれですか？

データの平均値を求める

データの相関関係を調べる

データの欠損値を補完する

データの次元を削減し、主要な特徴を抽出する

None

70.

「データガバナンス」における主な目的は次のうちどれですか？

データの圧縮を最適化し、保存容量を減らすこと

データベースのクエリを最適化すること

データの品質、整合性、安全性を確保し、適切に管理すること

データのリアルタイム共有を実現すること

None

71.

データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか？

散布図

Q-Qプロット

棒グラフ

円グラフ

None

72.

クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか？

精度

AUC-ROC

平均絶対誤差

マクロF1スコア

None

73.

クロス集計表を用いる主な目的は次のうちどれですか？

1つの変数の分布を見る

2つ以上のカテゴリ変数の関係性を把握する

データの相関関係を確認する

データの標準偏差を計算する

None

74.

分析評価において、「リコール（再現率）」が高いことが重要とされる場面は次のうちどれですか？

クレジットカードのスコアリング

商品のおすすめエンジン

広告のクリック予測

健康診断でのがん検出

None

75.

ランダムフォレストはどのようにして過学習を防いでいますか？

少数の決定木を使用して、全てのデータを学習する

訓練データをシャッフルして多数の決定木を作成し、その平均を取る

1つの決定木を大きく成長させることで、データの特徴を完全に学習する

訓練データを正則化して、過学習を防ぐ

None

76.

欠損データの補完手法として「多重代入法（Multiple Imputation）」が有効な理由は次のうちどれですか？

複数の補完値を生成して欠損データを複数回補完し、不確実性を考慮できるため

補完値をランダムに生成して、不確実性を減少させるため

データを完全に削除して、不確実性を排除するため

欠損データが存在しても、モデルの精度に影響しないため

None

77.

データ共有における「REST API」の特徴として正しいものは次のうちどれですか？

HTTPプロトコルを使用して、ステートレスな通信を行う

リアルタイムのデータ共有をサポートする

大量データのバッチ処理に特化している

データを暗号化して転送する

None

78.

以下のPythonコードを使用して、「欠損値の補完」を実行する際に、fillna() の引数として適切な値を指定することで、各列の平均値で補完するコードとして正しいものは次のうちどれですか？

import pandas as pd

data = {'col1': [1, None, 3], 'col2': [4, 5, None]}
df = pd.DataFrame(data)
# 欠損値補完
df_filled = df.fillna(_____)

df.median()

df.mean()

method='bfill'

None

79.

データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか？

カイ二乗検定

ピアソンの相関係数

シャピロ・ウィルク検定

クラスタリング

None

80.

クロスバリデーションの主な目的は何ですか？

モデルの性能を評価し、過学習を防ぐこと

モデルのパラメータ数を減らすこと

モデルの複雑さを増やすこと

モデルの学習速度を速めること

None

81.

Lasso回帰におけるL1正則化の主な効果はどれですか？

モデルの重みを全て大きくする

モデルの重みを小さくして、特定の特徴量をゼロにする

特徴量の相関を強化する

モデルの学習速度を遅くする

None

82.

データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか？

信頼区間はデータの中央値を示す

信頼区間は母集団のパラメータが特定の範囲にある確率を示す

信頼区間はデータが完全に正規分布していることを示す

信頼区間はデータの外れ値を無視する

None

83.

時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか？

折れ線グラフ

散布図

棒グラフ

円グラフ

None

84.

モデル構築において、特徴量の「スケーリング」が必要となる理由は次のうちどれですか？

モデルの学習速度を向上させるため。

特徴量間の相関を完全に排除するため。

すべてのモデルで絶対に必要な手順だから。

特徴量の単位やスケールが異なる場合に影響を均一化するため。

None

85.

勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか？

単一の高精度なモデルを作る

データセット全体に対して1つのモデルを訓練する

各学習器が前の学習器の誤差を補正する

各学習器が独立して予測を行う

None

86.

ロジスティック回帰モデルは、どのようなタイプのデータに対して使用されますか？

連続値データの予測

二値分類問題

多値分類問題

非線形データの予測

None

87.

分析評価において「A/Bテスト」を実施する際、最も重要な前提条件は次のうちどれですか？

対象群と実験群がランダムに分割されていること

全てのユーザーが同じテストに参加すること

実験終了後に全てのデータを削除すること

テストの結果を公開しないこと

None

88.

データ加工で、カテゴリ変数を数値データに変換する手法として正しいものはどれですか？

正規化

ワンホットエンコーディング

標準化

フィルタリング

None

89.

データ共有プロセスにおいて、「データ所有権」の管理が重要な理由は次のうちどれですか？

データの使用範囲や責任範囲を明確にすることで、法的リスクを回避するため

データの圧縮率を向上させるため

データの形式を変換するため

データを暗号化して転送するため

None

90.

大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか？

データをシャッフルする

データをソートする

データの型を最適化する

データを削除する

None

91.

精度と再現率を評価する際、精度とはどのような指標を示していますか？

予測が正しい割合

モデルが外れ値を除外する能力

予測モデルの処理速度

モデルが予測しなかったデータの比率

None

92.

データを扱う際に重要な「分位点」とは何を意味しますか？

データを特定の割合で区分した点

データの平均値

データの最大値と最小値の平均

データの標準偏差

None

93.

データ共有における「API」の役割として正しいものはどれですか？

異なるシステム間でデータをやり取りするためのインターフェース

データを圧縮して送信する技術

データを暗号化して送信する技術

データの可視化を行う技術

None

94.

時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか？

データ間に因果関係があるかどうかを確認するため

データが一定の間隔で繰り返すパターンを持つかどうかを確認するため

データがすべて独立しているかを確認するため

データの平均値を計算するため

None

95.

データの分布が正規分布であるかどうかを視覚的に確認するために最も適切な方法は次のうちどれですか？

ヒストグラムを作成して分布を観察する

相関係数を計算する

箱ひげ図を使用する

散布図を作成する

None

96.

データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか？

データの保存容量が制限されること

データのセキュリティとプライバシーの確保が難しいこと

データのバックアップが不要になること

データの形式が変更されること

None

97.

データ分析プロジェクトで「ベイズ最適化」を使用する主な理由として最も適切なものは次のうちどれですか？

モデルのハイパーパラメータ探索を効率化するため

すべてのパラメータを手動で調整するため

モデルの計算速度を低下させるため

無作為にパラメータを設定するため

None

98.

サポートベクターマシン (SVM) では、カーネル関数を使用する主な理由は何ですか？

非線形なデータを高次元空間に写像し、線形分離可能にするため

訓練データを効率的に処理するため

データのスケーリングを容易にするため

過学習を防ぐため

None

99.

モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか？

モデルのバイアスとバリアンスのバランスを取ること

モデルの計算速度と精度のバランスを取ること

データのサイズとモデルの複雑さを調整すること

データの分散を減らすための手法

None

100.

データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか？

散布図

相関分析

クラスタリング

回帰分析

None

Time's up