DS検定～模擬試験④～

データ分析の評価指標として「R²（決定係数）」が示すものは次のうちどれですか？

モデルの精度が100%に近いこと

モデルがデータの変動をどれだけ説明できるか

モデルがデータに過適合している割合

モデルのエラーを最小化するための方法

None

データ加工で、カテゴリ変数を数値データに変換する手法として正しいものはどれですか？

正規化

ワンホットエンコーディング

標準化

フィルタリング

None

精度と再現率を評価する際、精度とはどのような指標を示していますか？

予測が正しい割合

モデルが外れ値を除外する能力

予測モデルの処理速度

モデルが予測しなかったデータの比率

None

時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか？

折れ線グラフ

散布図

棒グラフ

円グラフ

None

分析評価のプロセスで「AUC（ROC曲線下の面積）」を使用する理由は次のうちどれですか？

モデルの処理速度を測定するため

データセットのサイズを確認するため

モデルの再現率を最適化するため

モデルが様々な閾値でどの程度正確に分類できるかを測定するため

None

テキストデータの前処理において、「ステミング（Stemming）」とはどのような処理ですか？

単語のスペルミスを修正する処理

テキストを正規化する処理

文章を分割して単語ごとに分類する処理

単語の語幹を抽出し、派生形を統一する処理

None

データ加工において、データを正規化する主な目的は何ですか？

データの冗長性を減らし、整合性を保つこと

データの計算速度を上げること

データを暗号化すること

データのサイズを圧縮すること

None

分析評価で使用される「A/Bテスト」の主な目的は次のうちどれですか？

2つの異なる手法やアプローチを比較し、どちらが効果的かを判断するため

モデルの訓練データを増やすため

データセットを分割してモデルを評価するため

データの精度を向上させるため

None

時系列データの傾向を説明する際、移動平均を用いる主な目的は次のうちどれですか？

外れ値を完全に削除する

データの変動を平滑化し、トレンドを明確にする

時系列データを一括で解析する

データを異なるカテゴリに分割する

None

10.

データ共有プラットフォームで「マルチテナントアーキテクチャ」が使用される理由は次のうちどれですか？

複数のユーザーが同一のシステムを共有しながらも、データを分離して管理できるため

データの暗号化を自動的に行うため

データの圧縮を効率化するため

データベースのクエリを高速化するため

None

11.

データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか？

データの保存容量が制限されること

データのセキュリティとプライバシーの確保が難しいこと

データのバックアップが不要になること

データの形式が変更されること

None

12.

決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか？

標準偏差

相関係数

ジニ係数

決定係数

None

13.

モデルの学習において、「早期終了（Early Stopping）」が適用される主な目的は次のうちどれですか？

学習データを効率的に使用するため。

モデルの過学習を防ぐため。

モデルの収束速度を向上させるため。

モデルのハイパーパラメータを自動調整するため。

None

14.

回帰モデルの説明において「決定係数（R²）」が示す意味として正しいものは次のうちどれですか？

モデルの精度がどれほど高いかを示す指標

モデルのデータのばらつきが大きいことを示す指標

モデルの変数の相関が弱いことを示す指標

モデルの適合度が低いことを示す指標

None

15.

データ分析でよく使用される「分散分析（ANOVA）」の目的は何ですか？

単一のグループの中央値を求める

2つの変数間の相関を確認する

データの時系列分析を行う

複数のグループの平均値の差が有意かどうかを確認する

None

16.

データを説明する際に「ヒートマップ」を使用する主な目的は次のうちどれですか？

時系列データの変化を示す

2次元データのパターンや相関を視覚化する

カテゴリデータの分布を示す

外れ値を特定する

None

17.

変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか？

散布図

中央値

ヒストグラム

因果推論モデル（Causal Inference Model）

None

18.

クロスバリデーションの主な目的は何ですか？

モデルの性能を評価し、過学習を防ぐこと

モデルのパラメータ数を減らすこと

モデルの複雑さを増やすこと

モデルの学習速度を速めること

None

19.

時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか？

データ間に因果関係があるかどうかを確認するため

データが一定の間隔で繰り返すパターンを持つかどうかを確認するため

データがすべて独立しているかを確認するため

データの平均値を計算するため

None

20.

相関係数が正の値を示す場合、次のうちどの関係性があると考えられますか？

2つの変数が同じ方向に動く

2つの変数が逆方向に動く

2つの変数が無関係である

2つの変数が完全に独立している

None

21.

データ共有プロセスにおいて、「データ所有権」の管理が重要な理由は次のうちどれですか？

データの使用範囲や責任範囲を明確にすることで、法的リスクを回避するため

データの圧縮率を向上させるため

データの形式を変換するため

データを暗号化して転送するため

None

22.

データサイエンスにおいて、モデルを活用する際に最も重要なステップの一つは何ですか？

モデルのトレーニング

モデルのパラメータチューニング

モデルのデプロイ

モデルのハイパーパラメータ設定

None

23.

データを「説明する」ときに最も重要なポイントの1つは次のうちどれですか？

データを使わず、主観的な意見を述べる

データを細かく説明せずに要約を省く

データの出典を示さない

結論に基づいた根拠をデータとして示す

None

24.

Lasso回帰におけるL1正則化の主な効果はどれですか？

モデルの重みを全て大きくする

モデルの重みを小さくして、特定の特徴量をゼロにする

特徴量の相関を強化する

モデルの学習速度を遅くする

None

25.

以下のPythonコードを使用して、「欠損値の補完」を実行する際に、fillna() の引数として適切な値を指定することで、各列の平均値で補完するコードとして正しいものは次のうちどれですか？

import pandas as pd

data = {'col1': [1, None, 3], 'col2': [4, 5, None]}
df = pd.DataFrame(data)
# 欠損値補完
df_filled = df.fillna(_____)

df.median()

df.mean()

method='bfill'

None

26.

回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか？

特徴量間の独立性が高くなるため。

モデルが過学習しやすくなるため。

回帰係数の推定値が不安定になるため。

クロスバリデーションの結果が無効になるため。

None

27.

データ分析において「外れ値」の影響を軽減するための一般的な手法として最も適切なものは次のうちどれですか？

ロバストな統計手法（例えば、中央値や四分位範囲）を使用する

外れ値を無視する

外れ値を平均値で補完する

外れ値をそのまま残す

None

28.

「モデルのバイアス-バリアンストレードオフ」が示す課題は次のうちどれですか？

高精度なモデルを作るほどコストが増加する

モデルがシンプルすぎると過学習が発生する

モデルが複雑すぎると過学習が発生し、シンプルすぎると学習不足になる

モデルが一度構築されると修正できない

None

29.

次のうち、モデルのハイパーパラメータを調整する手法はどれですか？

ロジスティック回帰

決定木

正規化

グリッドサーチ

None

30.

効果的なデータの説明における「データの可視化」の目的として正しいものは次のうちどれですか？

データを視覚的にわかりやすく伝える

データを簡単に削除するため

データを正確に分析するため

データを隠すため

None

31.

クロス集計表を用いる主な目的は次のうちどれですか？

1つの変数の分布を見る

2つ以上のカテゴリ変数の関係性を把握する

データの相関関係を確認する

データの標準偏差を計算する

None

32.

モデルが本番環境で意図しないバイアスを持つ可能性を最小限に抑えるためには、次のどの手法が有効ですか？

データの前処理のみを行う

データのバランスを取る

モデルの複雑さを増す

モデルのハイパーパラメータを固定する

None

33.

モデルのデプロイ後に重要なタスクはどれですか？

モデルの予測結果を分析すること

モデルの訓練データを増やすこと

モデルの定期的な再学習とパフォーマンスの監視

モデルの複雑さを減らすこと

None

34.

データ共有において、「メタデータ」の役割として正しいものはどれですか？

データの内容や構造に関する情報を提供する

データを暗号化する

データの圧縮アルゴリズムを指定する

データをリアルタイムで同期する

None

35.

モデルのパフォーマンスがデータの品質に依存している理由として最も適切なものは次のうちどれですか？

データにノイズが含まれていると、モデルの学習が正確に行えないため

データが大きいほどモデルの精度が高くなるため

データが多いほど、モデルの複雑さを高めることができるため

データを使用すれば、必ずモデルのパフォーマンスが向上するため

None

36.

データの不均衡を解消するために、「オーバーサンプリング」を行う利点は次のうちどれですか？

少数クラスのデータを増やすことで、クラスのバランスを保つことができる

データの精度を向上させるため

データセット全体のサイズを減少させるため

カテゴリデータを自動的に数値に変換できるため

None

37.

分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか？

データセットを無作為に分割して評価する

モデルの出力だけを比較する

全てのデータを削除して再収集する

データ収集時点での条件を再確認する

None

38.

データの分布が正規分布であるかどうかを視覚的に確認するために最も適切な方法は次のうちどれですか？

ヒストグラムを作成して分布を観察する

相関係数を計算する

箱ひげ図を使用する

散布図を作成する

None

39.

データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか？

カテゴリ変数を1つの数値で表現する。

カテゴリ変数ごとに個別の二値変数を作成する。

カテゴリ変数を平均値で補完する。

カテゴリ変数を時系列データに変換する。

None

40.

正規化の手法の一つである「最小-最大スケーリング（Min-Max Scaling）」の目的は何ですか？

データの平均を0にする

データの分布を正規分布に近づける

データを指定した範囲にスケーリングする

データを標準偏差1にする

None

41.

次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか？

目的変数がカテゴリカルデータの場合

目的変数が連続値の場合

データが時系列データの場合

データが相関していない場合

None

42.

データ分析プロジェクトで「ベイズ最適化」を使用する主な理由として最も適切なものは次のうちどれですか？

モデルのハイパーパラメータ探索を効率化するため

すべてのパラメータを手動で調整するため

モデルの計算速度を低下させるため

無作為にパラメータを設定するため

None

43.

データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか？

カイ二乗検定

ピアソンの相関係数

シャピロ・ウィルク検定

クラスタリング

None

44.

クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか？

精度

AUC-ROC

平均絶対誤差

マクロF1スコア

None

45.

データが不均衡である場合にモデル評価の指標として推奨されるのは次のうちどれですか？

精度

AUC-ROC

平均二乗誤差

F1スコア

None

46.

データ共有における「API」の役割として正しいものはどれですか？

異なるシステム間でデータをやり取りするためのインターフェース

データを圧縮して送信する技術

データを暗号化して送信する技術

データの可視化を行う技術

None

47.

データの分布を把握するために、累積度数分布（CDF）を使用する場合、その主な利点として最も適切なものは次のうちどれですか？

データの中央値を直感的に理解できる

データの値が特定の範囲に収まる割合を確認できる

データ間の相関関係を視覚化できる

データの分散を計算できる

None

48.

「ハイパーパラメータのチューニング」において「ランダムサーチ」の利点は次のうちどれですか？

すべてのハイパーパラメータの組み合わせを試すことができる

グリッドサーチに比べて計算コストを抑えながら、広範な探索ができる

決定木モデルに特化したチューニング方法である

データセット全体を使って評価できる

None

49.

線形回帰モデルにおける「重み」とは何を指しますか？

変数間の相関の強さ

説明変数に対する従属変数の影響度

変数の相対的な順序

データの分散の指標

None

50.

サポートベクターマシン (SVM) では、カーネル関数を使用する主な理由は何ですか？

非線形なデータを高次元空間に写像し、線形分離可能にするため

訓練データを効率的に処理するため

データのスケーリングを容易にするため

過学習を防ぐため

None

51.

カテゴリ変数を数値に変換する際に、頻度ベースのエンコーディング手法を使用する利点は次のうちどれですか？

全てのカテゴリを独立したバイナリ変数に変換できる

変換後のデータがモデルに対して高い予測力を持つ可能性がある

カテゴリ数が多くてもメモリ効率が良くなる

カテゴリ変数を削除してデータセットを縮小できる

None

52.

モデルがデータの相関に基づいて誤った予測を行わないようにするためには、次のどの手法が有効ですか？

クロスバリデーション

正則化

特徴選択

全て

None

53.

ロジスティック回帰モデルは、どのようなタイプのデータに対して使用されますか？

連続値データの予測

二値分類問題

多値分類問題

非線形データの予測

None

54.

相関関係を説明する際に使用される統計指標は次のうちどれですか？

中央値

相関係数

分散

四分位範囲

None

55.

モデルの解釈性を向上させるために「SHAP」を利用する際、どのような情報が得られますか？

各予測に対する特徴量の貢献度。

モデルの全体的な構造と重み。

データセットの欠損値の補完方法。

モデルのハイパーパラメータ最適化手順。

None

56.

データ共有において、データの「キャッシュ」を利用する主な目的は次のうちどれですか？

データの圧縮を行い、保存スペースを節約するため

データのアクセス権を管理するため

データの暗号化強度を高めるため

頻繁にアクセスされるデータの応答時間を短縮するため

None

57.

モデル評価において「リコール（再現率）」が低い場合に考えられる影響として最も適切なものは次のうちどれですか？

誤検知（False Positives）が増加する

モデルの計算速度が遅くなる

重要な事例を見逃す可能性が高くなる

モデルが適合しすぎる

None

58.

ランダムフォレストはどのようにして過学習を防いでいますか？

少数の決定木を使用して、全てのデータを学習する

訓練データをシャッフルして多数の決定木を作成し、その平均を取る

1つの決定木を大きく成長させることで、データの特徴を完全に学習する

訓練データを正則化して、過学習を防ぐ

None

59.

ビッグデータ解析において、非常に大量のデータから有用な情報を抽出するための技術として最も適切なものは次のうちどれですか？

データサンプリング

データマイニング

データ可視化

データフィルタリング

None

60.

分析評価における「ベイズ最適化」の利点として最も適切なものは次のうちどれですか？

全てのパラメータの組み合わせを網羅的に探索するため

少ない試行回数で最適なハイパーパラメータを見つけるため

モデルの精度を向上させるためのデフォルト手法であるため

決定木に特化しているため

None

61.

データ共有において、ファイルベースの共有よりも「データベースを介した共有」が推奨される理由は次のうちどれですか？

データのサイズを圧縮できるため

データの更新や検索が効率的に行えるため

データの共有が容易に行えるため

データの形式が自動的に標準化されるため

None

62.

モデルの「ブラックボックス」問題とは何ですか？

モデルの予測結果が解釈できないこと

モデルがすべてのデータをランダムに処理すること

モデルのパラメータが固定されていること

モデルが正確な予測を常に行うこと

None

63.

分析結果の評価において最も重要な要素は次のうちどれですか？

結果が直感的にわかりやすいこと

分析が効率的に行われたかどうか

分析結果がビジネスの目的に一致していること

分析に使用したツールが最新であること

None

64.

大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか？

データをシャッフルする

データをソートする

データの型を最適化する

データを削除する

None

65.

データを扱う際に重要な「分位点」とは何を意味しますか？

データを特定の割合で区分した点

データの平均値

データの最大値と最小値の平均

データの標準偏差

None

66.

モデルのチューニングにおいて、ハイパーパラメータとは何を指しますか？

モデルが予測に使用するデータのパラメータ

モデルの学習過程で変更されないパラメータ

モデルが生成する出力の精度を示すパラメータ

モデルの評価に使用されるメトリクス

None

67.

非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか？

中央値

平均値

最頻値

標準偏差

None

68.

データ共有の際に、「データの非対称暗号化」が採用される理由は次のうちどれですか？

全てのユーザーが同じ鍵を使用して、データを暗号化できるため

データの送信者と受信者が異なる鍵を使用して、データの安全性を高めるため

データのサイズを圧縮するため

データのリアルタイム性を保証するため

None

69.

モデルの利活用において、予測精度の評価に使われる指標の一つはどれですか？

平均二乗誤差 (MSE)

パラメータ数

サンプル数

分散

None

70.

クラウド環境において、異なるユーザー間でデータを共有する際に考慮すべき主要な課題は次のうちどれですか？

データのサイズと圧縮

データのファイル形式

データの権限管理とアクセス制御

データの可視化方法

None

71.

データの標準化（Standardization）において、最も一般的に使用される手法は次のうちどれですか？

ワンホットエンコーディング

Zスコア変換

ターゲットエンコーディング

ログ変換

None

72.

データを説明する際に、棒グラフを選択する最も適切な状況は次のうちどれですか？

カテゴリごとの比較を行いたい場合

時系列データの変化を表現したい場合

変数間の相関を示したい場合

データの分布を示したい場合

None

73.

データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか？

データポイントを増やす

移動平均線を追加してトレンドを明確化する

折れ線グラフを棒グラフに変更する

グラフの色を変えることで視覚的にわかりやすくする

None

74.

外れ値の検出と除去において、IQR（四分位範囲）を使用する理由は次のうちどれですか？

データの標準偏差が不明な場合でも使用できるため

外れ値を自動的に補完できるため

データの分布が正規分布である場合に限って適用できるため

データの分布に関係なく、安定した外れ値の検出ができるため

None

75.

時系列データの分割において、「スライディングウィンドウ法」を使用する主な目的は次のうちどれですか？

データをランダムにシャッフルして分割する

データの時間的な依存性を考慮して、連続したデータを扱うことができる

データセット全体のサイズを削減する

時系列データを静的なデータに変換する

None

76.

複数の要因が結果にどのように影響しているかを説明する際、最も適切な分析手法は次のうちどれですか？

単回帰分析

分散分析（ANOVA）

クロス集計

ヒストグラム

None

77.

データ共有において、「非構造化データ」として適切な例は次のうちどれですか？

SQLデータベースのテーブル

CSVファイル

画像ファイル

JSON形式のログデータ

None

78.

データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか？

散布図

Q-Qプロット

棒グラフ

円グラフ

None

79.

分析評価における「F1スコア」とは何を表していますか？

モデルの計算速度

データセットのサイズとモデルの適合性

モデルの訓練時間

精度と再現率の調和平均

None

80.

多クラス分類問題における評価指標として適切なものは次のどれですか？

精度

平均二乗誤差（MSE）

決定係数

マクロ平均F1スコア

None

81.

分析評価において「A/Bテスト」を実施する際、最も重要な前提条件は次のうちどれですか？

対象群と実験群がランダムに分割されていること

全てのユーザーが同じテストに参加すること

実験終了後に全てのデータを削除すること

テストの結果を公開しないこと

None

82.

モデルを本番環境にデプロイする際に、クラウドプラットフォームを利用する主な利点として最も適切なものは次のうちどれですか？

モデルの再トレーニングが不要になる。

スケーラビリティと可用性が向上する。

モデルの精度が自動的に向上する。

モデルのバイアスが自動的に修正される。

None

83.

データの標準化と正規化の違いとして、正しい説明は次のうちどれですか？

標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする

標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される

標準化と正規化は同じ操作を指す

標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする

None

84.

モデルの利活用において、バイアスとバリアンスのトレードオフはどのように関連していますか？

バイアスが高いほど、モデルの複雑さが増す

バリアンスが高いほど、モデルは過学習しやすくなる

バリアンスが低いほど、モデルは過学習しやすくなる

バイアスが高いほど、モデルの精度が上がる

None

85.

時系列データにおける「移動平均（Moving Average）」の主な目的は次のうちどれですか？

データの欠損値を補完する

データの分布を正規化する

データのノイズを除去し、トレンドを明確にする

データをランダムにシャッフルする

None

86.

データを効果的に説明するために最も重要なステップは次のうちどれですか？

データを大量に提示する

データの背景や目的を明確にし、ストーリーを持たせる

グラフを多用する

専門用語を使う

None

87.

モデル評価において、「混同行列」が提供する情報は次のうちどれですか？

モデルの正確性、誤分類の内訳

モデルの学習曲線の進行状況

データセットの重複率

モデルのトレーニング時間

None

88.

データの散らばり具合を示す指標である「標準偏差」は、次のうちどのような意味を持ちますか？

データの平均値

データの中央値

データが平均からどれだけ離れているかを示す

データの最大値と最小値の差

None

89.

モデルのパフォーマンスを向上させるために、次元削減が必要な場合に使用される手法はどれですか？

ランダムフォレスト

PCA（主成分分析）

ロジスティック回帰

k-近傍法

None

90.

多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか？

各クラスのデータ量を均等にするため。

モデルが複雑な場合でも簡易な計算が可能になるため。

多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。

クラス間の相関を最大化するため。

None

91.

データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか？

データの精度を向上させる

データの欠損値を補完する

データを完全に削除する

データの次元数を減らし、計算コストを削減する

None

92.

データ加工において、「特徴量生成」が必要になる場面として最も適切なものは次のうちどれですか？

データ量が少なく、より多くの情報をモデルに提供したい場合。

外れ値を削除する必要がある場合。

カテゴリ変数を数値データに変換する場合。

欠損値を補完する必要がある場合。

None

93.

特徴量選択の手法として「逐次後退選択法（Backward Elimination）」を使用する利点は次のうちどれですか？

全ての特徴量を保持しながらモデルの精度を最大化できる

最も重要でない特徴量を順次削除し、最適な特徴量セットを見つけることができる

特徴量の数を増やすことでモデルの過学習を防ぐことができる

カテゴリカルデータを自動的に数値に変換できる

None

94.

データの説明において、偏りを防ぐために考慮すべき重要な要素は次のうちどれですか？

データが全体を代表するかどうかを確認する

データを無作為に削除する

データの一部のみを使用して説明する

主観的な意見を混ぜる

None

95.

「再現率」は何を示す指標ですか？

モデルが誤って予測したデータの割合

正解データのうち、モデルが正しく予測できた割合

モデルが正しく予測したデータのうち、最も重要なデータの比率

データを再利用できる能力

None

96.

データ共有プラットフォームで「データのインタープリタビリティ（相互運用性）」を確保するために必要なものは次のうちどれですか？

大規模なデータストレージ

データの暗号化アルゴリズム

データベースのスケーリング機能

標準化されたデータフォーマットとAPI

None

97.

モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか？

モデルの完全な再トレーニング

増分学習

モデルのパラメータ調整のみ

データの削除

None

98.

データ共有における「データカタログ」の主な機能は次のうちどれですか？

データを暗号化し、セキュリティを強化する

データの処理速度を最適化する

データベースのスケーリングを行う

データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする

None

99.

次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか？

説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる

データの分布が正規分布でなくなる

データの欠損値が増加する

外れ値の影響が強くなる

None

100.

モデルの評価指標として、精度（accuracy）以外にモデルの性能を評価するために適切な指標はどれですか？

AUC-ROC

平均二乗誤差（MSE）

p値

偏差

None

Time's up