DS検定-データサイエンス力(データ準備)-

カテゴリカルデータの頻度分布を視覚化する際に最も適したグラフはどれですか？

散布図

ヒストグラム

棒グラフ

箱ひげ図

欠損値がMCAR（Missing Completely at Random）ではなくMAR（Missing at Random）の場合に推奨される欠損値処理方法は次のうちどれですか？

欠損値を無視して分析を続ける。

欠損値を平均値で補完する。

欠損値の補完に予測モデルを使用する。

欠損データを全て削除する。

One-Hot Encodingを使用した場合に、次元数が増加しすぎる（次元の呪い）を防ぐための対策として適切なものは次のうちどれですか？

高頻度カテゴリのみをエンコードする。

カテゴリを数値化し、そのまま使用する。

標準化を適用して次元を削減する。

主成分分析（PCA）を適用して次元削減を行う。

データの正規化の目的は何ですか？

データのばらつきを減らす

データを一定の範囲にスケールする

データの外れ値を除外する

データの欠損値を補完する

時系列データの自己相関を考慮したモデルを構築する際に使用される適切な手法は次のうちどれですか？

ARIMAモデル

ロジスティック回帰

k-近傍法

主成分分析 (PCA)

データのバイアスを取り除くための適切な手法は次のうちどれですか？

標準化

無作為抽出

欠損値補完

正規化

欠損データの削除を行う際に、重要な注意点は次のうちどれですか？

削除されたデータが分析結果に与える影響を考慮する

欠損データの量にかかわらず、全て削除する

欠損値をランダムに削除する

欠損データが少ない場合でも多重代入法を使用する

カテゴリカルデータが高次元になる問題（次元の呪い）に対処するために推奨される手法はどれですか？

PCAを使用して次元削減を行う

One-hotエンコーディングを使用する

ラベルエンコーディングを使用する

特徴選択を行う

データの標準化と正規化の違いとして正しいものはどれですか？

標準化はデータの分布を均一化し、正規化はデータを特定の範囲にスケーリングする

標準化は欠損値を補完し、正規化は外れ値を除外する

標準化はデータを整数に変換し、正規化は分散を一定にする

標準化と正規化は同じ意味で使用される

10.

欠損データを補完するための「多重代入法（Multiple Imputation）」の主な利点として正しいものは次のうちどれですか？

欠損値を平均値で簡単に補完できる。

欠損データの影響を無視するモデルを作成できる。

欠損データに関する不確実性を考慮できる。

欠損データの除外を容易にする。

11.

トレーニングデータとテストデータをランダムに分割する際、データが時間依存性を持つ場合に最も注意すべき点は次のうちどれですか？

分割比率を一定に保つ。

時系列順を考慮して分割する。

カテゴリカルデータをエンコードしてから分割する。

分割後にデータをシャッフルする。

12.

外れ値が多く含まれるデータセットを扱う際、最も適切な手法は次のうちどれですか？

外れ値を全て削除する

外れ値を中央値で補完する

外れ値に対してロバストな手法を使用する

外れ値を全て0にする

13.

データの欠損が「MCAR」（Missing Completely at Random）である場合、どのような仮定が成り立ちますか？

欠損データは他の観測データと無関係に発生している

欠損データは特定の変数の値に依存して発生している

欠損データは外れ値によって発生している

欠損データは観測データ全体の分布に依存している

14.

時系列データの分析において、データのトレンドを除去するための手法はどれですか？

データの標準化

移動平均法

クラスタリング

カイ二乗検定

15.

データ準備において、データ型の整備を行う主な理由として最も適切なものは次のうちどれですか？

データのメモリ使用量を削減するため。

モデルがデータを正しく処理するため。

データの視覚化が不要になるため。

欠損値を補完するため。

16.

大規模な欠損値を含むデータセットに対して、単純な平均補完では不十分な場合に推奨される手法は何ですか？

k-近傍補完 (k-NN Imputation)

平均補完

欠損データの削除

モード補完

17.

データの欠損が発生した場合の一般的な対処方法として正しいものはどれですか？

欠損値をそのまま使用する

欠損値を平均値で補完する

欠損値を全て0にする

欠損値を削除する

18.

データの標準化を行う際、標準偏差が0に近い場合、次のうちどの問題が発生しますか？

外れ値が検出されない

データがスケーリングされない

分散がゼロとなり、標準化できない

平均値が歪む

19.

データの分散を最大限に保ちながら次元削減を行う手法は次のうちどれですか？

t-SNE

階層的クラスタリング

ランダムフォレスト

主成分分析 (PCA)

20.

次のうち、データのスケーリングを行う方法として正しいものはどれですか？

データの最小値と最大値を使用してスケーリングする

データの中央値を使用してスケーリングする

データの範囲を倍にする

データの外れ値を除去する

21.

ラベルエンコーディングを使用する場合、どのような問題が発生する可能性がありますか？

カテゴリ間に序列が生じてしまう

外れ値が増加する

データの次元が増加する

欠損値が生じる

22.

カテゴリカルデータを機械学習モデルに使用するための一般的な手法はどれですか？

平均値で補完する

標準化する

One-hotエンコーディングを使用する

中央値で補完する

23.

大規模データセットのサンプリングを行う際に、サンプリングバイアスを防ぐために重要な手法はどれですか？

系統抽出

ランダムフォレストを使用する

クロスバリデーション

無作為抽出

24.

カテゴリカルデータをエンコードする際、One-hotエンコーディングを使用する理由は何ですか？

カテゴリ間に序列がある場合のエンコードが容易であるため

カテゴリカルデータが数値データとして扱われるようになるため

カテゴリカルデータ間に意味のない序列が生じるのを防ぐため

カテゴリカルデータの次元が増加しないため

25.

データの「IQR（四分位範囲）」を用いて外れ値を検出する際、一般的に使用される閾値は次のうちどれですか？

1.0倍

1.5倍

2.0倍

3.0倍

26.

データの分布が正規分布に従っているかどうかを検証する手法は次のうちどれですか？

t検定

カイ二乗検定

シャピロ・ウィルク検定

分散分析