DS検定~模擬試験④~ 2024年12月7日 ailearn 1. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 2. データの標準化(Standardization)において、最も一般的に使用される手法は次のうちどれですか? ワンホットエンコーディング Zスコア変換 ターゲットエンコーディング ログ変換 None 3. アンサンブル学習の手法として、「ブースティング」と「バギング」の主な違いは次のうちどれですか? ブースティングは並列処理、バギングは逐次処理を行う。 ブースティングは弱学習器を直列的に学習させ、バギングは並列的に学習させる。 バギングはモデルのバイアスを低減し、ブースティングは分散を低減する。 ブースティングはランダム性を導入し、バギングは強いモデルを用いる。 None 4. モデルがデータの相関に基づいて誤った予測を行わないようにするためには、次のどの手法が有効ですか? クロスバリデーション 正則化 特徴選択 全て None 5. データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか? 単回帰分析 移動平均 ロジスティック回帰 相関分析 None 6. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 7. データの欠損値(Missing Data)に対して、一般的に使用される処理方法として正しいものはどれですか? 平均値や中央値で補完する データ全体を削除する データを逆順に並び替える データをランダムに入れ替える None 8. データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか? データの保存容量が制限されること データのセキュリティとプライバシーの確保が難しいこと データのバックアップが不要になること データの形式が変更されること None 9. モデルの予測結果を解釈しやすくするための手法として適切なのはどれですか? 正則化 SHAP(Shapley Additive Explanations) グリッドサーチ 正規化 None 10. データの異常値(外れ値)を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか? 平均値を明確に表示する データの相関を示す 時系列データを示す 外れ値を視覚的に確認できる None 11. モデルのデプロイ後に重要なタスクはどれですか? モデルの予測結果を分析すること モデルの訓練データを増やすこと モデルの定期的な再学習とパフォーマンスの監視 モデルの複雑さを減らすこと None 12. データ共有における「REST API」の特徴として正しいものは次のうちどれですか? HTTPプロトコルを使用して、ステートレスな通信を行う リアルタイムのデータ共有をサポートする 大量データのバッチ処理に特化している データを暗号化して転送する None 13. 次のうち、データを説明する際に「ピボットテーブル」を使う主な利点は何ですか? データを無作為に並び替えることができる データの正確性を低下させる データの可視化を自動的に行う データを簡単に集計し、視覚的に示すことができる None 14. あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか? データは正規分布している データは左に歪んでいる(左偏) データは右に歪んでいる(右偏) データは一様分布している None 15. 多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか? 各クラスのデータ量を均等にするため。 モデルが複雑な場合でも簡易な計算が可能になるため。 多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。 クラス間の相関を最大化するため。 None 16. 以下のPythonコードを使用して、「欠損値の補完」を実行する際に、fillna() の引数として適切な値を指定することで、各列の平均値で補完するコードとして正しいものは次のうちどれですか? import pandas as pddata = {'col1': [1, None, 3], 'col2': [4, 5, None]}df = pd.DataFrame(data)# 欠損値補完df_filled = df.fillna(_____) 0 df.median() df.mean() method='bfill' None 17. ハイパーパラメータチューニングにおいて、「グリッドサーチ」が適用される主な目的は何ですか? モデルのトレーニングデータを増やすため モデルの精度を評価するため ハイパーパラメータの最適な組み合わせを探索するため テストデータを生成するため None 18. モデルのデプロイ後に予測結果をリアルタイムで提供する際、必要とされる機能として最も適切なものは次のうちどれですか? バッチ処理機能 REST APIまたはgRPCの提供 モデルの再トレーニング機能 データ可視化ダッシュボード None 19. モデルを運用環境にデプロイする際に考慮すべき「レイテンシー」とは何ですか? モデルの予測精度 モデルの再トレーニングにかかる時間 モデルの応答速度 モデルの学習に必要なデータ量 None 20. データ共有における「Data Lake」と「Data Warehouse」の主な違いは次のうちどれですか? Data Lakeはデータをリアルタイムで処理し、Data Warehouseはバッチ処理を行う Data Lakeは非構造化データを扱い、Data Warehouseは構造化データを扱う Data Lakeは小規模なデータを対象とし、Data Warehouseは大規模なデータを対象とする Data Lakeはトランザクションをサポートし、Data Warehouseはサポートしない None 21. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 22. モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか? モデルの完全な再トレーニング 増分学習 モデルのパラメータ調整のみ データの削除 None 23. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 24. 分析評価のプロセスで「AUC(ROC曲線下の面積)」を使用する理由は次のうちどれですか? モデルの処理速度を測定するため データセットのサイズを確認するため モデルの再現率を最適化するため モデルが様々な閾値でどの程度正確に分類できるかを測定するため None 25. 欠損データが発生している場合、欠損の発生パターンに応じて適切な処理方法を選択することが重要ですが、データが「完全にランダムに欠損している」場合に適切な処理方法はどれですか? データを無作為に削除する 欠損部分を平均値で補完する 欠損部分を推測して補完する 欠損部分をそのまま残す None 26. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 27. 勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか? 単一の高精度なモデルを作る データセット全体に対して1つのモデルを訓練する 各学習器が前の学習器の誤差を補正する 各学習器が独立して予測を行う None 28. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None 29. データ加工において、「特徴量生成」が必要になる場面として最も適切なものは次のうちどれですか? データ量が少なく、より多くの情報をモデルに提供したい場合。 外れ値を削除する必要がある場合。 カテゴリ変数を数値データに変換する場合。 欠損値を補完する必要がある場合。 None 30. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 31. カテゴリ変数を数値に変換する際に、頻度ベースのエンコーディング手法を使用する利点は次のうちどれですか? 全てのカテゴリを独立したバイナリ変数に変換できる 変換後のデータがモデルに対して高い予測力を持つ可能性がある カテゴリ数が多くてもメモリ効率が良くなる カテゴリ変数を削除してデータセットを縮小できる None 32. 分析評価における「ヒストリカルバイアス」を排除するために有効な手法は次のうちどれですか? データ収集期間を見直し、最新のデータを優先する モデルのパラメータを変更する バイアスが含まれたデータをそのまま使用する データの分散を高める None 33. データ加工で、カテゴリ変数を数値データに変換する手法として正しいものはどれですか? 正規化 ワンホットエンコーディング 標準化 フィルタリング None 34. データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか? データポイントを増やす 移動平均線を追加してトレンドを明確化する 折れ線グラフを棒グラフに変更する グラフの色を変えることで視覚的にわかりやすくする None 35. モデルの利活用において、予測精度の評価に使われる指標の一つはどれですか? 平均二乗誤差 (MSE) パラメータ数 サンプル数 分散 None 36. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 37. 分析評価において、適合率(precision)を向上させるためには、次のどの要素に焦点を当てるべきですか? モデルが誤って予測する「偽陽性」を減らす モデルの計算速度を向上させる データセットを小さくする モデルの訓練時間を短縮する None 38. データ共有における「API」の役割として正しいものはどれですか? 異なるシステム間でデータをやり取りするためのインターフェース データを圧縮して送信する技術 データを暗号化して送信する技術 データの可視化を行う技術 None 39. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 40. データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか? 散布図 Q-Qプロット 棒グラフ 円グラフ None 41. データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか? データの精度を向上させる データの欠損値を補完する データを完全に削除する データの次元数を減らし、計算コストを削減する None 42. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 43. データサイエンスにおいて、モデルを活用する際に最も重要なステップの一つは何ですか? モデルのトレーニング モデルのパラメータチューニング モデルのデプロイ モデルのハイパーパラメータ設定 None 44. 相関関係を説明する際に使用される統計指標は次のうちどれですか? 中央値 相関係数 分散 四分位範囲 None 45. データ共有において、「アクセストークン」が使用される主な理由は次のうちどれですか? データ共有を暗号化するため。 データ共有のトラフィックを最適化するため。 データへのアクセス権限を一時的に付与するため。 データ共有の速度を向上させるため。 None 46. 「データ共有プラットフォーム」のスケーラビリティを向上させるために一般的に使用される手法は次のうちどれですか? クラウドストレージのキャッシュ 圧縮アルゴリズムの変更 マイクロサービスアーキテクチャ データのファイル形式を変更する None 47. ランダムフォレストはどのようにして過学習を防いでいますか? 少数の決定木を使用して、全てのデータを学習する 訓練データをシャッフルして多数の決定木を作成し、その平均を取る 1つの決定木を大きく成長させることで、データの特徴を完全に学習する 訓練データを正則化して、過学習を防ぐ None 48. 分析結果の評価において最も重要な要素は次のうちどれですか? 結果が直感的にわかりやすいこと 分析が効率的に行われたかどうか 分析結果がビジネスの目的に一致していること 分析に使用したツールが最新であること None 49. データ分析の評価指標として「R²(決定係数)」が示すものは次のうちどれですか? モデルの精度が100%に近いこと モデルがデータの変動をどれだけ説明できるか モデルがデータに過適合している割合 モデルのエラーを最小化するための方法 None 50. 大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか? データをシャッフルする データをソートする データの型を最適化する データを削除する None 51. クロスバリデーションの目的は次のうちどれですか? モデルの精度を最大化するために、データセット全体を使用する モデルの処理速度を向上させるため モデルの汎化性能を評価するために、異なるデータセットでモデルを検証する データの前処理を自動化するため None 52. データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか? 平均値を強調する 外れ値を無視する 箱ひげ図を使って外れ値を視覚的に示す 外れ値を削除して説明する None 53. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 54. データ加工で、「IQR(四分位範囲)」を用いて外れ値を検出する際の計算手順として正しいものは次のうちどれですか? データの平均値と標準偏差を求め、2倍の標準偏差を超えるデータを外れ値とみなす。 第1四分位数(Q1)と第3四分位数(Q3)を計算し、IQRの1.5倍範囲を超えるデータを外れ値とみなす。 データを正規化した後、0~1の範囲に収まらないデータを外れ値とみなす。 クラスタリングを実施し、どのクラスタにも属さないデータを外れ値とみなす。 None 55. 時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか? 折れ線グラフ 散布図 棒グラフ 円グラフ None 56. 比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか? 円グラフ 散布図 棒グラフ ヒストグラム None 57. 分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか? データセットを無作為に分割して評価する モデルの出力だけを比較する 全てのデータを削除して再収集する データ収集時点での条件を再確認する None 58. 「過学習(オーバーフィッティング)」を防ぐために、次のうちどの方法が適切ですか? データを増やすか、正則化を行う 訓練データのみを使用してモデルを評価する モデルの複雑さを高める テストデータを増やす None 59. データを説明する際に、棒グラフを選択する最も適切な状況は次のうちどれですか? カテゴリごとの比較を行いたい場合 時系列データの変化を表現したい場合 変数間の相関を示したい場合 データの分布を示したい場合 None 60. モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか? モデルのバイアスとバリアンスのバランスを取ること モデルの計算速度と精度のバランスを取ること データのサイズとモデルの複雑さを調整すること データの分散を減らすための手法 None 61. データを説明する際に「ヒートマップ」を使用する主な目的は次のうちどれですか? 時系列データの変化を示す 2次元データのパターンや相関を視覚化する カテゴリデータの分布を示す 外れ値を特定する None 62. データ分析でよく使用される「分散分析(ANOVA)」の目的は何ですか? 単一のグループの中央値を求める 2つの変数間の相関を確認する データの時系列分析を行う 複数のグループの平均値の差が有意かどうかを確認する None 63. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 64. データの不均衡を解消するために、「オーバーサンプリング」を行う利点は次のうちどれですか? 少数クラスのデータを増やすことで、クラスのバランスを保つことができる データの精度を向上させるため データセット全体のサイズを減少させるため カテゴリデータを自動的に数値に変換できるため None 65. 時系列データにおける「移動平均(Moving Average)」の主な目的は次のうちどれですか? データの欠損値を補完する データの分布を正規化する データのノイズを除去し、トレンドを明確にする データをランダムにシャッフルする None 66. データの不均衡に対処するための「アンダーサンプリング」の主なデメリットは次のうちどれですか? データの一部を削除するため、重要な情報が失われるリスクがある データが増えることで処理時間が長くなる データの不均衡をさらに悪化させる可能性がある モデルの精度が低下する可能性がある None 67. 分析評価で使用される「A/Bテスト」の主な目的は次のうちどれですか? 2つの異なる手法やアプローチを比較し、どちらが効果的かを判断するため モデルの訓練データを増やすため データセットを分割してモデルを評価するため データの精度を向上させるため None 68. 「データガバナンス」における主な目的は次のうちどれですか? データの圧縮を最適化し、保存容量を減らすこと データベースのクエリを最適化すること データの品質、整合性、安全性を確保し、適切に管理すること データのリアルタイム共有を実現すること None 69. ロジスティック回帰モデルは、どのようなタイプのデータに対して使用されますか? 連続値データの予測 二値分類問題 多値分類問題 非線形データの予測 None 70. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 71. データ共有プラットフォームで「データのインタープリタビリティ(相互運用性)」を確保するために必要なものは次のうちどれですか? 大規模なデータストレージ データの暗号化アルゴリズム データベースのスケーリング機能 標準化されたデータフォーマットとAPI None 72. 欠損データの補完手法として「多重代入法(Multiple Imputation)」が有効な理由は次のうちどれですか? 複数の補完値を生成して欠損データを複数回補完し、不確実性を考慮できるため 補完値をランダムに生成して、不確実性を減少させるため データを完全に削除して、不確実性を排除するため 欠損データが存在しても、モデルの精度に影響しないため None 73. データの標準化と正規化の違いとして、正しい説明は次のうちどれですか? 標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする 標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される 標準化と正規化は同じ操作を指す 標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする None 74. 効果的なデータの説明における「データの可視化」の目的として正しいものは次のうちどれですか? データを視覚的にわかりやすく伝える データを簡単に削除するため データを正確に分析するため データを隠すため None 75. データ共有において、ファイルベースの共有よりも「データベースを介した共有」が推奨される理由は次のうちどれですか? データのサイズを圧縮できるため データの更新や検索が効率的に行えるため データの共有が容易に行えるため データの形式が自動的に標準化されるため None 76. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 77. クロス集計表を用いる主な目的は次のうちどれですか? 1つの変数の分布を見る 2つ以上のカテゴリ変数の関係性を把握する データの相関関係を確認する データの標準偏差を計算する None 78. 複数の要因が結果にどのように影響しているかを説明する際、最も適切な分析手法は次のうちどれですか? 単回帰分析 分散分析(ANOVA) クロス集計 ヒストグラム None 79. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 80. データ分析において「外れ値」の影響を軽減するための一般的な手法として最も適切なものは次のうちどれですか? ロバストな統計手法(例えば、中央値や四分位範囲)を使用する 外れ値を無視する 外れ値を平均値で補完する 外れ値をそのまま残す None 81. 特徴量選択の手法として「逐次後退選択法(Backward Elimination)」を使用する利点は次のうちどれですか? 全ての特徴量を保持しながらモデルの精度を最大化できる 最も重要でない特徴量を順次削除し、最適な特徴量セットを見つけることができる 特徴量の数を増やすことでモデルの過学習を防ぐことができる カテゴリカルデータを自動的に数値に変換できる None 82. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 83. データ共有において、データの「レプリケーション」を行う目的は次のうちどれですか? データの圧縮率を向上させるため データの暗号化を強化するため データの可用性を高め、システム障害時にもデータアクセスを確保するため データのフォーマットを標準化するため None 84. 分析評価において、モデルの「過適合(オーバーフィッティング)」を軽減するために効果的な手法は次のうちどれですか? ドロップアウトやL2正則化を導入する モデルの複雑さを増やす 訓練データを削減する 精度を向上させるためにすべてのデータを使用する None 85. 「ヒートマップ」は次のうちどの目的で使用されますか? データの相関関係を視覚的に示すため データの平均値を計算するため データの標準偏差を表示するため データを並び替えるため None 86. Lasso回帰におけるL1正則化の主な効果はどれですか? モデルの重みを全て大きくする モデルの重みを小さくして、特定の特徴量をゼロにする 特徴量の相関を強化する モデルの学習速度を遅くする None 87. モデルの公平性を確保するために行うべきアプローチとして最も適切なものは次のうちどれですか? 学習データセットに存在するバイアスを削除または調整する。 学習データセットをランダムに選択して再トレーニングする。 モデルの精度が最大化するようにハイパーパラメータを調整する。 モデルの予測を一部修正する手動プロセスを追加する。 None 88. モデルの汎化性能を評価するために行う手法の一つはどれですか? 正則化 モデルの再トレーニング クロスバリデーション モデルの複雑化 None 89. データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか? カイ二乗検定 ピアソンの相関係数 シャピロ・ウィルク検定 クラスタリング None 90. あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか? ヒストグラム 散布図 箱ひげ図 円グラフ None 91. 大規模データセットにおいて、相関関係が高いとされる2つの変数が実際には因果関係を持たないことを示す概念は何ですか? 分散分析 決定係数 標準偏差 偽相関 None 92. モデルの評価指標として、精度(accuracy)以外にモデルの性能を評価するために適切な指標はどれですか? AUC-ROC 平均二乗誤差(MSE) p値 偏差 None 93. モデルの「正則化(regularization)」とは何を指しますか? モデルの複雑さを増やして、精度を向上させる手法 モデルのパラメータを制約することで、過学習を防ぐ手法 モデルの学習速度を速める手法 データの分布を正規化する手法 None 94. モデルのフェアネス(公平性)を担保するために使用される評価手法はどれですか? AUC-ROC バイアス検出ツール クロスバリデーション 精度評価 None 95. モデルが本番環境で意図しないバイアスを持つ可能性を最小限に抑えるためには、次のどの手法が有効ですか? データの前処理のみを行う データのバランスを取る モデルの複雑さを増す モデルのハイパーパラメータを固定する None 96. データ加工において、非線形な特徴量をモデルに取り入れるために一般的に使用される手法は次のうちどれですか? Zスコアを計算する ワンホットエンコーディングを行う 多項式特徴量(Polynomial Features)を作成する 正規化を行う None 97. 正規化の手法の一つである「最小-最大スケーリング(Min-Max Scaling)」の目的は何ですか? データの平均を0にする データの分布を正規分布に近づける データを指定した範囲にスケーリングする データを標準偏差1にする None 98. データ共有において、「Snowflake」プラットフォームが支持される理由として最も適切なものは次のうちどれですか? データ共有が無料で行えるため。 セキュアかつシンプルにデータを他者と共有できるため。 データのスキーマを事前に固定する必要がないため。 クラウド以外の環境でも動作するため。 None 99. ある企業が売上データを報告する際、異なる地域の売上を地図上で視覚化しました。この場合、地図の使用による最大の利点は次のうちどれですか? 時系列トレンドを強調できる 売上の相関関係を数値で示せる 地域ごとの売上の地理的な分布を一目で把握できる 地域ごとの売上を均一に見せられる None 100. 分析評価における「ベイズ最適化」の利点として最も適切なものは次のうちどれですか? 全てのパラメータの組み合わせを網羅的に探索するため 少ない試行回数で最適なハイパーパラメータを見つけるため モデルの精度を向上させるためのデフォルト手法であるため 決定木に特化しているため None Time's up