DS検定~模擬試験④~ 2024年12月7日 ailearn 1. ある企業が売上データを報告する際、異なる地域の売上を地図上で視覚化しました。この場合、地図の使用による最大の利点は次のうちどれですか? 時系列トレンドを強調できる 売上の相関関係を数値で示せる 地域ごとの売上の地理的な分布を一目で把握できる 地域ごとの売上を均一に見せられる None 2. Lasso回帰におけるL1正則化の主な効果はどれですか? モデルの重みを全て大きくする モデルの重みを小さくして、特定の特徴量をゼロにする 特徴量の相関を強化する モデルの学習速度を遅くする None 3. モデル構築において、特徴量の「スケーリング」が必要となる理由は次のうちどれですか? モデルの学習速度を向上させるため。 特徴量間の相関を完全に排除するため。 すべてのモデルで絶対に必要な手順だから。 特徴量の単位やスケールが異なる場合に影響を均一化するため。 None 4. データの散らばり具合を示す指標である「標準偏差」は、次のうちどのような意味を持ちますか? データの平均値 データの中央値 データが平均からどれだけ離れているかを示す データの最大値と最小値の差 None 5. モデルのチューニングにおいて、ハイパーパラメータとは何を指しますか? モデルが予測に使用するデータのパラメータ モデルの学習過程で変更されないパラメータ モデルが生成する出力の精度を示すパラメータ モデルの評価に使用されるメトリクス None 6. 正規化の手法の一つである「最小-最大スケーリング(Min-Max Scaling)」の目的は何ですか? データの平均を0にする データの分布を正規分布に近づける データを指定した範囲にスケーリングする データを標準偏差1にする None 7. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 8. データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか? カイ二乗検定 ピアソンの相関係数 シャピロ・ウィルク検定 クラスタリング None 9. 特徴量選択の手法として「逐次後退選択法(Backward Elimination)」を使用する利点は次のうちどれですか? 全ての特徴量を保持しながらモデルの精度を最大化できる 最も重要でない特徴量を順次削除し、最適な特徴量セットを見つけることができる 特徴量の数を増やすことでモデルの過学習を防ぐことができる カテゴリカルデータを自動的に数値に変換できる None 10. データ共有の際に、「データの非対称暗号化」が採用される理由は次のうちどれですか? 全てのユーザーが同じ鍵を使用して、データを暗号化できるため データの送信者と受信者が異なる鍵を使用して、データの安全性を高めるため データのサイズを圧縮するため データのリアルタイム性を保証するため None 11. モデルのデプロイ後に重要なタスクはどれですか? モデルの予測結果を分析すること モデルの訓練データを増やすこと モデルの定期的な再学習とパフォーマンスの監視 モデルの複雑さを減らすこと None 12. モデルの性能を検証するために、データセットを訓練データとテストデータに分割する理由は何ですか? データ量を増やすため モデルが過学習しているかを評価するため データの正規性を確保するため 訓練データの分散を減らすため None 13. 欠損データの補完手法として「多重代入法(Multiple Imputation)」が有効な理由は次のうちどれですか? 複数の補完値を生成して欠損データを複数回補完し、不確実性を考慮できるため 補完値をランダムに生成して、不確実性を減少させるため データを完全に削除して、不確実性を排除するため 欠損データが存在しても、モデルの精度に影響しないため None 14. データ共有における「Data Lake」と「Data Warehouse」の主な違いは次のうちどれですか? Data Lakeはデータをリアルタイムで処理し、Data Warehouseはバッチ処理を行う Data Lakeは非構造化データを扱い、Data Warehouseは構造化データを扱う Data Lakeは小規模なデータを対象とし、Data Warehouseは大規模なデータを対象とする Data Lakeはトランザクションをサポートし、Data Warehouseはサポートしない None 15. あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか? データは正規分布している データは左に歪んでいる(左偏) データは右に歪んでいる(右偏) データは一様分布している None 16. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 17. データ共有において、「Snowflake」プラットフォームが支持される理由として最も適切なものは次のうちどれですか? データ共有が無料で行えるため。 セキュアかつシンプルにデータを他者と共有できるため。 データのスキーマを事前に固定する必要がないため。 クラウド以外の環境でも動作するため。 None 18. 次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか? 説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる データの分布が正規分布でなくなる データの欠損値が増加する 外れ値の影響が強くなる None 19. テキストデータの前処理において、「ステミング(Stemming)」とはどのような処理ですか? 単語のスペルミスを修正する処理 テキストを正規化する処理 文章を分割して単語ごとに分類する処理 単語の語幹を抽出し、派生形を統一する処理 None 20. 分析評価で使用される「A/Bテスト」の主な目的は次のうちどれですか? 2つの異なる手法やアプローチを比較し、どちらが効果的かを判断するため モデルの訓練データを増やすため データセットを分割してモデルを評価するため データの精度を向上させるため None 21. 非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか? 中央値 平均値 最頻値 標準偏差 None 22. データ加工で、「IQR(四分位範囲)」を用いて外れ値を検出する際の計算手順として正しいものは次のうちどれですか? データの平均値と標準偏差を求め、2倍の標準偏差を超えるデータを外れ値とみなす。 第1四分位数(Q1)と第3四分位数(Q3)を計算し、IQRの1.5倍範囲を超えるデータを外れ値とみなす。 データを正規化した後、0~1の範囲に収まらないデータを外れ値とみなす。 クラスタリングを実施し、どのクラスタにも属さないデータを外れ値とみなす。 None 23. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 24. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 25. アンサンブル学習の手法として、「ブースティング」と「バギング」の主な違いは次のうちどれですか? ブースティングは並列処理、バギングは逐次処理を行う。 ブースティングは弱学習器を直列的に学習させ、バギングは並列的に学習させる。 バギングはモデルのバイアスを低減し、ブースティングは分散を低減する。 ブースティングはランダム性を導入し、バギングは強いモデルを用いる。 None 26. クロス集計表を用いる主な目的は次のうちどれですか? 1つの変数の分布を見る 2つ以上のカテゴリ変数の関係性を把握する データの相関関係を確認する データの標準偏差を計算する None 27. ハイパーパラメータチューニングにおいて、「グリッドサーチ」が適用される主な目的は何ですか? モデルのトレーニングデータを増やすため モデルの精度を評価するため ハイパーパラメータの最適な組み合わせを探索するため テストデータを生成するため None 28. データ共有における「データ共有契約」の主な目的は次のうちどれですか? データの利用条件と責任範囲を明確にする データのファイル形式を定義する データベースのパフォーマンスを向上させる データのバックアップを行う None 29. 「データガバナンス」における主な目的は次のうちどれですか? データの圧縮を最適化し、保存容量を減らすこと データベースのクエリを最適化すること データの品質、整合性、安全性を確保し、適切に管理すること データのリアルタイム共有を実現すること None 30. データの異常値(外れ値)を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか? 平均値を明確に表示する データの相関を示す 時系列データを示す 外れ値を視覚的に確認できる None 31. 相関係数が正の値を示す場合、次のうちどの関係性があると考えられますか? 2つの変数が同じ方向に動く 2つの変数が逆方向に動く 2つの変数が無関係である 2つの変数が完全に独立している None 32. データを「説明する」ときに最も重要なポイントの1つは次のうちどれですか? データを使わず、主観的な意見を述べる データを細かく説明せずに要約を省く データの出典を示さない 結論に基づいた根拠をデータとして示す None 33. 予測モデルを本番環境にデプロイする際、APIの利用が推奨される理由は何ですか? モデルのスケーラビリティを向上させるため モデルの再学習が不要になるため モデルのパフォーマンスが向上するため モデルのパラメータを固定するため None 34. 決定木モデルにおいて「枝刈り(pruning)」を行う目的は何ですか? モデルの学習速度を向上させるため モデルの予測精度を高めるため モデルのサイズを小さくし、過学習を防ぐため モデルの出力を標準化するため None 35. 「ヒートマップ」は次のうちどの目的で使用されますか? データの相関関係を視覚的に示すため データの平均値を計算するため データの標準偏差を表示するため データを並び替えるため None 36. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 37. データ共有において、データの「レプリケーション」を行う目的は次のうちどれですか? データの圧縮率を向上させるため データの暗号化を強化するため データの可用性を高め、システム障害時にもデータアクセスを確保するため データのフォーマットを標準化するため None 38. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 39. モデルの評価指標として、精度(accuracy)以外にモデルの性能を評価するために適切な指標はどれですか? AUC-ROC 平均二乗誤差(MSE) p値 偏差 None 40. データ共有において、「メタデータ」の役割として正しいものはどれですか? データの内容や構造に関する情報を提供する データを暗号化する データの圧縮アルゴリズムを指定する データをリアルタイムで同期する None 41. モデルの「正則化(regularization)」とは何を指しますか? モデルの複雑さを増やして、精度を向上させる手法 モデルのパラメータを制約することで、過学習を防ぐ手法 モデルの学習速度を速める手法 データの分布を正規化する手法 None 42. 効果的なデータの説明における「データの可視化」の目的として正しいものは次のうちどれですか? データを視覚的にわかりやすく伝える データを簡単に削除するため データを正確に分析するため データを隠すため None 43. 「ピボットテーブル」を使うときの主な利点は次のうちどれですか? 大量のデータを効率的に集計・分析することができる データを削除することができる データを無作為に並び替えることができる データを視覚的に表示することができる None 44. モデルの定期的なメンテナンスが重要である理由として最も適切なのは次のうちどれですか? モデルのパフォーマンスが時間とともに低下する可能性があるため モデルの複雑さを常に増やすため モデルのハイパーパラメータを維持するため モデルがバイアスを持つことを防ぐため None 45. 「モデルのバイアス-バリアンストレードオフ」が示す課題は次のうちどれですか? 高精度なモデルを作るほどコストが増加する モデルがシンプルすぎると過学習が発生する モデルが複雑すぎると過学習が発生し、シンプルすぎると学習不足になる モデルが一度構築されると修正できない None 46. 分析結果の評価において最も重要な要素は次のうちどれですか? 結果が直感的にわかりやすいこと 分析が効率的に行われたかどうか 分析結果がビジネスの目的に一致していること 分析に使用したツールが最新であること None 47. データの共有において、データの完全性と機密性を保つために使用される技術は次のうちどれですか? 圧縮 暗号化 トークン化 フィルタリング None 48. データ加工における「ラグ特徴量(Lag Features)」とは、次のうちどれを意味しますか? 過去のデータを基に生成される新しい特徴量 特定の特徴量の欠損を補完するための手法 カテゴリデータを数値に変換するための手法 時系列データをリアルタイムで処理するためのアルゴリズム None 49. モデルの学習において、「早期終了(Early Stopping)」が適用される主な目的は次のうちどれですか? 学習データを効率的に使用するため。 モデルの過学習を防ぐため。 モデルの収束速度を向上させるため。 モデルのハイパーパラメータを自動調整するため。 None 50. 決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか? 標準偏差 相関係数 ジニ係数 決定係数 None 51. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 52. データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか? データの保存容量が制限されること データのセキュリティとプライバシーの確保が難しいこと データのバックアップが不要になること データの形式が変更されること None 53. 比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか? 円グラフ 散布図 棒グラフ ヒストグラム None 54. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 55. 時系列データの傾向を説明する際、移動平均を用いる主な目的は次のうちどれですか? 外れ値を完全に削除する データの変動を平滑化し、トレンドを明確にする 時系列データを一括で解析する データを異なるカテゴリに分割する None 56. モデルのフェアネス(公平性)を担保するために使用される評価手法はどれですか? AUC-ROC バイアス検出ツール クロスバリデーション 精度評価 None 57. モデルのデプロイ後に予測結果をリアルタイムで提供する際、必要とされる機能として最も適切なものは次のうちどれですか? バッチ処理機能 REST APIまたはgRPCの提供 モデルの再トレーニング機能 データ可視化ダッシュボード None 58. 精度と再現率を評価する際、精度とはどのような指標を示していますか? 予測が正しい割合 モデルが外れ値を除外する能力 予測モデルの処理速度 モデルが予測しなかったデータの比率 None 59. データ加工において、非線形な特徴量をモデルに取り入れるために一般的に使用される手法は次のうちどれですか? Zスコアを計算する ワンホットエンコーディングを行う 多項式特徴量(Polynomial Features)を作成する 正規化を行う None 60. クラウド環境において、異なるユーザー間でデータを共有する際に考慮すべき主要な課題は次のうちどれですか? データのサイズと圧縮 データのファイル形式 データの権限管理とアクセス制御 データの可視化方法 None 61. 「データ共有プラットフォーム」のスケーラビリティを向上させるために一般的に使用される手法は次のうちどれですか? クラウドストレージのキャッシュ 圧縮アルゴリズムの変更 マイクロサービスアーキテクチャ データのファイル形式を変更する None 62. 「リッジ回帰」がL2正則化を使用する主な理由は次のうちどれですか? モデルのパフォーマンスを向上させるため モデルのトレーニング速度を向上させるため モデルの評価基準を単純化するため モデルの過学習を防ぐためにパラメータを制約するため None 63. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 64. データを扱う際に重要な「分位点」とは何を意味しますか? データを特定の割合で区分した点 データの平均値 データの最大値と最小値の平均 データの標準偏差 None 65. データの欠損値(Missing Data)に対して、一般的に使用される処理方法として正しいものはどれですか? 平均値や中央値で補完する データ全体を削除する データを逆順に並び替える データをランダムに入れ替える None 66. データサイエンスにおいて、モデルを活用する際に最も重要なステップの一つは何ですか? モデルのトレーニング モデルのパラメータチューニング モデルのデプロイ モデルのハイパーパラメータ設定 None 67. デプロイされたモデルの性能を定期的に監視する理由は何ですか? モデルの予測が常に正確であることを確認するため モデルのパラメータを変更するため モデルのトレーニング時間を短縮するため データが変化したときにモデルが適応できるかを確認するため None 68. モデルの予測結果を解釈しやすくするための手法として適切なのはどれですか? 正則化 SHAP(Shapley Additive Explanations) グリッドサーチ 正規化 None 69. データの不均衡に対処するための「アンダーサンプリング」の主なデメリットは次のうちどれですか? データの一部を削除するため、重要な情報が失われるリスクがある データが増えることで処理時間が長くなる データの不均衡をさらに悪化させる可能性がある モデルの精度が低下する可能性がある None 70. クロスバリデーションの主な目的は何ですか? モデルの性能を評価し、過学習を防ぐこと モデルのパラメータ数を減らすこと モデルの複雑さを増やすこと モデルの学習速度を速めること None 71. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 72. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 73. モデルがデータの相関に基づいて誤った予測を行わないようにするためには、次のどの手法が有効ですか? クロスバリデーション 正則化 特徴選択 全て None 74. 勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか? 単一の高精度なモデルを作る データセット全体に対して1つのモデルを訓練する 各学習器が前の学習器の誤差を補正する 各学習器が独立して予測を行う None 75. データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか? 散布図 Q-Qプロット 棒グラフ 円グラフ None 76. サポートベクターマシン (SVM) では、カーネル関数を使用する主な理由は何ですか? 非線形なデータを高次元空間に写像し、線形分離可能にするため 訓練データを効率的に処理するため データのスケーリングを容易にするため 過学習を防ぐため None 77. データの代表値の一つである「中央値」はどのようなデータの特徴を表しますか? データの最頻値 データの平均値 データを大小順に並べたとき、中央に位置する値 データの最大値と最小値の差 None 78. モデルのパフォーマンスを評価するためにROC曲線を使用する主な目的は何ですか? モデルの予測値を確認するため モデルの複雑さを測定するため モデルがどのようにクラスを区別するかを評価するため モデルの正確な予測確率を示すため None 79. 大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか? データをシャッフルする データをソートする データの型を最適化する データを削除する None 80. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 81. データ加工において、「データの正規化(Normalization)」と「標準化(Standardization)」の主な違いとして正しいものは次のうちどれですか? 正規化はデータの平均を0にするが、標準化はしない。 正規化は欠損値を補完する手法で、標準化は特徴量のエンコーディングに使用される。 正規化は外れ値を削除するが、標準化は外れ値を無視する。 正規化はデータを0~1の範囲にスケーリングするが、標準化は分散を1にスケーリングする。 None 82. モデルを運用環境にデプロイする際に考慮すべき「レイテンシー」とは何ですか? モデルの予測精度 モデルの再トレーニングにかかる時間 モデルの応答速度 モデルの学習に必要なデータ量 None 83. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None 84. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None 85. モデルのパフォーマンスがデータの品質に依存している理由として最も適切なものは次のうちどれですか? データにノイズが含まれていると、モデルの学習が正確に行えないため データが大きいほどモデルの精度が高くなるため データが多いほど、モデルの複雑さを高めることができるため データを使用すれば、必ずモデルのパフォーマンスが向上するため None 86. モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか? モデルの完全な再トレーニング 増分学習 モデルのパラメータ調整のみ データの削除 None 87. モデルのフェアネス(公平性)を評価する際に使用される指標として適切なものは次のうちどれですか? 混同行列 クロスエントロピー デメトリックパリティ(Demographic Parity) 平均二乗誤差(MSE) None 88. 変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか? 散布図 中央値 ヒストグラム 因果推論モデル(Causal Inference Model) None 89. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 90. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 91. モデルのパフォーマンスを向上させるために、次元削減が必要な場合に使用される手法はどれですか? ランダムフォレスト PCA(主成分分析) ロジスティック回帰 k-近傍法 None 92. ビッグデータ解析において、非常に大量のデータから有用な情報を抽出するための技術として最も適切なものは次のうちどれですか? データサンプリング データマイニング データ可視化 データフィルタリング None 93. 分析評価において「A/Bテスト」を実施する際、最も重要な前提条件は次のうちどれですか? 対象群と実験群がランダムに分割されていること 全てのユーザーが同じテストに参加すること 実験終了後に全てのデータを削除すること テストの結果を公開しないこと None 94. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 95. 次のうち、データを説明する際に「ピボットテーブル」を使う主な利点は何ですか? データを無作為に並び替えることができる データの正確性を低下させる データの可視化を自動的に行う データを簡単に集計し、視覚的に示すことができる None 96. 「過学習(オーバーフィッティング)」を防ぐために、次のうちどの方法が適切ですか? データを増やすか、正則化を行う 訓練データのみを使用してモデルを評価する モデルの複雑さを高める テストデータを増やす None 97. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 98. データ共有において、「アクセストークン」が使用される主な理由は次のうちどれですか? データ共有を暗号化するため。 データ共有のトラフィックを最適化するため。 データへのアクセス権限を一時的に付与するため。 データ共有の速度を向上させるため。 None 99. モデルが本番環境で意図しないバイアスを持つ可能性を最小限に抑えるためには、次のどの手法が有効ですか? データの前処理のみを行う データのバランスを取る モデルの複雑さを増す モデルのハイパーパラメータを固定する None 100. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None Time's up