DS検定~模擬試験④~ 2024年12月7日 ailearn 1. クロスバリデーションの目的は次のうちどれですか? モデルの精度を最大化するために、データセット全体を使用する モデルの処理速度を向上させるため モデルの汎化性能を評価するために、異なるデータセットでモデルを検証する データの前処理を自動化するため None 2. データ共有における「API」の役割として正しいものはどれですか? 異なるシステム間でデータをやり取りするためのインターフェース データを圧縮して送信する技術 データを暗号化して送信する技術 データの可視化を行う技術 None 3. 相関係数が正の値を示す場合、次のうちどの関係性があると考えられますか? 2つの変数が同じ方向に動く 2つの変数が逆方向に動く 2つの変数が無関係である 2つの変数が完全に独立している None 4. あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか? データは正規分布している データは左に歪んでいる(左偏) データは右に歪んでいる(右偏) データは一様分布している None 5. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 6. 欠損データが発生している場合、欠損の発生パターンに応じて適切な処理方法を選択することが重要ですが、データが「完全にランダムに欠損している」場合に適切な処理方法はどれですか? データを無作為に削除する 欠損部分を平均値で補完する 欠損部分を推測して補完する 欠損部分をそのまま残す None 7. 時系列データのモデル化において、「自己回帰(AR)」モデルが前提とする条件として正しいものは次のうちどれですか? データが定常過程であること。 データが一定の周期性を持つこと。 データが単調増加または単調減少すること。 データが高次元であること。 None 8. 時系列データの傾向を説明する際、移動平均を用いる主な目的は次のうちどれですか? 外れ値を完全に削除する データの変動を平滑化し、トレンドを明確にする 時系列データを一括で解析する データを異なるカテゴリに分割する None 9. モデル評価において「リコール(再現率)」が低い場合に考えられる影響として最も適切なものは次のうちどれですか? 誤検知(False Positives)が増加する モデルの計算速度が遅くなる 重要な事例を見逃す可能性が高くなる モデルが適合しすぎる None 10. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 11. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 12. データの分布を把握するために、累積度数分布(CDF)を使用する場合、その主な利点として最も適切なものは次のうちどれですか? データの中央値を直感的に理解できる データの値が特定の範囲に収まる割合を確認できる データ間の相関関係を視覚化できる データの分散を計算できる None 13. データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか? データポイントを増やす 移動平均線を追加してトレンドを明確化する 折れ線グラフを棒グラフに変更する グラフの色を変えることで視覚的にわかりやすくする None 14. モデルのチューニングにおいて、ハイパーパラメータとは何を指しますか? モデルが予測に使用するデータのパラメータ モデルの学習過程で変更されないパラメータ モデルが生成する出力の精度を示すパラメータ モデルの評価に使用されるメトリクス None 15. 時系列データにおける「移動平均(Moving Average)」の主な目的は次のうちどれですか? データの欠損値を補完する データの分布を正規化する データのノイズを除去し、トレンドを明確にする データをランダムにシャッフルする None 16. Lasso回帰におけるL1正則化の主な効果はどれですか? モデルの重みを全て大きくする モデルの重みを小さくして、特定の特徴量をゼロにする 特徴量の相関を強化する モデルの学習速度を遅くする None 17. モデルの利活用において、バイアスとバリアンスのトレードオフはどのように関連していますか? バイアスが高いほど、モデルの複雑さが増す バリアンスが高いほど、モデルは過学習しやすくなる バリアンスが低いほど、モデルは過学習しやすくなる バイアスが高いほど、モデルの精度が上がる None 18. データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか? カイ二乗検定 ピアソンの相関係数 シャピロ・ウィルク検定 クラスタリング None 19. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 20. 次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか? 説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる データの分布が正規分布でなくなる データの欠損値が増加する 外れ値の影響が強くなる None 21. モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか? モデルのバイアスとバリアンスのバランスを取ること モデルの計算速度と精度のバランスを取ること データのサイズとモデルの複雑さを調整すること データの分散を減らすための手法 None 22. モデルの性能を検証するために、データセットを訓練データとテストデータに分割する理由は何ですか? データ量を増やすため モデルが過学習しているかを評価するため データの正規性を確保するため 訓練データの分散を減らすため None 23. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 24. 分析評価において、モデルの「過適合(オーバーフィッティング)」を軽減するために効果的な手法は次のうちどれですか? ドロップアウトやL2正則化を導入する モデルの複雑さを増やす 訓練データを削減する 精度を向上させるためにすべてのデータを使用する None 25. 大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか? データをシャッフルする データをソートする データの型を最適化する データを削除する None 26. 多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか? 各クラスのデータ量を均等にするため。 モデルが複雑な場合でも簡易な計算が可能になるため。 多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。 クラス間の相関を最大化するため。 None 27. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 28. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 29. データ共有において、「メタデータ」の役割として正しいものはどれですか? データの内容や構造に関する情報を提供する データを暗号化する データの圧縮アルゴリズムを指定する データをリアルタイムで同期する None 30. 分析結果の評価において最も重要な要素は次のうちどれですか? 結果が直感的にわかりやすいこと 分析が効率的に行われたかどうか 分析結果がビジネスの目的に一致していること 分析に使用したツールが最新であること None 31. クラウド環境において、異なるユーザー間でデータを共有する際に考慮すべき主要な課題は次のうちどれですか? データのサイズと圧縮 データのファイル形式 データの権限管理とアクセス制御 データの可視化方法 None 32. カテゴリ変数を数値に変換する際に、頻度ベースのエンコーディング手法を使用する利点は次のうちどれですか? 全てのカテゴリを独立したバイナリ変数に変換できる 変換後のデータがモデルに対して高い予測力を持つ可能性がある カテゴリ数が多くてもメモリ効率が良くなる カテゴリ変数を削除してデータセットを縮小できる None 33. データ加工において、「データの正規化(Normalization)」と「標準化(Standardization)」の主な違いとして正しいものは次のうちどれですか? 正規化はデータの平均を0にするが、標準化はしない。 正規化は欠損値を補完する手法で、標準化は特徴量のエンコーディングに使用される。 正規化は外れ値を削除するが、標準化は外れ値を無視する。 正規化はデータを0~1の範囲にスケーリングするが、標準化は分散を1にスケーリングする。 None 34. ビッグデータ解析において、非常に大量のデータから有用な情報を抽出するための技術として最も適切なものは次のうちどれですか? データサンプリング データマイニング データ可視化 データフィルタリング None 35. 決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか? 標準偏差 相関係数 ジニ係数 決定係数 None 36. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 37. 「データガバナンス」における主な目的は次のうちどれですか? データの圧縮を最適化し、保存容量を減らすこと データベースのクエリを最適化すること データの品質、整合性、安全性を確保し、適切に管理すること データのリアルタイム共有を実現すること None 38. アンサンブル学習の手法として、「ブースティング」と「バギング」の主な違いは次のうちどれですか? ブースティングは並列処理、バギングは逐次処理を行う。 ブースティングは弱学習器を直列的に学習させ、バギングは並列的に学習させる。 バギングはモデルのバイアスを低減し、ブースティングは分散を低減する。 ブースティングはランダム性を導入し、バギングは強いモデルを用いる。 None 39. 相関関係を説明する際に使用される統計指標は次のうちどれですか? 中央値 相関係数 分散 四分位範囲 None 40. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 41. データ加工において、「特徴量生成」が必要になる場面として最も適切なものは次のうちどれですか? データ量が少なく、より多くの情報をモデルに提供したい場合。 外れ値を削除する必要がある場合。 カテゴリ変数を数値データに変換する場合。 欠損値を補完する必要がある場合。 None 42. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 43. データを説明する際、適切なグラフの軸設定に関する最も重要な注意点は次のうちどれですか? グラフの軸を省略することで見た目を簡潔にする 必ず軸の範囲を0から開始する データの特徴に応じて軸の範囲を適切に設定する 軸の範囲を最大値以上に設定する None 44. 「過学習(オーバーフィッティング)」を防ぐために、次のうちどの方法が適切ですか? データを増やすか、正則化を行う 訓練データのみを使用してモデルを評価する モデルの複雑さを高める テストデータを増やす None 45. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 46. 「ファイル共有サービス」で一般的に使用されるプロトコルは次のうちどれですか? SMTP FTP IMAP HTTP/2 None 47. 多クラス分類問題における評価指標として適切なものは次のどれですか? 精度 平均二乗誤差(MSE) 決定係数 マクロ平均F1スコア None 48. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None 49. データの散らばり具合を示す指標である「標準偏差」は、次のうちどのような意味を持ちますか? データの平均値 データの中央値 データが平均からどれだけ離れているかを示す データの最大値と最小値の差 None 50. モデルのフェアネス(公平性)を担保するために使用される評価手法はどれですか? AUC-ROC バイアス検出ツール クロスバリデーション 精度評価 None 51. クロスバリデーションの主な目的は何ですか? モデルの性能を評価し、過学習を防ぐこと モデルのパラメータ数を減らすこと モデルの複雑さを増やすこと モデルの学習速度を速めること None 52. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 53. データの標準化(Standardization)において、最も一般的に使用される手法は次のうちどれですか? ワンホットエンコーディング Zスコア変換 ターゲットエンコーディング ログ変換 None 54. データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか? データの保存容量が制限されること データのセキュリティとプライバシーの確保が難しいこと データのバックアップが不要になること データの形式が変更されること None 55. データ共有における「データ共有契約」の主な目的は次のうちどれですか? データの利用条件と責任範囲を明確にする データのファイル形式を定義する データベースのパフォーマンスを向上させる データのバックアップを行う None 56. 効果的なデータの説明における「データの可視化」の目的として正しいものは次のうちどれですか? データを視覚的にわかりやすく伝える データを簡単に削除するため データを正確に分析するため データを隠すため None 57. データの不均衡に対処するための「アンダーサンプリング」の主なデメリットは次のうちどれですか? データの一部を削除するため、重要な情報が失われるリスクがある データが増えることで処理時間が長くなる データの不均衡をさらに悪化させる可能性がある モデルの精度が低下する可能性がある None 58. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 59. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 60. データの標準化と正規化の違いとして、正しい説明は次のうちどれですか? 標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする 標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される 標準化と正規化は同じ操作を指す 標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする None 61. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None 62. 比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか? 円グラフ 散布図 棒グラフ ヒストグラム None 63. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 64. モデルの定期的なメンテナンスが重要である理由として最も適切なのは次のうちどれですか? モデルのパフォーマンスが時間とともに低下する可能性があるため モデルの複雑さを常に増やすため モデルのハイパーパラメータを維持するため モデルがバイアスを持つことを防ぐため None 65. データ共有プラットフォームで「マルチテナントアーキテクチャ」が使用される理由は次のうちどれですか? 複数のユーザーが同一のシステムを共有しながらも、データを分離して管理できるため データの暗号化を自動的に行うため データの圧縮を効率化するため データベースのクエリを高速化するため None 66. 分析評価のプロセスで「AUC(ROC曲線下の面積)」を使用する理由は次のうちどれですか? モデルの処理速度を測定するため データセットのサイズを確認するため モデルの再現率を最適化するため モデルが様々な閾値でどの程度正確に分類できるかを測定するため None 67. モデルのフェアネス(公平性)を評価する際に使用される指標として適切なものは次のうちどれですか? 混同行列 クロスエントロピー デメトリックパリティ(Demographic Parity) 平均二乗誤差(MSE) None 68. データの欠損値(Missing Data)に対して、一般的に使用される処理方法として正しいものはどれですか? 平均値や中央値で補完する データ全体を削除する データを逆順に並び替える データをランダムに入れ替える None 69. テキストデータの前処理において、「ステミング(Stemming)」とはどのような処理ですか? 単語のスペルミスを修正する処理 テキストを正規化する処理 文章を分割して単語ごとに分類する処理 単語の語幹を抽出し、派生形を統一する処理 None 70. モデルが本番環境で意図しないバイアスを持つ可能性を最小限に抑えるためには、次のどの手法が有効ですか? データの前処理のみを行う データのバランスを取る モデルの複雑さを増す モデルのハイパーパラメータを固定する None 71. デプロイされたモデルの性能を定期的に監視する理由は何ですか? モデルの予測が常に正確であることを確認するため モデルのパラメータを変更するため モデルのトレーニング時間を短縮するため データが変化したときにモデルが適応できるかを確認するため None 72. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 73. 非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか? 中央値 平均値 最頻値 標準偏差 None 74. データの分布が正規分布であるかどうかを視覚的に確認するために最も適切な方法は次のうちどれですか? ヒストグラムを作成して分布を観察する 相関係数を計算する 箱ひげ図を使用する 散布図を作成する None 75. ヒストグラムの役割として正しいものは次のうちどれですか? データの平均値を求めるため データの散らばり具合を視覚的に示すため データの因果関係を示すため データの時系列変化を示すため None 76. データを説明する際に「ヒートマップ」を使用する主な目的は次のうちどれですか? 時系列データの変化を示す 2次元データのパターンや相関を視覚化する カテゴリデータの分布を示す 外れ値を特定する None 77. データ共有において、「データレイク」の設計時に最も注意すべき課題は次のうちどれですか? データの検索性と品質を確保すること データの容量を最小化すること データのスキーマを事前に固定すること データの形式をCSVに統一すること None 78. データサイエンスにおいて、モデルを活用する際に最も重要なステップの一つは何ですか? モデルのトレーニング モデルのパラメータチューニング モデルのデプロイ モデルのハイパーパラメータ設定 None 79. 変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか? 散布図 中央値 ヒストグラム 因果推論モデル(Causal Inference Model) None 80. データが不均衡である場合にモデル評価の指標として推奨されるのは次のうちどれですか? 精度 AUC-ROC 平均二乗誤差 F1スコア None 81. 「データ共有プラットフォーム」のスケーラビリティを向上させるために一般的に使用される手法は次のうちどれですか? クラウドストレージのキャッシュ 圧縮アルゴリズムの変更 マイクロサービスアーキテクチャ データのファイル形式を変更する None 82. モデルの精度を向上させるために、次のどの手法が有効ですか? データのクリーニング モデルの複雑さを増やす 訓練データを減らす ハイパーパラメータの固定 None 83. 欠損値が多く存在するデータに対して、モデル化を行う前に推奨される処理方法は次のどれですか? 欠損値の削除 多重代入法 平均補完 ラベルエンコーディング None 84. 相関関係を持つ2つの変数間の因果関係を説明する際に避けるべきことは次のうちどれですか? 相関関係を強調する グラフを使用して視覚的に説明する 相関係数を用いる 因果関係がない場合も因果関係があると主張する None 85. ハイパーパラメータチューニングにおいて、「グリッドサーチ」が適用される主な目的は何ですか? モデルのトレーニングデータを増やすため モデルの精度を評価するため ハイパーパラメータの最適な組み合わせを探索するため テストデータを生成するため None 86. 「主成分分析(PCA)」の主な目的は次のうちどれですか? データの平均値を求める データの相関関係を調べる データの欠損値を補完する データの次元を削減し、主要な特徴を抽出する None 87. データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか? 単回帰分析 移動平均 ロジスティック回帰 相関分析 None 88. あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか? ヒストグラム 散布図 箱ひげ図 円グラフ None 89. モデル構築において、特徴量の「スケーリング」が必要となる理由は次のうちどれですか? モデルの学習速度を向上させるため。 特徴量間の相関を完全に排除するため。 すべてのモデルで絶対に必要な手順だから。 特徴量の単位やスケールが異なる場合に影響を均一化するため。 None 90. ロジスティック回帰モデルは、どのようなタイプのデータに対して使用されますか? 連続値データの予測 二値分類問題 多値分類問題 非線形データの予測 None 91. 特徴量選択の手法として「逐次後退選択法(Backward Elimination)」を使用する利点は次のうちどれですか? 全ての特徴量を保持しながらモデルの精度を最大化できる 最も重要でない特徴量を順次削除し、最適な特徴量セットを見つけることができる 特徴量の数を増やすことでモデルの過学習を防ぐことができる カテゴリカルデータを自動的に数値に変換できる None 92. 「ハイパーパラメータのチューニング」において「ランダムサーチ」の利点は次のうちどれですか? すべてのハイパーパラメータの組み合わせを試すことができる グリッドサーチに比べて計算コストを抑えながら、広範な探索ができる 決定木モデルに特化したチューニング方法である データセット全体を使って評価できる None 93. 正規化の手法の一つである「最小-最大スケーリング(Min-Max Scaling)」の目的は何ですか? データの平均を0にする データの分布を正規分布に近づける データを指定した範囲にスケーリングする データを標準偏差1にする None 94. データ共有において、「アクセストークン」が使用される主な理由は次のうちどれですか? データ共有を暗号化するため。 データ共有のトラフィックを最適化するため。 データへのアクセス権限を一時的に付与するため。 データ共有の速度を向上させるため。 None 95. データの異常値(外れ値)を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか? 平均値を明確に表示する データの相関を示す 時系列データを示す 外れ値を視覚的に確認できる None 96. 外れ値の検出と除去において、IQR(四分位範囲)を使用する理由は次のうちどれですか? データの標準偏差が不明な場合でも使用できるため 外れ値を自動的に補完できるため データの分布が正規分布である場合に限って適用できるため データの分布に関係なく、安定した外れ値の検出ができるため None 97. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 98. 2つのカテゴリ変数間の関係性をデータフレームで確認したい場合、最も適切な方法は次のうちどれですか? クロス集計表を作成する 散布図を作成する ヒストグラムを作成する 箱ひげ図を使用する None 99. データの共有において、データの完全性と機密性を保つために使用される技術は次のうちどれですか? 圧縮 暗号化 トークン化 フィルタリング None 100. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None Time's up