DS検定~模擬試験④~ 2024年12月7日 ailearn 1. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 2. 「データガバナンス」における主な目的は次のうちどれですか? データの圧縮を最適化し、保存容量を減らすこと データベースのクエリを最適化すること データの品質、整合性、安全性を確保し、適切に管理すること データのリアルタイム共有を実現すること None 3. データの分布を把握するために、累積度数分布(CDF)を使用する場合、その主な利点として最も適切なものは次のうちどれですか? データの中央値を直感的に理解できる データの値が特定の範囲に収まる割合を確認できる データ間の相関関係を視覚化できる データの分散を計算できる None 4. データの不均衡を解消するために、「オーバーサンプリング」を行う利点は次のうちどれですか? 少数クラスのデータを増やすことで、クラスのバランスを保つことができる データの精度を向上させるため データセット全体のサイズを減少させるため カテゴリデータを自動的に数値に変換できるため None 5. データの標準化(Standardization)において、最も一般的に使用される手法は次のうちどれですか? ワンホットエンコーディング Zスコア変換 ターゲットエンコーディング ログ変換 None 6. モデルを運用環境にデプロイする際に考慮すべき「レイテンシー」とは何ですか? モデルの予測精度 モデルの再トレーニングにかかる時間 モデルの応答速度 モデルの学習に必要なデータ量 None 7. 「リッジ回帰」がL2正則化を使用する主な理由は次のうちどれですか? モデルのパフォーマンスを向上させるため モデルのトレーニング速度を向上させるため モデルの評価基準を単純化するため モデルの過学習を防ぐためにパラメータを制約するため None 8. データ共有の際に、「データの非対称暗号化」が採用される理由は次のうちどれですか? 全てのユーザーが同じ鍵を使用して、データを暗号化できるため データの送信者と受信者が異なる鍵を使用して、データの安全性を高めるため データのサイズを圧縮するため データのリアルタイム性を保証するため None 9. モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか? モデルの完全な再トレーニング 増分学習 モデルのパラメータ調整のみ データの削除 None 10. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 11. モデルの定期的なメンテナンスが重要である理由として最も適切なのは次のうちどれですか? モデルのパフォーマンスが時間とともに低下する可能性があるため モデルの複雑さを常に増やすため モデルのハイパーパラメータを維持するため モデルがバイアスを持つことを防ぐため None 12. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 13. 分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか? データセットを無作為に分割して評価する モデルの出力だけを比較する 全てのデータを削除して再収集する データ収集時点での条件を再確認する None 14. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 15. 予測モデルを本番環境にデプロイする際、APIの利用が推奨される理由は何ですか? モデルのスケーラビリティを向上させるため モデルの再学習が不要になるため モデルのパフォーマンスが向上するため モデルのパラメータを固定するため None 16. 多クラス分類問題における評価指標として適切なものは次のどれですか? 精度 平均二乗誤差(MSE) 決定係数 マクロ平均F1スコア None 17. モデルの評価において、「再現率」とは何を示しますか? モデルが正しく予測した正解の割合 モデルが間違ったクラスに分類した割合 モデルが全体として正しく予測した割合 モデルが正しく予測したクラス内で、実際にそのクラスに属するものの割合 None 18. データ加工において、「データの正規化(Normalization)」と「標準化(Standardization)」の主な違いとして正しいものは次のうちどれですか? 正規化はデータの平均を0にするが、標準化はしない。 正規化は欠損値を補完する手法で、標準化は特徴量のエンコーディングに使用される。 正規化は外れ値を削除するが、標準化は外れ値を無視する。 正規化はデータを0~1の範囲にスケーリングするが、標準化は分散を1にスケーリングする。 None 19. モデルのパフォーマンスがデータの品質に依存している理由として最も適切なものは次のうちどれですか? データにノイズが含まれていると、モデルの学習が正確に行えないため データが大きいほどモデルの精度が高くなるため データが多いほど、モデルの複雑さを高めることができるため データを使用すれば、必ずモデルのパフォーマンスが向上するため None 20. データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか? 散布図 Q-Qプロット 棒グラフ 円グラフ None 21. データの欠損値(Missing Data)に対して、一般的に使用される処理方法として正しいものはどれですか? 平均値や中央値で補完する データ全体を削除する データを逆順に並び替える データをランダムに入れ替える None 22. 「データ共有プラットフォーム」のスケーラビリティを向上させるために一般的に使用される手法は次のうちどれですか? クラウドストレージのキャッシュ 圧縮アルゴリズムの変更 マイクロサービスアーキテクチャ データのファイル形式を変更する None 23. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 24. データ加工において、「外れ値」を検出するための統計手法として一般的に使用されるものは次のうちどれですか? 標準偏差 主成分分析(PCA) K-平均クラスタリング 平均二乗誤差(MSE) None 25. クロス集計表を用いる主な目的は次のうちどれですか? 1つの変数の分布を見る 2つ以上のカテゴリ変数の関係性を把握する データの相関関係を確認する データの標準偏差を計算する None 26. データ共有において、データの「キャッシュ」を利用する主な目的は次のうちどれですか? データの圧縮を行い、保存スペースを節約するため データのアクセス権を管理するため データの暗号化強度を高めるため 頻繁にアクセスされるデータの応答時間を短縮するため None 27. データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか? 平均値を強調する 外れ値を無視する 箱ひげ図を使って外れ値を視覚的に示す 外れ値を削除して説明する None 28. データの異常値(外れ値)を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか? 平均値を明確に表示する データの相関を示す 時系列データを示す 外れ値を視覚的に確認できる None 29. データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか? データの保存容量が制限されること データのセキュリティとプライバシーの確保が難しいこと データのバックアップが不要になること データの形式が変更されること None 30. モデルの予測結果を解釈しやすくするための手法として適切なのはどれですか? 正則化 SHAP(Shapley Additive Explanations) グリッドサーチ 正規化 None 31. 比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか? 円グラフ 散布図 棒グラフ ヒストグラム None 32. モデルの性能を検証するために、データセットを訓練データとテストデータに分割する理由は何ですか? データ量を増やすため モデルが過学習しているかを評価するため データの正規性を確保するため 訓練データの分散を減らすため None 33. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 34. モデルの利活用において、予測精度の評価に使われる指標の一つはどれですか? 平均二乗誤差 (MSE) パラメータ数 サンプル数 分散 None 35. データ加工において、「特徴量生成」が必要になる場面として最も適切なものは次のうちどれですか? データ量が少なく、より多くの情報をモデルに提供したい場合。 外れ値を削除する必要がある場合。 カテゴリ変数を数値データに変換する場合。 欠損値を補完する必要がある場合。 None 36. 「ハイパーパラメータのチューニング」において「ランダムサーチ」の利点は次のうちどれですか? すべてのハイパーパラメータの組み合わせを試すことができる グリッドサーチに比べて計算コストを抑えながら、広範な探索ができる 決定木モデルに特化したチューニング方法である データセット全体を使って評価できる None 37. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 38. モデル構築において、特徴量の「スケーリング」が必要となる理由は次のうちどれですか? モデルの学習速度を向上させるため。 特徴量間の相関を完全に排除するため。 すべてのモデルで絶対に必要な手順だから。 特徴量の単位やスケールが異なる場合に影響を均一化するため。 None 39. 時系列データの傾向を説明する際、移動平均を用いる主な目的は次のうちどれですか? 外れ値を完全に削除する データの変動を平滑化し、トレンドを明確にする 時系列データを一括で解析する データを異なるカテゴリに分割する None 40. モデルの「正則化(regularization)」とは何を指しますか? モデルの複雑さを増やして、精度を向上させる手法 モデルのパラメータを制約することで、過学習を防ぐ手法 モデルの学習速度を速める手法 データの分布を正規化する手法 None 41. 分析評価における「ヒストリカルバイアス」を排除するために有効な手法は次のうちどれですか? データ収集期間を見直し、最新のデータを優先する モデルのパラメータを変更する バイアスが含まれたデータをそのまま使用する データの分散を高める None 42. 欠損値が多く存在するデータに対して、モデル化を行う前に推奨される処理方法は次のどれですか? 欠損値の削除 多重代入法 平均補完 ラベルエンコーディング None 43. データ加工で、カテゴリ変数を数値データに変換する手法として正しいものはどれですか? 正規化 ワンホットエンコーディング 標準化 フィルタリング None 44. モデルのパフォーマンスを評価するためにROC曲線を使用する主な目的は何ですか? モデルの予測値を確認するため モデルの複雑さを測定するため モデルがどのようにクラスを区別するかを評価するため モデルの正確な予測確率を示すため None 45. データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか? データの精度を向上させる データの欠損値を補完する データを完全に削除する データの次元数を減らし、計算コストを削減する None 46. アンサンブル学習の手法として、「ブースティング」と「バギング」の主な違いは次のうちどれですか? ブースティングは並列処理、バギングは逐次処理を行う。 ブースティングは弱学習器を直列的に学習させ、バギングは並列的に学習させる。 バギングはモデルのバイアスを低減し、ブースティングは分散を低減する。 ブースティングはランダム性を導入し、バギングは強いモデルを用いる。 None 47. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 48. モデルの評価指標として、精度(accuracy)以外にモデルの性能を評価するために適切な指標はどれですか? AUC-ROC 平均二乗誤差(MSE) p値 偏差 None 49. モデルのチューニングにおいて、ハイパーパラメータとは何を指しますか? モデルが予測に使用するデータのパラメータ モデルの学習過程で変更されないパラメータ モデルが生成する出力の精度を示すパラメータ モデルの評価に使用されるメトリクス None 50. データサイエンスにおいて、モデルを活用する際に最も重要なステップの一つは何ですか? モデルのトレーニング モデルのパラメータチューニング モデルのデプロイ モデルのハイパーパラメータ設定 None 51. データを「説明する」ときに最も重要なポイントの1つは次のうちどれですか? データを使わず、主観的な意見を述べる データを細かく説明せずに要約を省く データの出典を示さない 結論に基づいた根拠をデータとして示す None 52. ロジスティック回帰モデルは、どのようなタイプのデータに対して使用されますか? 連続値データの予測 二値分類問題 多値分類問題 非線形データの予測 None 53. データを扱う際に重要な「分位点」とは何を意味しますか? データを特定の割合で区分した点 データの平均値 データの最大値と最小値の平均 データの標準偏差 None 54. モデルの精度を向上させるために、次のどの手法が有効ですか? データのクリーニング モデルの複雑さを増やす 訓練データを減らす ハイパーパラメータの固定 None 55. 次のうち、データを説明する際に「ピボットテーブル」を使う主な利点は何ですか? データを無作為に並び替えることができる データの正確性を低下させる データの可視化を自動的に行う データを簡単に集計し、視覚的に示すことができる None 56. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 57. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 58. 時系列データの分割において、「スライディングウィンドウ法」を使用する主な目的は次のうちどれですか? データをランダムにシャッフルして分割する データの時間的な依存性を考慮して、連続したデータを扱うことができる データセット全体のサイズを削減する 時系列データを静的なデータに変換する None 59. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 60. モデルを本番環境にデプロイする際に、クラウドプラットフォームを利用する主な利点として最も適切なものは次のうちどれですか? モデルの再トレーニングが不要になる。 スケーラビリティと可用性が向上する。 モデルの精度が自動的に向上する。 モデルのバイアスが自動的に修正される。 None 61. 「過学習(オーバーフィッティング)」を防ぐために、次のうちどの方法が適切ですか? データを増やすか、正則化を行う 訓練データのみを使用してモデルを評価する モデルの複雑さを高める テストデータを増やす None 62. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 63. データ共有において、「Snowflake」プラットフォームが支持される理由として最も適切なものは次のうちどれですか? データ共有が無料で行えるため。 セキュアかつシンプルにデータを他者と共有できるため。 データのスキーマを事前に固定する必要がないため。 クラウド以外の環境でも動作するため。 None 64. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None 65. データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか? データポイントを増やす 移動平均線を追加してトレンドを明確化する 折れ線グラフを棒グラフに変更する グラフの色を変えることで視覚的にわかりやすくする None 66. データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか? カイ二乗検定 ピアソンの相関係数 シャピロ・ウィルク検定 クラスタリング None 67. 多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか? 各クラスのデータ量を均等にするため。 モデルが複雑な場合でも簡易な計算が可能になるため。 多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。 クラス間の相関を最大化するため。 None 68. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 69. データを説明する際に「ヒートマップ」を使用する主な目的は次のうちどれですか? 時系列データの変化を示す 2次元データのパターンや相関を視覚化する カテゴリデータの分布を示す 外れ値を特定する None 70. モデル評価において「リコール(再現率)」が低い場合に考えられる影響として最も適切なものは次のうちどれですか? 誤検知(False Positives)が増加する モデルの計算速度が遅くなる 重要な事例を見逃す可能性が高くなる モデルが適合しすぎる None 71. データを効果的に説明するために最も重要なステップは次のうちどれですか? データを大量に提示する データの背景や目的を明確にし、ストーリーを持たせる グラフを多用する 専門用語を使う None 72. 次のうち、データを説明する際に避けるべき行動はどれですか? 結論をデータに基づいて示す データを過度に装飾して印象操作する グラフを使って説明する データの出典を明示する None 73. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None 74. データ分析において「外れ値」の影響を軽減するための一般的な手法として最も適切なものは次のうちどれですか? ロバストな統計手法(例えば、中央値や四分位範囲)を使用する 外れ値を無視する 外れ値を平均値で補完する 外れ値をそのまま残す None 75. モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか? モデルのバイアスとバリアンスのバランスを取ること モデルの計算速度と精度のバランスを取ること データのサイズとモデルの複雑さを調整すること データの分散を減らすための手法 None 76. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 77. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 78. データを説明する際、対象者の理解を促進するために考慮すべき要素は次のうちどれですか? 対象者のバックグラウンドや専門知識レベル データの量 グラフの色彩 文字の大きさ None 79. データ分析の評価指標として「R²(決定係数)」が示すものは次のうちどれですか? モデルの精度が100%に近いこと モデルがデータの変動をどれだけ説明できるか モデルがデータに過適合している割合 モデルのエラーを最小化するための方法 None 80. モデルの公平性を確保するために行うべきアプローチとして最も適切なものは次のうちどれですか? 学習データセットに存在するバイアスを削除または調整する。 学習データセットをランダムに選択して再トレーニングする。 モデルの精度が最大化するようにハイパーパラメータを調整する。 モデルの予測を一部修正する手動プロセスを追加する。 None 81. 時系列データにおける「移動平均(Moving Average)」の主な目的は次のうちどれですか? データの欠損値を補完する データの分布を正規化する データのノイズを除去し、トレンドを明確にする データをランダムにシャッフルする None 82. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 83. データ共有における「REST API」の特徴として正しいものは次のうちどれですか? HTTPプロトコルを使用して、ステートレスな通信を行う リアルタイムのデータ共有をサポートする 大量データのバッチ処理に特化している データを暗号化して転送する None 84. 決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか? 標準偏差 相関係数 ジニ係数 決定係数 None 85. データ加工において、データを正規化する主な目的は何ですか? データの冗長性を減らし、整合性を保つこと データの計算速度を上げること データを暗号化すること データのサイズを圧縮すること None 86. 決定木モデルにおいて「枝刈り(pruning)」を行う目的は何ですか? モデルの学習速度を向上させるため モデルの予測精度を高めるため モデルのサイズを小さくし、過学習を防ぐため モデルの出力を標準化するため None 87. 分析評価において、「リコール(再現率)」が高いことが重要とされる場面は次のうちどれですか? クレジットカードのスコアリング 商品のおすすめエンジン 広告のクリック予測 健康診断でのがん検出 None 88. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 89. データを説明する際に、棒グラフを選択する最も適切な状況は次のうちどれですか? カテゴリごとの比較を行いたい場合 時系列データの変化を表現したい場合 変数間の相関を示したい場合 データの分布を示したい場合 None 90. モデルのフェアネス(公平性)を担保するために使用される評価手法はどれですか? AUC-ROC バイアス検出ツール クロスバリデーション 精度評価 None 91. 正規化の手法の一つである「最小-最大スケーリング(Min-Max Scaling)」の目的は何ですか? データの平均を0にする データの分布を正規分布に近づける データを指定した範囲にスケーリングする データを標準偏差1にする None 92. 時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか? 折れ線グラフ 散布図 棒グラフ 円グラフ None 93. 大規模データセットにおいて、相関関係が高いとされる2つの変数が実際には因果関係を持たないことを示す概念は何ですか? 分散分析 決定係数 標準偏差 偽相関 None 94. データ共有プラットフォームで「データのインタープリタビリティ(相互運用性)」を確保するために必要なものは次のうちどれですか? 大規模なデータストレージ データの暗号化アルゴリズム データベースのスケーリング機能 標準化されたデータフォーマットとAPI None 95. 特徴量選択の手法として「逐次後退選択法(Backward Elimination)」を使用する利点は次のうちどれですか? 全ての特徴量を保持しながらモデルの精度を最大化できる 最も重要でない特徴量を順次削除し、最適な特徴量セットを見つけることができる 特徴量の数を増やすことでモデルの過学習を防ぐことができる カテゴリカルデータを自動的に数値に変換できる None 96. 2つのカテゴリ変数間の関係性をデータフレームで確認したい場合、最も適切な方法は次のうちどれですか? クロス集計表を作成する 散布図を作成する ヒストグラムを作成する 箱ひげ図を使用する None 97. データを説明する際、適切なグラフの軸設定に関する最も重要な注意点は次のうちどれですか? グラフの軸を省略することで見た目を簡潔にする 必ず軸の範囲を0から開始する データの特徴に応じて軸の範囲を適切に設定する 軸の範囲を最大値以上に設定する None 98. 「ヒートマップ」は次のうちどの目的で使用されますか? データの相関関係を視覚的に示すため データの平均値を計算するため データの標準偏差を表示するため データを並び替えるため None 99. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 100. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None Time's up