DS検定~模擬試験④~ 2024年12月7日 ailearn 1. モデルの汎化性能を評価するために行う手法の一つはどれですか? 正則化 モデルの再トレーニング クロスバリデーション モデルの複雑化 None 2. 分析評価における「ベイズ最適化」の利点として最も適切なものは次のうちどれですか? 全てのパラメータの組み合わせを網羅的に探索するため 少ない試行回数で最適なハイパーパラメータを見つけるため モデルの精度を向上させるためのデフォルト手法であるため 決定木に特化しているため None 3. データ加工で、カテゴリ変数を数値データに変換する手法として正しいものはどれですか? 正規化 ワンホットエンコーディング 標準化 フィルタリング None 4. モデルの予測結果を解釈しやすくするための手法として適切なのはどれですか? 正則化 SHAP(Shapley Additive Explanations) グリッドサーチ 正規化 None 5. 「データガバナンス」における主な目的は次のうちどれですか? データの圧縮を最適化し、保存容量を減らすこと データベースのクエリを最適化すること データの品質、整合性、安全性を確保し、適切に管理すること データのリアルタイム共有を実現すること None 6. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 7. データ加工において、「外れ値」を検出するための統計手法として一般的に使用されるものは次のうちどれですか? 標準偏差 主成分分析(PCA) K-平均クラスタリング 平均二乗誤差(MSE) None 8. クロスバリデーションの目的は次のうちどれですか? モデルの精度を最大化するために、データセット全体を使用する モデルの処理速度を向上させるため モデルの汎化性能を評価するために、異なるデータセットでモデルを検証する データの前処理を自動化するため None 9. カテゴリ変数を数値に変換する際に、頻度ベースのエンコーディング手法を使用する利点は次のうちどれですか? 全てのカテゴリを独立したバイナリ変数に変換できる 変換後のデータがモデルに対して高い予測力を持つ可能性がある カテゴリ数が多くてもメモリ効率が良くなる カテゴリ変数を削除してデータセットを縮小できる None 10. 次のうち、データを説明する際に避けるべき行動はどれですか? 結論をデータに基づいて示す データを過度に装飾して印象操作する グラフを使って説明する データの出典を明示する None 11. 分析評価における「ヒストリカルバイアス」を排除するために有効な手法は次のうちどれですか? データ収集期間を見直し、最新のデータを優先する モデルのパラメータを変更する バイアスが含まれたデータをそのまま使用する データの分散を高める None 12. 精度と再現率を評価する際、精度とはどのような指標を示していますか? 予測が正しい割合 モデルが外れ値を除外する能力 予測モデルの処理速度 モデルが予測しなかったデータの比率 None 13. モデルの利活用において、予測精度の評価に使われる指標の一つはどれですか? 平均二乗誤差 (MSE) パラメータ数 サンプル数 分散 None 14. 次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか? 説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる データの分布が正規分布でなくなる データの欠損値が増加する 外れ値の影響が強くなる None 15. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None 16. モデルの評価において、「再現率」とは何を示しますか? モデルが正しく予測した正解の割合 モデルが間違ったクラスに分類した割合 モデルが全体として正しく予測した割合 モデルが正しく予測したクラス内で、実際にそのクラスに属するものの割合 None 17. クロスバリデーションの主な目的は何ですか? モデルの性能を評価し、過学習を防ぐこと モデルのパラメータ数を減らすこと モデルの複雑さを増やすこと モデルの学習速度を速めること None 18. データ共有における「Data Lake」と「Data Warehouse」の主な違いは次のうちどれですか? Data Lakeはデータをリアルタイムで処理し、Data Warehouseはバッチ処理を行う Data Lakeは非構造化データを扱い、Data Warehouseは構造化データを扱う Data Lakeは小規模なデータを対象とし、Data Warehouseは大規模なデータを対象とする Data Lakeはトランザクションをサポートし、Data Warehouseはサポートしない None 19. 次のうち、モデルのハイパーパラメータを調整する手法はどれですか? ロジスティック回帰 決定木 正規化 グリッドサーチ None 20. 分析評価において、適合率(precision)を向上させるためには、次のどの要素に焦点を当てるべきですか? モデルが誤って予測する「偽陽性」を減らす モデルの計算速度を向上させる データセットを小さくする モデルの訓練時間を短縮する None 21. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 22. 「ファイル共有サービス」で一般的に使用されるプロトコルは次のうちどれですか? SMTP FTP IMAP HTTP/2 None 23. データの散らばり具合を示す指標である「標準偏差」は、次のうちどのような意味を持ちますか? データの平均値 データの中央値 データが平均からどれだけ離れているかを示す データの最大値と最小値の差 None 24. データ共有において、「データレイク」の設計時に最も注意すべき課題は次のうちどれですか? データの検索性と品質を確保すること データの容量を最小化すること データのスキーマを事前に固定すること データの形式をCSVに統一すること None 25. 欠損値が多く存在するデータに対して、モデル化を行う前に推奨される処理方法は次のどれですか? 欠損値の削除 多重代入法 平均補完 ラベルエンコーディング None 26. データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか? 単回帰分析 移動平均 ロジスティック回帰 相関分析 None 27. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 28. 多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか? 各クラスのデータ量を均等にするため。 モデルが複雑な場合でも簡易な計算が可能になるため。 多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。 クラス間の相関を最大化するため。 None 29. データ加工において、データを正規化する主な目的は何ですか? データの冗長性を減らし、整合性を保つこと データの計算速度を上げること データを暗号化すること データのサイズを圧縮すること None 30. 「ハイパーパラメータのチューニング」において「ランダムサーチ」の利点は次のうちどれですか? すべてのハイパーパラメータの組み合わせを試すことができる グリッドサーチに比べて計算コストを抑えながら、広範な探索ができる 決定木モデルに特化したチューニング方法である データセット全体を使って評価できる None 31. 勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか? 単一の高精度なモデルを作る データセット全体に対して1つのモデルを訓練する 各学習器が前の学習器の誤差を補正する 各学習器が独立して予測を行う None 32. モデルの定期的なメンテナンスが重要である理由として最も適切なのは次のうちどれですか? モデルのパフォーマンスが時間とともに低下する可能性があるため モデルの複雑さを常に増やすため モデルのハイパーパラメータを維持するため モデルがバイアスを持つことを防ぐため None 33. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 34. データの異常値(外れ値)を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか? 平均値を明確に表示する データの相関を示す 時系列データを示す 外れ値を視覚的に確認できる None 35. 以下のPythonコードを使用して、「欠損値の補完」を実行する際に、fillna() の引数として適切な値を指定することで、各列の平均値で補完するコードとして正しいものは次のうちどれですか? import pandas as pddata = {'col1': [1, None, 3], 'col2': [4, 5, None]}df = pd.DataFrame(data)# 欠損値補完df_filled = df.fillna(_____) 0 df.median() df.mean() method='bfill' None 36. データ加工において、非線形な特徴量をモデルに取り入れるために一般的に使用される手法は次のうちどれですか? Zスコアを計算する ワンホットエンコーディングを行う 多項式特徴量(Polynomial Features)を作成する 正規化を行う None 37. モデルのフェアネス(公平性)を評価する際に使用される指標として適切なものは次のうちどれですか? 混同行列 クロスエントロピー デメトリックパリティ(Demographic Parity) 平均二乗誤差(MSE) None 38. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 39. データを効果的に説明するために最も重要なステップは次のうちどれですか? データを大量に提示する データの背景や目的を明確にし、ストーリーを持たせる グラフを多用する 専門用語を使う None 40. ある企業が売上データを報告する際、異なる地域の売上を地図上で視覚化しました。この場合、地図の使用による最大の利点は次のうちどれですか? 時系列トレンドを強調できる 売上の相関関係を数値で示せる 地域ごとの売上の地理的な分布を一目で把握できる 地域ごとの売上を均一に見せられる None 41. 相関関係を説明する際に使用される統計指標は次のうちどれですか? 中央値 相関係数 分散 四分位範囲 None 42. 時系列データのモデル化において、「自己回帰(AR)」モデルが前提とする条件として正しいものは次のうちどれですか? データが定常過程であること。 データが一定の周期性を持つこと。 データが単調増加または単調減少すること。 データが高次元であること。 None 43. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 44. モデル評価において「リコール(再現率)」が低い場合に考えられる影響として最も適切なものは次のうちどれですか? 誤検知(False Positives)が増加する モデルの計算速度が遅くなる 重要な事例を見逃す可能性が高くなる モデルが適合しすぎる None 45. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None 46. 正規化の手法の一つである「最小-最大スケーリング(Min-Max Scaling)」の目的は何ですか? データの平均を0にする データの分布を正規分布に近づける データを指定した範囲にスケーリングする データを標準偏差1にする None 47. モデルの解釈性を向上させるために「SHAP」を利用する際、どのような情報が得られますか? 各予測に対する特徴量の貢献度。 モデルの全体的な構造と重み。 データセットの欠損値の補完方法。 モデルのハイパーパラメータ最適化手順。 None 48. デプロイされたモデルの性能を定期的に監視する理由は何ですか? モデルの予測が常に正確であることを確認するため モデルのパラメータを変更するため モデルのトレーニング時間を短縮するため データが変化したときにモデルが適応できるかを確認するため None 49. データ加工で、「IQR(四分位範囲)」を用いて外れ値を検出する際の計算手順として正しいものは次のうちどれですか? データの平均値と標準偏差を求め、2倍の標準偏差を超えるデータを外れ値とみなす。 第1四分位数(Q1)と第3四分位数(Q3)を計算し、IQRの1.5倍範囲を超えるデータを外れ値とみなす。 データを正規化した後、0~1の範囲に収まらないデータを外れ値とみなす。 クラスタリングを実施し、どのクラスタにも属さないデータを外れ値とみなす。 None 50. 非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか? 中央値 平均値 最頻値 標準偏差 None 51. データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか? 平均値を強調する 外れ値を無視する 箱ひげ図を使って外れ値を視覚的に示す 外れ値を削除して説明する None 52. データ共有プラットフォームで「マルチテナントアーキテクチャ」が使用される理由は次のうちどれですか? 複数のユーザーが同一のシステムを共有しながらも、データを分離して管理できるため データの暗号化を自動的に行うため データの圧縮を効率化するため データベースのクエリを高速化するため None 53. データ加工において、「データの正規化(Normalization)」と「標準化(Standardization)」の主な違いとして正しいものは次のうちどれですか? 正規化はデータの平均を0にするが、標準化はしない。 正規化は欠損値を補完する手法で、標準化は特徴量のエンコーディングに使用される。 正規化は外れ値を削除するが、標準化は外れ値を無視する。 正規化はデータを0~1の範囲にスケーリングするが、標準化は分散を1にスケーリングする。 None 54. データ共有における「データ共有契約」の主な目的は次のうちどれですか? データの利用条件と責任範囲を明確にする データのファイル形式を定義する データベースのパフォーマンスを向上させる データのバックアップを行う None 55. あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか? ヒストグラム 散布図 箱ひげ図 円グラフ None 56. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 57. データ分析でよく使用される「分散分析(ANOVA)」の目的は何ですか? 単一のグループの中央値を求める 2つの変数間の相関を確認する データの時系列分析を行う 複数のグループの平均値の差が有意かどうかを確認する None 58. 相関係数が正の値を示す場合、次のうちどの関係性があると考えられますか? 2つの変数が同じ方向に動く 2つの変数が逆方向に動く 2つの変数が無関係である 2つの変数が完全に独立している None 59. 「モデルのバイアス-バリアンストレードオフ」が示す課題は次のうちどれですか? 高精度なモデルを作るほどコストが増加する モデルがシンプルすぎると過学習が発生する モデルが複雑すぎると過学習が発生し、シンプルすぎると学習不足になる モデルが一度構築されると修正できない None 60. モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか? モデルの完全な再トレーニング 増分学習 モデルのパラメータ調整のみ データの削除 None 61. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 62. データの共有において、データの完全性と機密性を保つために使用される技術は次のうちどれですか? 圧縮 暗号化 トークン化 フィルタリング None 63. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 64. 分析評価のプロセスで「AUC(ROC曲線下の面積)」を使用する理由は次のうちどれですか? モデルの処理速度を測定するため データセットのサイズを確認するため モデルの再現率を最適化するため モデルが様々な閾値でどの程度正確に分類できるかを測定するため None 65. データの標準化と正規化の違いとして、正しい説明は次のうちどれですか? 標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする 標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される 標準化と正規化は同じ操作を指す 標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする None 66. データ分析プロジェクトで「ベイズ最適化」を使用する主な理由として最も適切なものは次のうちどれですか? モデルのハイパーパラメータ探索を効率化するため すべてのパラメータを手動で調整するため モデルの計算速度を低下させるため 無作為にパラメータを設定するため None 67. 時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか? 折れ線グラフ 散布図 棒グラフ 円グラフ None 68. 時系列データにおける「移動平均(Moving Average)」の主な目的は次のうちどれですか? データの欠損値を補完する データの分布を正規化する データのノイズを除去し、トレンドを明確にする データをランダムにシャッフルする None 69. 分析結果の評価において最も重要な要素は次のうちどれですか? 結果が直感的にわかりやすいこと 分析が効率的に行われたかどうか 分析結果がビジネスの目的に一致していること 分析に使用したツールが最新であること None 70. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 71. 「ヒートマップ」は次のうちどの目的で使用されますか? データの相関関係を視覚的に示すため データの平均値を計算するため データの標準偏差を表示するため データを並び替えるため None 72. データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか? データの精度を向上させる データの欠損値を補完する データを完全に削除する データの次元数を減らし、計算コストを削減する None 73. あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか? データは正規分布している データは左に歪んでいる(左偏) データは右に歪んでいる(右偏) データは一様分布している None 74. 多クラス分類問題における評価指標として適切なものは次のどれですか? 精度 平均二乗誤差(MSE) 決定係数 マクロ平均F1スコア None 75. 変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか? 散布図 中央値 ヒストグラム 因果推論モデル(Causal Inference Model) None 76. 時系列データの分割において、「スライディングウィンドウ法」を使用する主な目的は次のうちどれですか? データをランダムにシャッフルして分割する データの時間的な依存性を考慮して、連続したデータを扱うことができる データセット全体のサイズを削減する 時系列データを静的なデータに変換する None 77. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 78. 分析評価における「F1スコア」とは何を表していますか? モデルの計算速度 データセットのサイズとモデルの適合性 モデルの訓練時間 精度と再現率の調和平均 None 79. データ共有において、データの「キャッシュ」を利用する主な目的は次のうちどれですか? データの圧縮を行い、保存スペースを節約するため データのアクセス権を管理するため データの暗号化強度を高めるため 頻繁にアクセスされるデータの応答時間を短縮するため None 80. 「ピボットテーブル」を使うときの主な利点は次のうちどれですか? 大量のデータを効率的に集計・分析することができる データを削除することができる データを無作為に並び替えることができる データを視覚的に表示することができる None 81. モデルの「正則化(regularization)」とは何を指しますか? モデルの複雑さを増やして、精度を向上させる手法 モデルのパラメータを制約することで、過学習を防ぐ手法 モデルの学習速度を速める手法 データの分布を正規化する手法 None 82. データ共有において、「Snowflake」プラットフォームが支持される理由として最も適切なものは次のうちどれですか? データ共有が無料で行えるため。 セキュアかつシンプルにデータを他者と共有できるため。 データのスキーマを事前に固定する必要がないため。 クラウド以外の環境でも動作するため。 None 83. 2つのカテゴリ変数間の関係性をデータフレームで確認したい場合、最も適切な方法は次のうちどれですか? クロス集計表を作成する 散布図を作成する ヒストグラムを作成する 箱ひげ図を使用する None 84. サポートベクターマシン (SVM) では、カーネル関数を使用する主な理由は何ですか? 非線形なデータを高次元空間に写像し、線形分離可能にするため 訓練データを効率的に処理するため データのスケーリングを容易にするため 過学習を防ぐため None 85. 特徴量選択の手法として「逐次後退選択法(Backward Elimination)」を使用する利点は次のうちどれですか? 全ての特徴量を保持しながらモデルの精度を最大化できる 最も重要でない特徴量を順次削除し、最適な特徴量セットを見つけることができる 特徴量の数を増やすことでモデルの過学習を防ぐことができる カテゴリカルデータを自動的に数値に変換できる None 86. データを説明する際に、棒グラフを選択する最も適切な状況は次のうちどれですか? カテゴリごとの比較を行いたい場合 時系列データの変化を表現したい場合 変数間の相関を示したい場合 データの分布を示したい場合 None 87. モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか? モデルのバイアスとバリアンスのバランスを取ること モデルの計算速度と精度のバランスを取ること データのサイズとモデルの複雑さを調整すること データの分散を減らすための手法 None 88. ハイパーパラメータチューニングにおいて、「グリッドサーチ」が適用される主な目的は何ですか? モデルのトレーニングデータを増やすため モデルの精度を評価するため ハイパーパラメータの最適な組み合わせを探索するため テストデータを生成するため None 89. データ共有において、「非構造化データ」として適切な例は次のうちどれですか? SQLデータベースのテーブル CSVファイル 画像ファイル JSON形式のログデータ None 90. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None 91. 複数の要因が結果にどのように影響しているかを説明する際、最も適切な分析手法は次のうちどれですか? 単回帰分析 分散分析(ANOVA) クロス集計 ヒストグラム None 92. モデルのパフォーマンスがデータの品質に依存している理由として最も適切なものは次のうちどれですか? データにノイズが含まれていると、モデルの学習が正確に行えないため データが大きいほどモデルの精度が高くなるため データが多いほど、モデルの複雑さを高めることができるため データを使用すれば、必ずモデルのパフォーマンスが向上するため None 93. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 94. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 95. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 96. データ分析の評価指標として「R²(決定係数)」が示すものは次のうちどれですか? モデルの精度が100%に近いこと モデルがデータの変動をどれだけ説明できるか モデルがデータに過適合している割合 モデルのエラーを最小化するための方法 None 97. 分析評価において、「リコール(再現率)」が高いことが重要とされる場面は次のうちどれですか? クレジットカードのスコアリング 商品のおすすめエンジン 広告のクリック予測 健康診断でのがん検出 None 98. モデルのデプロイ後に重要なタスクはどれですか? モデルの予測結果を分析すること モデルの訓練データを増やすこと モデルの定期的な再学習とパフォーマンスの監視 モデルの複雑さを減らすこと None 99. 分析評価において「A/Bテスト」を実施する際、最も重要な前提条件は次のうちどれですか? 対象群と実験群がランダムに分割されていること 全てのユーザーが同じテストに参加すること 実験終了後に全てのデータを削除すること テストの結果を公開しないこと None 100. 外れ値の検出と除去において、IQR(四分位範囲)を使用する理由は次のうちどれですか? データの標準偏差が不明な場合でも使用できるため 外れ値を自動的に補完できるため データの分布が正規分布である場合に限って適用できるため データの分布に関係なく、安定した外れ値の検出ができるため None Time's up