DS検定~模擬試験④~ 2024年12月7日 ailearn 1. あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか? ヒストグラム 散布図 箱ひげ図 円グラフ None 2. 「ハイパーパラメータのチューニング」において「ランダムサーチ」の利点は次のうちどれですか? すべてのハイパーパラメータの組み合わせを試すことができる グリッドサーチに比べて計算コストを抑えながら、広範な探索ができる 決定木モデルに特化したチューニング方法である データセット全体を使って評価できる None 3. ビッグデータ解析において、非常に大量のデータから有用な情報を抽出するための技術として最も適切なものは次のうちどれですか? データサンプリング データマイニング データ可視化 データフィルタリング None 4. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None 5. 次のうち、モデルのハイパーパラメータを調整する手法はどれですか? ロジスティック回帰 決定木 正規化 グリッドサーチ None 6. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 7. 分析評価のプロセスで「AUC(ROC曲線下の面積)」を使用する理由は次のうちどれですか? モデルの処理速度を測定するため データセットのサイズを確認するため モデルの再現率を最適化するため モデルが様々な閾値でどの程度正確に分類できるかを測定するため None 8. データの分布を把握するために、累積度数分布(CDF)を使用する場合、その主な利点として最も適切なものは次のうちどれですか? データの中央値を直感的に理解できる データの値が特定の範囲に収まる割合を確認できる データ間の相関関係を視覚化できる データの分散を計算できる None 9. 分析評価における「F1スコア」とは何を表していますか? モデルの計算速度 データセットのサイズとモデルの適合性 モデルの訓練時間 精度と再現率の調和平均 None 10. クロス集計表を用いる主な目的は次のうちどれですか? 1つの変数の分布を見る 2つ以上のカテゴリ変数の関係性を把握する データの相関関係を確認する データの標準偏差を計算する None 11. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 12. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 13. 多クラス分類問題において、「One-vs-Rest」戦略を使用する主な理由として最も適切なものは次のうちどれですか? 各クラスのデータ量を均等にするため。 モデルが複雑な場合でも簡易な計算が可能になるため。 多クラス問題を複数の二値分類問題に分割することで解決を容易にするため。 クラス間の相関を最大化するため。 None 14. ランダムフォレストはどのようにして過学習を防いでいますか? 少数の決定木を使用して、全てのデータを学習する 訓練データをシャッフルして多数の決定木を作成し、その平均を取る 1つの決定木を大きく成長させることで、データの特徴を完全に学習する 訓練データを正則化して、過学習を防ぐ None 15. データの説明において、偏りを防ぐために考慮すべき重要な要素は次のうちどれですか? データが全体を代表するかどうかを確認する データを無作為に削除する データの一部のみを使用して説明する 主観的な意見を混ぜる None 16. 精度と再現率を評価する際、精度とはどのような指標を示していますか? 予測が正しい割合 モデルが外れ値を除外する能力 予測モデルの処理速度 モデルが予測しなかったデータの比率 None 17. データ共有において、「アクセストークン」が使用される主な理由は次のうちどれですか? データ共有を暗号化するため。 データ共有のトラフィックを最適化するため。 データへのアクセス権限を一時的に付与するため。 データ共有の速度を向上させるため。 None 18. テキストデータの前処理において、「ステミング(Stemming)」とはどのような処理ですか? 単語のスペルミスを修正する処理 テキストを正規化する処理 文章を分割して単語ごとに分類する処理 単語の語幹を抽出し、派生形を統一する処理 None 19. データの正規性を確認するために使用される統計手法として最も適切なものは次のうちどれですか? カイ二乗検定 ピアソンの相関係数 シャピロ・ウィルク検定 クラスタリング None 20. クラウド環境において、異なるユーザー間でデータを共有する際に考慮すべき主要な課題は次のうちどれですか? データのサイズと圧縮 データのファイル形式 データの権限管理とアクセス制御 データの可視化方法 None 21. データ分析において「外れ値」の影響を軽減するための一般的な手法として最も適切なものは次のうちどれですか? ロバストな統計手法(例えば、中央値や四分位範囲)を使用する 外れ値を無視する 外れ値を平均値で補完する 外れ値をそのまま残す None 22. モデルのパフォーマンスを評価するためにROC曲線を使用する主な目的は何ですか? モデルの予測値を確認するため モデルの複雑さを測定するため モデルがどのようにクラスを区別するかを評価するため モデルの正確な予測確率を示すため None 23. データ共有における「Data Lake」と「Data Warehouse」の主な違いは次のうちどれですか? Data Lakeはデータをリアルタイムで処理し、Data Warehouseはバッチ処理を行う Data Lakeは非構造化データを扱い、Data Warehouseは構造化データを扱う Data Lakeは小規模なデータを対象とし、Data Warehouseは大規模なデータを対象とする Data Lakeはトランザクションをサポートし、Data Warehouseはサポートしない None 24. Lasso回帰におけるL1正則化の主な効果はどれですか? モデルの重みを全て大きくする モデルの重みを小さくして、特定の特徴量をゼロにする 特徴量の相関を強化する モデルの学習速度を遅くする None 25. データ共有において、「データレイク」の設計時に最も注意すべき課題は次のうちどれですか? データの検索性と品質を確保すること データの容量を最小化すること データのスキーマを事前に固定すること データの形式をCSVに統一すること None 26. データの分布が正規分布であるかどうかを視覚的に確認するために最も適切な方法は次のうちどれですか? ヒストグラムを作成して分布を観察する 相関係数を計算する 箱ひげ図を使用する 散布図を作成する None 27. 「主成分分析(PCA)」の主な目的は次のうちどれですか? データの平均値を求める データの相関関係を調べる データの欠損値を補完する データの次元を削減し、主要な特徴を抽出する None 28. 非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか? 中央値 平均値 最頻値 標準偏差 None 29. モデルを本番環境にデプロイする際に、クラウドプラットフォームを利用する主な利点として最も適切なものは次のうちどれですか? モデルの再トレーニングが不要になる。 スケーラビリティと可用性が向上する。 モデルの精度が自動的に向上する。 モデルのバイアスが自動的に修正される。 None 30. データサイエンスにおいて、モデルを活用する際に最も重要なステップの一つは何ですか? モデルのトレーニング モデルのパラメータチューニング モデルのデプロイ モデルのハイパーパラメータ設定 None 31. モデルのフェアネス(公平性)を担保するために使用される評価手法はどれですか? AUC-ROC バイアス検出ツール クロスバリデーション 精度評価 None 32. データの不均衡を解消するために、「オーバーサンプリング」を行う利点は次のうちどれですか? 少数クラスのデータを増やすことで、クラスのバランスを保つことができる データの精度を向上させるため データセット全体のサイズを減少させるため カテゴリデータを自動的に数値に変換できるため None 33. モデルの公平性を確保するために行うべきアプローチとして最も適切なものは次のうちどれですか? 学習データセットに存在するバイアスを削除または調整する。 学習データセットをランダムに選択して再トレーニングする。 モデルの精度が最大化するようにハイパーパラメータを調整する。 モデルの予測を一部修正する手動プロセスを追加する。 None 34. モデルの汎化性能を評価するために行う手法の一つはどれですか? 正則化 モデルの再トレーニング クロスバリデーション モデルの複雑化 None 35. データを扱う際に重要な「分位点」とは何を意味しますか? データを特定の割合で区分した点 データの平均値 データの最大値と最小値の平均 データの標準偏差 None 36. データを効果的に説明するために最も重要なステップは次のうちどれですか? データを大量に提示する データの背景や目的を明確にし、ストーリーを持たせる グラフを多用する 専門用語を使う None 37. データの標準化と正規化の違いとして、正しい説明は次のうちどれですか? 標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする 標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される 標準化と正規化は同じ操作を指す 標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする None 38. 「モデルのバイアス-バリアンストレードオフ」が示す課題は次のうちどれですか? 高精度なモデルを作るほどコストが増加する モデルがシンプルすぎると過学習が発生する モデルが複雑すぎると過学習が発生し、シンプルすぎると学習不足になる モデルが一度構築されると修正できない None 39. 次のうち、データを説明する際に「ピボットテーブル」を使う主な利点は何ですか? データを無作為に並び替えることができる データの正確性を低下させる データの可視化を自動的に行う データを簡単に集計し、視覚的に示すことができる None 40. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 41. 時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか? 折れ線グラフ 散布図 棒グラフ 円グラフ None 42. モデルがデータの相関に基づいて誤った予測を行わないようにするためには、次のどの手法が有効ですか? クロスバリデーション 正則化 特徴選択 全て None 43. 分析評価における「ベイズ最適化」の利点として最も適切なものは次のうちどれですか? 全てのパラメータの組み合わせを網羅的に探索するため 少ない試行回数で最適なハイパーパラメータを見つけるため モデルの精度を向上させるためのデフォルト手法であるため 決定木に特化しているため None 44. 分析結果の評価において最も重要な要素は次のうちどれですか? 結果が直感的にわかりやすいこと 分析が効率的に行われたかどうか 分析結果がビジネスの目的に一致していること 分析に使用したツールが最新であること None 45. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 46. 予測モデルを本番環境にデプロイする際、APIの利用が推奨される理由は何ですか? モデルのスケーラビリティを向上させるため モデルの再学習が不要になるため モデルのパフォーマンスが向上するため モデルのパラメータを固定するため None 47. データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか? 散布図 Q-Qプロット 棒グラフ 円グラフ None 48. 以下のPythonコードを使用して、「欠損値の補完」を実行する際に、fillna() の引数として適切な値を指定することで、各列の平均値で補完するコードとして正しいものは次のうちどれですか? import pandas as pddata = {'col1': [1, None, 3], 'col2': [4, 5, None]}df = pd.DataFrame(data)# 欠損値補完df_filled = df.fillna(_____) 0 df.median() df.mean() method='bfill' None 49. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 50. 次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか? 説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる データの分布が正規分布でなくなる データの欠損値が増加する 外れ値の影響が強くなる None 51. 勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか? 単一の高精度なモデルを作る データセット全体に対して1つのモデルを訓練する 各学習器が前の学習器の誤差を補正する 各学習器が独立して予測を行う None 52. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 53. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 54. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 55. モデルの評価指標として、精度(accuracy)以外にモデルの性能を評価するために適切な指標はどれですか? AUC-ROC 平均二乗誤差(MSE) p値 偏差 None 56. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 57. データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか? 平均値を強調する 外れ値を無視する 箱ひげ図を使って外れ値を視覚的に示す 外れ値を削除して説明する None 58. 正規化の手法の一つである「最小-最大スケーリング(Min-Max Scaling)」の目的は何ですか? データの平均を0にする データの分布を正規分布に近づける データを指定した範囲にスケーリングする データを標準偏差1にする None 59. 「ファイル共有サービス」で一般的に使用されるプロトコルは次のうちどれですか? SMTP FTP IMAP HTTP/2 None 60. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 61. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 62. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 63. 分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか? データセットを無作為に分割して評価する モデルの出力だけを比較する 全てのデータを削除して再収集する データ収集時点での条件を再確認する None 64. 分析評価において、「リコール(再現率)」が高いことが重要とされる場面は次のうちどれですか? クレジットカードのスコアリング 商品のおすすめエンジン 広告のクリック予測 健康診断でのがん検出 None 65. データ共有における「API」の役割として正しいものはどれですか? 異なるシステム間でデータをやり取りするためのインターフェース データを圧縮して送信する技術 データを暗号化して送信する技術 データの可視化を行う技術 None 66. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None 67. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 68. データ共有プロセスにおいて、「データ所有権」の管理が重要な理由は次のうちどれですか? データの使用範囲や責任範囲を明確にすることで、法的リスクを回避するため データの圧縮率を向上させるため データの形式を変換するため データを暗号化して転送するため None 69. データの標準化(Standardization)において、最も一般的に使用される手法は次のうちどれですか? ワンホットエンコーディング Zスコア変換 ターゲットエンコーディング ログ変換 None 70. 変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか? 散布図 中央値 ヒストグラム 因果推論モデル(Causal Inference Model) None 71. データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか? 単回帰分析 移動平均 ロジスティック回帰 相関分析 None 72. 時系列データのモデル化において、「自己回帰(AR)」モデルが前提とする条件として正しいものは次のうちどれですか? データが定常過程であること。 データが一定の周期性を持つこと。 データが単調増加または単調減少すること。 データが高次元であること。 None 73. モデルの性能を検証するために、データセットを訓練データとテストデータに分割する理由は何ですか? データ量を増やすため モデルが過学習しているかを評価するため データの正規性を確保するため 訓練データの分散を減らすため None 74. モデルのパフォーマンスを向上させるために、次元削減が必要な場合に使用される手法はどれですか? ランダムフォレスト PCA(主成分分析) ロジスティック回帰 k-近傍法 None 75. データ加工で、カテゴリ変数を数値データに変換する手法として正しいものはどれですか? 正規化 ワンホットエンコーディング 標準化 フィルタリング None 76. モデルを運用環境にデプロイする際に考慮すべき「レイテンシー」とは何ですか? モデルの予測精度 モデルの再トレーニングにかかる時間 モデルの応答速度 モデルの学習に必要なデータ量 None 77. データ共有プラットフォームで「マルチテナントアーキテクチャ」が使用される理由は次のうちどれですか? 複数のユーザーが同一のシステムを共有しながらも、データを分離して管理できるため データの暗号化を自動的に行うため データの圧縮を効率化するため データベースのクエリを高速化するため None 78. モデルのフェアネス(公平性)を評価する際に使用される指標として適切なものは次のうちどれですか? 混同行列 クロスエントロピー デメトリックパリティ(Demographic Parity) 平均二乗誤差(MSE) None 79. モデルの精度を向上させるために、次のどの手法が有効ですか? データのクリーニング モデルの複雑さを増やす 訓練データを減らす ハイパーパラメータの固定 None 80. データ分析の評価指標として「R²(決定係数)」が示すものは次のうちどれですか? モデルの精度が100%に近いこと モデルがデータの変動をどれだけ説明できるか モデルがデータに過適合している割合 モデルのエラーを最小化するための方法 None 81. モデル構築において、特徴量の「スケーリング」が必要となる理由は次のうちどれですか? モデルの学習速度を向上させるため。 特徴量間の相関を完全に排除するため。 すべてのモデルで絶対に必要な手順だから。 特徴量の単位やスケールが異なる場合に影響を均一化するため。 None 82. 決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか? 標準偏差 相関係数 ジニ係数 決定係数 None 83. モデルの学習において、「早期終了(Early Stopping)」が適用される主な目的は次のうちどれですか? 学習データを効率的に使用するため。 モデルの過学習を防ぐため。 モデルの収束速度を向上させるため。 モデルのハイパーパラメータを自動調整するため。 None 84. データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか? データの精度を向上させる データの欠損値を補完する データを完全に削除する データの次元数を減らし、計算コストを削減する None 85. データを説明する際、対象者の理解を促進するために考慮すべき要素は次のうちどれですか? 対象者のバックグラウンドや専門知識レベル データの量 グラフの色彩 文字の大きさ None 86. ヒストグラムの役割として正しいものは次のうちどれですか? データの平均値を求めるため データの散らばり具合を視覚的に示すため データの因果関係を示すため データの時系列変化を示すため None 87. データを説明する際、適切なグラフの軸設定に関する最も重要な注意点は次のうちどれですか? グラフの軸を省略することで見た目を簡潔にする 必ず軸の範囲を0から開始する データの特徴に応じて軸の範囲を適切に設定する 軸の範囲を最大値以上に設定する None 88. データを説明する際に、棒グラフを選択する最も適切な状況は次のうちどれですか? カテゴリごとの比較を行いたい場合 時系列データの変化を表現したい場合 変数間の相関を示したい場合 データの分布を示したい場合 None 89. データ共有において、ファイルベースの共有よりも「データベースを介した共有」が推奨される理由は次のうちどれですか? データのサイズを圧縮できるため データの更新や検索が効率的に行えるため データの共有が容易に行えるため データの形式が自動的に標準化されるため None 90. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 91. デプロイされたモデルの性能を定期的に監視する理由は何ですか? モデルの予測が常に正確であることを確認するため モデルのパラメータを変更するため モデルのトレーニング時間を短縮するため データが変化したときにモデルが適応できるかを確認するため None 92. データの相関関係を説明する際、散布図を使用した結果、明確な相関が見られない場合に考慮すべき最も適切な対応は次のうちどれですか? データの他の変数を確認し、新たな相関を探す 相関がないと結論付けて分析を終了する 相関関係を人工的に作るためにデータを加工する 散布図を折れ線グラフに変更する None 93. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 94. 2つのカテゴリ変数間の関係性をデータフレームで確認したい場合、最も適切な方法は次のうちどれですか? クロス集計表を作成する 散布図を作成する ヒストグラムを作成する 箱ひげ図を使用する None 95. データの不均衡に対処するための「アンダーサンプリング」の主なデメリットは次のうちどれですか? データの一部を削除するため、重要な情報が失われるリスクがある データが増えることで処理時間が長くなる データの不均衡をさらに悪化させる可能性がある モデルの精度が低下する可能性がある None 96. データ共有において、「非構造化データ」として適切な例は次のうちどれですか? SQLデータベースのテーブル CSVファイル 画像ファイル JSON形式のログデータ None 97. データを「説明する」ときに最も重要なポイントの1つは次のうちどれですか? データを使わず、主観的な意見を述べる データを細かく説明せずに要約を省く データの出典を示さない 結論に基づいた根拠をデータとして示す None 98. ハイパーパラメータチューニングにおいて、「グリッドサーチ」が適用される主な目的は何ですか? モデルのトレーニングデータを増やすため モデルの精度を評価するため ハイパーパラメータの最適な組み合わせを探索するため テストデータを生成するため None 99. 相関係数が正の値を示す場合、次のうちどの関係性があると考えられますか? 2つの変数が同じ方向に動く 2つの変数が逆方向に動く 2つの変数が無関係である 2つの変数が完全に独立している None 100. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None Time's up