DS検定~模擬試験④~ 2024年12月7日 ailearn 1. 次のうち、データを説明する際に避けるべき行動はどれですか? 結論をデータに基づいて示す データを過度に装飾して印象操作する グラフを使って説明する データの出典を明示する None 2. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 3. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 4. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 5. 大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか? データをシャッフルする データをソートする データの型を最適化する データを削除する None 6. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None 7. データを「説明する」ときに最も重要なポイントの1つは次のうちどれですか? データを使わず、主観的な意見を述べる データを細かく説明せずに要約を省く データの出典を示さない 結論に基づいた根拠をデータとして示す None 8. データの分布を把握するために、累積度数分布(CDF)を使用する場合、その主な利点として最も適切なものは次のうちどれですか? データの中央値を直感的に理解できる データの値が特定の範囲に収まる割合を確認できる データ間の相関関係を視覚化できる データの分散を計算できる None 9. データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか? 単回帰分析 移動平均 ロジスティック回帰 相関分析 None 10. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 11. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 12. データの不均衡に対処するための「アンダーサンプリング」の主なデメリットは次のうちどれですか? データの一部を削除するため、重要な情報が失われるリスクがある データが増えることで処理時間が長くなる データの不均衡をさらに悪化させる可能性がある モデルの精度が低下する可能性がある None 13. モデルの予測結果を解釈しやすくするための手法として適切なのはどれですか? 正則化 SHAP(Shapley Additive Explanations) グリッドサーチ 正規化 None 14. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 15. 分析評価における「F1スコア」とは何を表していますか? モデルの計算速度 データセットのサイズとモデルの適合性 モデルの訓練時間 精度と再現率の調和平均 None 16. データの標準化と正規化の違いとして、正しい説明は次のうちどれですか? 標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする 標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される 標準化と正規化は同じ操作を指す 標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする None 17. データ加工において、非線形な特徴量をモデルに取り入れるために一般的に使用される手法は次のうちどれですか? Zスコアを計算する ワンホットエンコーディングを行う 多項式特徴量(Polynomial Features)を作成する 正規化を行う None 18. 欠損値が多く存在するデータに対して、モデル化を行う前に推奨される処理方法は次のどれですか? 欠損値の削除 多重代入法 平均補完 ラベルエンコーディング None 19. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 20. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 21. デプロイされたモデルの性能を定期的に監視する理由は何ですか? モデルの予測が常に正確であることを確認するため モデルのパラメータを変更するため モデルのトレーニング時間を短縮するため データが変化したときにモデルが適応できるかを確認するため None 22. データ共有において、「非構造化データ」として適切な例は次のうちどれですか? SQLデータベースのテーブル CSVファイル 画像ファイル JSON形式のログデータ None 23. データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか? データポイントを増やす 移動平均線を追加してトレンドを明確化する 折れ線グラフを棒グラフに変更する グラフの色を変えることで視覚的にわかりやすくする None 24. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 25. データ加工における「ラグ特徴量(Lag Features)」とは、次のうちどれを意味しますか? 過去のデータを基に生成される新しい特徴量 特定の特徴量の欠損を補完するための手法 カテゴリデータを数値に変換するための手法 時系列データをリアルタイムで処理するためのアルゴリズム None 26. データ共有における「データ共有契約」の主な目的は次のうちどれですか? データの利用条件と責任範囲を明確にする データのファイル形式を定義する データベースのパフォーマンスを向上させる データのバックアップを行う None 27. モデルのチューニングにおいて、ハイパーパラメータとは何を指しますか? モデルが予測に使用するデータのパラメータ モデルの学習過程で変更されないパラメータ モデルが生成する出力の精度を示すパラメータ モデルの評価に使用されるメトリクス None 28. モデルの公平性を確保するために行うべきアプローチとして最も適切なものは次のうちどれですか? 学習データセットに存在するバイアスを削除または調整する。 学習データセットをランダムに選択して再トレーニングする。 モデルの精度が最大化するようにハイパーパラメータを調整する。 モデルの予測を一部修正する手動プロセスを追加する。 None 29. データ共有において、「メタデータ」の役割として正しいものはどれですか? データの内容や構造に関する情報を提供する データを暗号化する データの圧縮アルゴリズムを指定する データをリアルタイムで同期する None 30. 決定木モデルにおいて「枝刈り(pruning)」を行う目的は何ですか? モデルの学習速度を向上させるため モデルの予測精度を高めるため モデルのサイズを小さくし、過学習を防ぐため モデルの出力を標準化するため None 31. データの異常値(外れ値)を検出するために用いられる「箱ひげ図」の主な利点は次のうちどれですか? 平均値を明確に表示する データの相関を示す 時系列データを示す 外れ値を視覚的に確認できる None 32. 相関関係を持つ2つの変数間の因果関係を説明する際に避けるべきことは次のうちどれですか? 相関関係を強調する グラフを使用して視覚的に説明する 相関係数を用いる 因果関係がない場合も因果関係があると主張する None 33. データ共有プラットフォームで「マルチテナントアーキテクチャ」が使用される理由は次のうちどれですか? 複数のユーザーが同一のシステムを共有しながらも、データを分離して管理できるため データの暗号化を自動的に行うため データの圧縮を効率化するため データベースのクエリを高速化するため None 34. 次のうち、データを説明する際に「ピボットテーブル」を使う主な利点は何ですか? データを無作為に並び替えることができる データの正確性を低下させる データの可視化を自動的に行う データを簡単に集計し、視覚的に示すことができる None 35. モデルの「過学習」とは何を指しますか? モデルが訓練データに対して高い精度を示すが、新しいデータに対しては精度が低下する現象 モデルが複雑すぎて、全てのデータに対して正確な予測ができる状態 モデルが簡単すぎて、訓練データにも対応できない状態 モデルがデータのすべてのパターンを学習する状態 None 36. クロス集計表を用いる主な目的は次のうちどれですか? 1つの変数の分布を見る 2つ以上のカテゴリ変数の関係性を把握する データの相関関係を確認する データの標準偏差を計算する None 37. 「ヒートマップ」は次のうちどの目的で使用されますか? データの相関関係を視覚的に示すため データの平均値を計算するため データの標準偏差を表示するため データを並び替えるため None 38. クロスバリデーションの主な目的は何ですか? モデルの性能を評価し、過学習を防ぐこと モデルのパラメータ数を減らすこと モデルの複雑さを増やすこと モデルの学習速度を速めること None 39. モデルの利活用において、バイアスとバリアンスのトレードオフはどのように関連していますか? バイアスが高いほど、モデルの複雑さが増す バリアンスが高いほど、モデルは過学習しやすくなる バリアンスが低いほど、モデルは過学習しやすくなる バイアスが高いほど、モデルの精度が上がる None 40. データを効果的に説明するために最も重要なステップは次のうちどれですか? データを大量に提示する データの背景や目的を明確にし、ストーリーを持たせる グラフを多用する 専門用語を使う None 41. 勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか? 単一の高精度なモデルを作る データセット全体に対して1つのモデルを訓練する 各学習器が前の学習器の誤差を補正する 各学習器が独立して予測を行う None 42. データ共有において、「データレイク」の設計時に最も注意すべき課題は次のうちどれですか? データの検索性と品質を確保すること データの容量を最小化すること データのスキーマを事前に固定すること データの形式をCSVに統一すること None 43. テキストデータの前処理において、「ステミング(Stemming)」とはどのような処理ですか? 単語のスペルミスを修正する処理 テキストを正規化する処理 文章を分割して単語ごとに分類する処理 単語の語幹を抽出し、派生形を統一する処理 None 44. データ加工において、特徴量の次元削減を行う主な目的は次のうちどれですか? データの精度を向上させる データの欠損値を補完する データを完全に削除する データの次元数を減らし、計算コストを削減する None 45. モデルの解釈性を向上させるために「SHAP」を利用する際、どのような情報が得られますか? 各予測に対する特徴量の貢献度。 モデルの全体的な構造と重み。 データセットの欠損値の補完方法。 モデルのハイパーパラメータ最適化手順。 None 46. 「ファイル共有サービス」で一般的に使用されるプロトコルは次のうちどれですか? SMTP FTP IMAP HTTP/2 None 47. データを説明する際、対象者の理解を促進するために考慮すべき要素は次のうちどれですか? 対象者のバックグラウンドや専門知識レベル データの量 グラフの色彩 文字の大きさ None 48. 分析評価における「ベイズ最適化」の利点として最も適切なものは次のうちどれですか? 全てのパラメータの組み合わせを網羅的に探索するため 少ない試行回数で最適なハイパーパラメータを見つけるため モデルの精度を向上させるためのデフォルト手法であるため 決定木に特化しているため None 49. モデルのパフォーマンスを向上させるために、次元削減が必要な場合に使用される手法はどれですか? ランダムフォレスト PCA(主成分分析) ロジスティック回帰 k-近傍法 None 50. 「ハイパーパラメータのチューニング」において「ランダムサーチ」の利点は次のうちどれですか? すべてのハイパーパラメータの組み合わせを試すことができる グリッドサーチに比べて計算コストを抑えながら、広範な探索ができる 決定木モデルに特化したチューニング方法である データセット全体を使って評価できる None 51. データ加工で、「IQR(四分位範囲)」を用いて外れ値を検出する際の計算手順として正しいものは次のうちどれですか? データの平均値と標準偏差を求め、2倍の標準偏差を超えるデータを外れ値とみなす。 第1四分位数(Q1)と第3四分位数(Q3)を計算し、IQRの1.5倍範囲を超えるデータを外れ値とみなす。 データを正規化した後、0~1の範囲に収まらないデータを外れ値とみなす。 クラスタリングを実施し、どのクラスタにも属さないデータを外れ値とみなす。 None 52. 欠損データが発生している場合、欠損の発生パターンに応じて適切な処理方法を選択することが重要ですが、データが「完全にランダムに欠損している」場合に適切な処理方法はどれですか? データを無作為に削除する 欠損部分を平均値で補完する 欠損部分を推測して補完する 欠損部分をそのまま残す None 53. データ共有における「Data Lake」と「Data Warehouse」の主な違いは次のうちどれですか? Data Lakeはデータをリアルタイムで処理し、Data Warehouseはバッチ処理を行う Data Lakeは非構造化データを扱い、Data Warehouseは構造化データを扱う Data Lakeは小規模なデータを対象とし、Data Warehouseは大規模なデータを対象とする Data Lakeはトランザクションをサポートし、Data Warehouseはサポートしない None 54. モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか? モデルの完全な再トレーニング 増分学習 モデルのパラメータ調整のみ データの削除 None 55. 欠損データの補完手法として「多重代入法(Multiple Imputation)」が有効な理由は次のうちどれですか? 複数の補完値を生成して欠損データを複数回補完し、不確実性を考慮できるため 補完値をランダムに生成して、不確実性を減少させるため データを完全に削除して、不確実性を排除するため 欠損データが存在しても、モデルの精度に影響しないため None 56. データ加工において、「外れ値」を検出するための統計手法として一般的に使用されるものは次のうちどれですか? 標準偏差 主成分分析(PCA) K-平均クラスタリング 平均二乗誤差(MSE) None 57. 分析評価における「ヒストリカルバイアス」を排除するために有効な手法は次のうちどれですか? データ収集期間を見直し、最新のデータを優先する モデルのパラメータを変更する バイアスが含まれたデータをそのまま使用する データの分散を高める None 58. 効果的なデータの説明における「データの可視化」の目的として正しいものは次のうちどれですか? データを視覚的にわかりやすく伝える データを簡単に削除するため データを正確に分析するため データを隠すため None 59. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 60. モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか? モデルのバイアスとバリアンスのバランスを取ること モデルの計算速度と精度のバランスを取ること データのサイズとモデルの複雑さを調整すること データの分散を減らすための手法 None 61. データ加工において、「特徴量生成」が必要になる場面として最も適切なものは次のうちどれですか? データ量が少なく、より多くの情報をモデルに提供したい場合。 外れ値を削除する必要がある場合。 カテゴリ変数を数値データに変換する場合。 欠損値を補完する必要がある場合。 None 62. サポートベクターマシン (SVM) では、カーネル関数を使用する主な理由は何ですか? 非線形なデータを高次元空間に写像し、線形分離可能にするため 訓練データを効率的に処理するため データのスケーリングを容易にするため 過学習を防ぐため None 63. あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか? データは正規分布している データは左に歪んでいる(左偏) データは右に歪んでいる(右偏) データは一様分布している None 64. 「過学習(オーバーフィッティング)」を防ぐために、次のうちどの方法が適切ですか? データを増やすか、正則化を行う 訓練データのみを使用してモデルを評価する モデルの複雑さを高める テストデータを増やす None 65. データの分布が正規分布であるかどうかを視覚的に確認するために最も適切な方法は次のうちどれですか? ヒストグラムを作成して分布を観察する 相関係数を計算する 箱ひげ図を使用する 散布図を作成する None 66. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 67. データ共有プロセスにおいて、「データ所有権」の管理が重要な理由は次のうちどれですか? データの使用範囲や責任範囲を明確にすることで、法的リスクを回避するため データの圧縮率を向上させるため データの形式を変換するため データを暗号化して転送するため None 68. 大規模データセットにおいて、相関関係が高いとされる2つの変数が実際には因果関係を持たないことを示す概念は何ですか? 分散分析 決定係数 標準偏差 偽相関 None 69. 「モデルのバイアス-バリアンストレードオフ」が示す課題は次のうちどれですか? 高精度なモデルを作るほどコストが増加する モデルがシンプルすぎると過学習が発生する モデルが複雑すぎると過学習が発生し、シンプルすぎると学習不足になる モデルが一度構築されると修正できない None 70. モデル評価において「リコール(再現率)」が低い場合に考えられる影響として最も適切なものは次のうちどれですか? 誤検知(False Positives)が増加する モデルの計算速度が遅くなる 重要な事例を見逃す可能性が高くなる モデルが適合しすぎる None 71. アンサンブル学習の手法として、「ブースティング」と「バギング」の主な違いは次のうちどれですか? ブースティングは並列処理、バギングは逐次処理を行う。 ブースティングは弱学習器を直列的に学習させ、バギングは並列的に学習させる。 バギングはモデルのバイアスを低減し、ブースティングは分散を低減する。 ブースティングはランダム性を導入し、バギングは強いモデルを用いる。 None 72. 比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか? 円グラフ 散布図 棒グラフ ヒストグラム None 73. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 74. データ分析でよく使用される「分散分析(ANOVA)」の目的は何ですか? 単一のグループの中央値を求める 2つの変数間の相関を確認する データの時系列分析を行う 複数のグループの平均値の差が有意かどうかを確認する None 75. モデルのデプロイ後に予測結果をリアルタイムで提供する際、必要とされる機能として最も適切なものは次のうちどれですか? バッチ処理機能 REST APIまたはgRPCの提供 モデルの再トレーニング機能 データ可視化ダッシュボード None 76. モデルの評価において、「再現率」とは何を示しますか? モデルが正しく予測した正解の割合 モデルが間違ったクラスに分類した割合 モデルが全体として正しく予測した割合 モデルが正しく予測したクラス内で、実際にそのクラスに属するものの割合 None 77. データ共有において、ファイルベースの共有よりも「データベースを介した共有」が推奨される理由は次のうちどれですか? データのサイズを圧縮できるため データの更新や検索が効率的に行えるため データの共有が容易に行えるため データの形式が自動的に標準化されるため None 78. データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか? データの保存容量が制限されること データのセキュリティとプライバシーの確保が難しいこと データのバックアップが不要になること データの形式が変更されること None 79. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 80. 時系列データの傾向を説明する際、移動平均を用いる主な目的は次のうちどれですか? 外れ値を完全に削除する データの変動を平滑化し、トレンドを明確にする 時系列データを一括で解析する データを異なるカテゴリに分割する None 81. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 82. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 83. データ共有プラットフォームで「データのインタープリタビリティ(相互運用性)」を確保するために必要なものは次のうちどれですか? 大規模なデータストレージ データの暗号化アルゴリズム データベースのスケーリング機能 標準化されたデータフォーマットとAPI None 84. クロスバリデーションの目的は次のうちどれですか? モデルの精度を最大化するために、データセット全体を使用する モデルの処理速度を向上させるため モデルの汎化性能を評価するために、異なるデータセットでモデルを検証する データの前処理を自動化するため None 85. 分析評価のプロセスで「AUC(ROC曲線下の面積)」を使用する理由は次のうちどれですか? モデルの処理速度を測定するため データセットのサイズを確認するため モデルの再現率を最適化するため モデルが様々な閾値でどの程度正確に分類できるかを測定するため None 86. モデルの汎化性能を評価するために行う手法の一つはどれですか? 正則化 モデルの再トレーニング クロスバリデーション モデルの複雑化 None 87. モデルのフェアネス(公平性)を評価する際に使用される指標として適切なものは次のうちどれですか? 混同行列 クロスエントロピー デメトリックパリティ(Demographic Parity) 平均二乗誤差(MSE) None 88. 分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか? データセットを無作為に分割して評価する モデルの出力だけを比較する 全てのデータを削除して再収集する データ収集時点での条件を再確認する None 89. 予測モデルを本番環境にデプロイする際、APIの利用が推奨される理由は何ですか? モデルのスケーラビリティを向上させるため モデルの再学習が不要になるため モデルのパフォーマンスが向上するため モデルのパラメータを固定するため None 90. 「ピボットテーブル」を使うときの主な利点は次のうちどれですか? 大量のデータを効率的に集計・分析することができる データを削除することができる データを無作為に並び替えることができる データを視覚的に表示することができる None 91. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 92. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 93. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 94. データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか? 平均値を強調する 外れ値を無視する 箱ひげ図を使って外れ値を視覚的に示す 外れ値を削除して説明する None 95. データの標準化(Standardization)において、最も一般的に使用される手法は次のうちどれですか? ワンホットエンコーディング Zスコア変換 ターゲットエンコーディング ログ変換 None 96. データ共有における「API」の役割として正しいものはどれですか? 異なるシステム間でデータをやり取りするためのインターフェース データを圧縮して送信する技術 データを暗号化して送信する技術 データの可視化を行う技術 None 97. 変数間の因果関係を説明するために用いられる「因果モデル」の一例として最も適切なものは次のうちどれですか? 散布図 中央値 ヒストグラム 因果推論モデル(Causal Inference Model) None 98. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None 99. 非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか? 中央値 平均値 最頻値 標準偏差 None 100. 決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか? 標準偏差 相関係数 ジニ係数 決定係数 None Time's up