DS検定~模擬試験④~ 2024年12月7日 ailearn 1. 「ファイル共有サービス」で一般的に使用されるプロトコルは次のうちどれですか? SMTP FTP IMAP HTTP/2 None 2. 時系列データのモデル化において、「自己回帰(AR)」モデルが前提とする条件として正しいものは次のうちどれですか? データが定常過程であること。 データが一定の周期性を持つこと。 データが単調増加または単調減少すること。 データが高次元であること。 None 3. データ共有において、「データレイク」の設計時に最も注意すべき課題は次のうちどれですか? データの検索性と品質を確保すること データの容量を最小化すること データのスキーマを事前に固定すること データの形式をCSVに統一すること None 4. モデルを本番環境にデプロイする際に、クラウドプラットフォームを利用する主な利点として最も適切なものは次のうちどれですか? モデルの再トレーニングが不要になる。 スケーラビリティと可用性が向上する。 モデルの精度が自動的に向上する。 モデルのバイアスが自動的に修正される。 None 5. データを「説明する」ときに最も重要なポイントの1つは次のうちどれですか? データを使わず、主観的な意見を述べる データを細かく説明せずに要約を省く データの出典を示さない 結論に基づいた根拠をデータとして示す None 6. 「過学習(オーバーフィッティング)」を防ぐために、次のうちどの方法が適切ですか? データを増やすか、正則化を行う 訓練データのみを使用してモデルを評価する モデルの複雑さを高める テストデータを増やす None 7. データの代表値の一つである「中央値」はどのようなデータの特徴を表しますか? データの最頻値 データの平均値 データを大小順に並べたとき、中央に位置する値 データの最大値と最小値の差 None 8. 主成分分析(PCA)による次元削減の利点は次のうちどれですか? データの欠損値を補完できる 特徴量のスケールを揃えることができる データの分散を最大化しながら次元数を削減できる 非線形関係を取り入れることができる None 9. データ分析の評価指標として「R²(決定係数)」が示すものは次のうちどれですか? モデルの精度が100%に近いこと モデルがデータの変動をどれだけ説明できるか モデルがデータに過適合している割合 モデルのエラーを最小化するための方法 None 10. モデルのパフォーマンスがデータの品質に依存している理由として最も適切なものは次のうちどれですか? データにノイズが含まれていると、モデルの学習が正確に行えないため データが大きいほどモデルの精度が高くなるため データが多いほど、モデルの複雑さを高めることができるため データを使用すれば、必ずモデルのパフォーマンスが向上するため None 11. ロジスティック回帰モデルは、どのようなタイプのデータに対して使用されますか? 連続値データの予測 二値分類問題 多値分類問題 非線形データの予測 None 12. データ共有プラットフォームで「データのインタープリタビリティ(相互運用性)」を確保するために必要なものは次のうちどれですか? 大規模なデータストレージ データの暗号化アルゴリズム データベースのスケーリング機能 標準化されたデータフォーマットとAPI None 13. モデル評価において「リコール(再現率)」が低い場合に考えられる影響として最も適切なものは次のうちどれですか? 誤検知(False Positives)が増加する モデルの計算速度が遅くなる 重要な事例を見逃す可能性が高くなる モデルが適合しすぎる None 14. 時系列データの傾向を説明する際、移動平均を用いる主な目的は次のうちどれですか? 外れ値を完全に削除する データの変動を平滑化し、トレンドを明確にする 時系列データを一括で解析する データを異なるカテゴリに分割する None 15. データの散らばり具合を示す指標である「標準偏差」は、次のうちどのような意味を持ちますか? データの平均値 データの中央値 データが平均からどれだけ離れているかを示す データの最大値と最小値の差 None 16. 次のうち、データを説明する際に避けるべき行動はどれですか? 結論をデータに基づいて示す データを過度に装飾して印象操作する グラフを使って説明する データの出典を明示する None 17. データ共有において、「非構造化データ」として適切な例は次のうちどれですか? SQLデータベースのテーブル CSVファイル 画像ファイル JSON形式のログデータ None 18. 大規模なデータセットに対して、データのメモリ使用量を削減し、効率的に処理するための一般的な手法は次のうちどれですか? データをシャッフルする データをソートする データの型を最適化する データを削除する None 19. 次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか? 説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる データの分布が正規分布でなくなる データの欠損値が増加する 外れ値の影響が強くなる None 20. 多クラス分類問題における評価指標として適切なものは次のどれですか? 精度 平均二乗誤差(MSE) 決定係数 マクロ平均F1スコア None 21. 線形回帰モデルにおける「重み」とは何を指しますか? 変数間の相関の強さ 説明変数に対する従属変数の影響度 変数の相対的な順序 データの分散の指標 None 22. 時系列データにおける「移動平均(Moving Average)」の主な目的は次のうちどれですか? データの欠損値を補完する データの分布を正規化する データのノイズを除去し、トレンドを明確にする データをランダムにシャッフルする None 23. モデルの評価において、「再現率」とは何を示しますか? モデルが正しく予測した正解の割合 モデルが間違ったクラスに分類した割合 モデルが全体として正しく予測した割合 モデルが正しく予測したクラス内で、実際にそのクラスに属するものの割合 None 24. デプロイされたモデルの性能を定期的に監視する理由は何ですか? モデルの予測が常に正確であることを確認するため モデルのパラメータを変更するため モデルのトレーニング時間を短縮するため データが変化したときにモデルが適応できるかを確認するため None 25. 回帰モデルの説明において「決定係数(R²)」が示す意味として正しいものは次のうちどれですか? モデルの精度がどれほど高いかを示す指標 モデルのデータのばらつきが大きいことを示す指標 モデルの変数の相関が弱いことを示す指標 モデルの適合度が低いことを示す指標 None 26. データ分析でよく使用される「分散分析(ANOVA)」の目的は何ですか? 単一のグループの中央値を求める 2つの変数間の相関を確認する データの時系列分析を行う 複数のグループの平均値の差が有意かどうかを確認する None 27. 非対称なデータセットの中心傾向を表すために、最も適切な代表値は次のうちどれですか? 中央値 平均値 最頻値 標準偏差 None 28. 分析評価における「F1スコア」とは何を表していますか? モデルの計算速度 データセットのサイズとモデルの適合性 モデルの訓練時間 精度と再現率の調和平均 None 29. 「主成分分析(PCA)」の主な目的は次のうちどれですか? データの平均値を求める データの相関関係を調べる データの欠損値を補完する データの次元を削減し、主要な特徴を抽出する None 30. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 31. データの季節性やトレンドを把握するために、時系列データを平滑化する手法として最も適切なものは次のうちどれですか? 単回帰分析 移動平均 ロジスティック回帰 相関分析 None 32. データの相関関係を説明する際、散布図を使用した結果、明確な相関が見られない場合に考慮すべき最も適切な対応は次のうちどれですか? データの他の変数を確認し、新たな相関を探す 相関がないと結論付けて分析を終了する 相関関係を人工的に作るためにデータを加工する 散布図を折れ線グラフに変更する None 33. モデルの学習において、「早期終了(Early Stopping)」が適用される主な目的は次のうちどれですか? 学習データを効率的に使用するため。 モデルの過学習を防ぐため。 モデルの収束速度を向上させるため。 モデルのハイパーパラメータを自動調整するため。 None 34. データ共有において、SFTP(Secure File Transfer Protocol)が選ばれる主な理由は次のうちどれですか? リアルタイムでのデータストリームが可能であるため。 非構造化データの転送ができるため。 データ転送の高速性を優先しているため。 データ転送のセキュリティが強化されているため。 None 35. データを説明する際、対象者の理解を促進するために考慮すべき要素は次のうちどれですか? 対象者のバックグラウンドや専門知識レベル データの量 グラフの色彩 文字の大きさ None 36. テキストデータの前処理において、「ステミング(Stemming)」とはどのような処理ですか? 単語のスペルミスを修正する処理 テキストを正規化する処理 文章を分割して単語ごとに分類する処理 単語の語幹を抽出し、派生形を統一する処理 None 37. データ共有における「分散トレーシング」の目的として最も適切なものは次のうちどれですか? データ共有時の遅延や障害箇所を特定するため。 データ共有プロトコルを統一するため。 データの完全性を保証するため。 データの暗号化を効率化するため。 None 38. モデルの「ブラックボックス」問題とは何ですか? モデルの予測結果が解釈できないこと モデルがすべてのデータをランダムに処理すること モデルのパラメータが固定されていること モデルが正確な予測を常に行うこと None 39. データの標準化と正規化の違いとして、正しい説明は次のうちどれですか? 標準化はデータを範囲0から1に変換し、正規化はデータの平均を0にする 標準化は数値データにのみ適用され、正規化はカテゴリデータに適用される 標準化と正規化は同じ操作を指す 標準化はデータを平均0、標準偏差1にスケーリングし、正規化はデータを指定された範囲にスケーリングする None 40. データの欠損値(Missing Data)に対して、一般的に使用される処理方法として正しいものはどれですか? 平均値や中央値で補完する データ全体を削除する データを逆順に並び替える データをランダムに入れ替える None 41. 分析評価のプロセスで「AUC(ROC曲線下の面積)」を使用する理由は次のうちどれですか? モデルの処理速度を測定するため データセットのサイズを確認するため モデルの再現率を最適化するため モデルが様々な閾値でどの程度正確に分類できるかを測定するため None 42. あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか? ヒストグラム 散布図 箱ひげ図 円グラフ None 43. データが不均衡である場合にモデル評価の指標として推奨されるのは次のうちどれですか? 精度 AUC-ROC 平均二乗誤差 F1スコア None 44. データを説明する際、適切なグラフの軸設定に関する最も重要な注意点は次のうちどれですか? グラフの軸を省略することで見た目を簡潔にする 必ず軸の範囲を0から開始する データの特徴に応じて軸の範囲を適切に設定する 軸の範囲を最大値以上に設定する None 45. 大規模データセットにおいて、相関関係が高いとされる2つの変数が実際には因果関係を持たないことを示す概念は何ですか? 分散分析 決定係数 標準偏差 偽相関 None 46. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 47. 「モデルのバイアス-バリアンストレードオフ」が示す課題は次のうちどれですか? 高精度なモデルを作るほどコストが増加する モデルがシンプルすぎると過学習が発生する モデルが複雑すぎると過学習が発生し、シンプルすぎると学習不足になる モデルが一度構築されると修正できない None 48. 回帰分析における「多重共線性」が問題となる理由として正しいものは次のうちどれですか? 特徴量間の独立性が高くなるため。 モデルが過学習しやすくなるため。 回帰係数の推定値が不安定になるため。 クロスバリデーションの結果が無効になるため。 None 49. モデルのパフォーマンスを評価するためにROC曲線を使用する主な目的は何ですか? モデルの予測値を確認するため モデルの複雑さを測定するため モデルがどのようにクラスを区別するかを評価するため モデルの正確な予測確率を示すため None 50. クロスバリデーションの主な目的は何ですか? モデルの性能を評価し、過学習を防ぐこと モデルのパラメータ数を減らすこと モデルの複雑さを増やすこと モデルの学習速度を速めること None 51. モデルの精度を向上させるために、次のどの手法が有効ですか? データのクリーニング モデルの複雑さを増やす 訓練データを減らす ハイパーパラメータの固定 None 52. ランダムフォレストはどのようにして過学習を防いでいますか? 少数の決定木を使用して、全てのデータを学習する 訓練データをシャッフルして多数の決定木を作成し、その平均を取る 1つの決定木を大きく成長させることで、データの特徴を完全に学習する 訓練データを正則化して、過学習を防ぐ None 53. 決定木モデルにおいて「枝刈り(pruning)」を行う目的は何ですか? モデルの学習速度を向上させるため モデルの予測精度を高めるため モデルのサイズを小さくし、過学習を防ぐため モデルの出力を標準化するため None 54. 決定木モデルにおいて、各ノードに分岐する際の基準としてよく使われる指標はどれですか? 標準偏差 相関係数 ジニ係数 決定係数 None 55. データ共有の場面で、パブリッククラウド環境を使用する際の主なリスクは次のうちどれですか? データの保存容量が制限されること データのセキュリティとプライバシーの確保が難しいこと データのバックアップが不要になること データの形式が変更されること None 56. 比較を行う際に使用するべきグラフとして最も適切なものは次のうちどれですか? 円グラフ 散布図 棒グラフ ヒストグラム None 57. 勾配ブースティングのアンサンブル学習において、弱学習器とはどのような役割を果たしますか? 単一の高精度なモデルを作る データセット全体に対して1つのモデルを訓練する 各学習器が前の学習器の誤差を補正する 各学習器が独立して予測を行う None 58. 次のうち、「ロジスティック回帰分析」を使用する際に最も適切な場合はどれですか? 目的変数がカテゴリカルデータの場合 目的変数が連続値の場合 データが時系列データの場合 データが相関していない場合 None 59. データセットにおいて、目的変数が連続値である場合に使用される最も一般的なモデルは次のうちどれですか? ロジスティック回帰 決定木 線形回帰 クラスタリング None 60. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 61. ハイパーパラメータチューニングにおいて、「グリッドサーチ」が適用される主な目的は何ですか? モデルのトレーニングデータを増やすため モデルの精度を評価するため ハイパーパラメータの最適な組み合わせを探索するため テストデータを生成するため None 62. モデル評価において「損失関数」の役割は次のうちどれですか? モデルが予測した値と実際の値の誤差を数値化するため モデルの正答率を評価するため モデルの実行速度を計測するため モデルのパラメータを最適化するため None 63. モデル構築において、特徴量の「スケーリング」が必要となる理由は次のうちどれですか? モデルの学習速度を向上させるため。 特徴量間の相関を完全に排除するため。 すべてのモデルで絶対に必要な手順だから。 特徴量の単位やスケールが異なる場合に影響を均一化するため。 None 64. 「データガバナンス」における主な目的は次のうちどれですか? データの圧縮を最適化し、保存容量を減らすこと データベースのクエリを最適化すること データの品質、整合性、安全性を確保し、適切に管理すること データのリアルタイム共有を実現すること None 65. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 66. モデルのフェアネス(公平性)を評価する際に使用される指標として適切なものは次のうちどれですか? 混同行列 クロスエントロピー デメトリックパリティ(Demographic Parity) 平均二乗誤差(MSE) None 67. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 68. 分析評価で「ヒストリカルバイアス」を検出する最適な方法として最も適切なものは次のうちどれですか? データセットを無作為に分割して評価する モデルの出力だけを比較する 全てのデータを削除して再収集する データ収集時点での条件を再確認する None 69. データ共有における「データ共有契約」の主な目的は次のうちどれですか? データの利用条件と責任範囲を明確にする データのファイル形式を定義する データベースのパフォーマンスを向上させる データのバックアップを行う None 70. モデルの「正則化(regularization)」とは何を指しますか? モデルの複雑さを増やして、精度を向上させる手法 モデルのパラメータを制約することで、過学習を防ぐ手法 モデルの学習速度を速める手法 データの分布を正規化する手法 None 71. モデルがデータの相関に基づいて誤った予測を行わないようにするためには、次のどの手法が有効ですか? クロスバリデーション 正則化 特徴選択 全て None 72. 散布図で2つの変数間の相関を観察したところ、データがほぼ一直線に並んでいる場合、相関係数は次のうちどれに最も近い値をとると考えられますか? 0 -1 -0.5 1 None 73. 分析評価において「A/Bテスト」を実施する際、最も重要な前提条件は次のうちどれですか? 対象群と実験群がランダムに分割されていること 全てのユーザーが同じテストに参加すること 実験終了後に全てのデータを削除すること テストの結果を公開しないこと None 74. データのトレンドを説明する際、折れ線グラフを使用したが、季節性が不明確な場合に最も適切な対応は次のうちどれですか? データポイントを増やす 移動平均線を追加してトレンドを明確化する 折れ線グラフを棒グラフに変更する グラフの色を変えることで視覚的にわかりやすくする None 75. データの「信頼区間」を説明する際に重要なポイントは次のうちどれですか? 信頼区間はデータの中央値を示す 信頼区間は母集団のパラメータが特定の範囲にある確率を示す 信頼区間はデータが完全に正規分布していることを示す 信頼区間はデータの外れ値を無視する None 76. 分析評価で使用される「A/Bテスト」の主な目的は次のうちどれですか? 2つの異なる手法やアプローチを比較し、どちらが効果的かを判断するため モデルの訓練データを増やすため データセットを分割してモデルを評価するため データの精度を向上させるため None 77. 外れ値の検出と除去において、IQR(四分位範囲)を使用する理由は次のうちどれですか? データの標準偏差が不明な場合でも使用できるため 外れ値を自動的に補完できるため データの分布が正規分布である場合に限って適用できるため データの分布に関係なく、安定した外れ値の検出ができるため None 78. モデルの利活用において、バイアスとバリアンスのトレードオフはどのように関連していますか? バイアスが高いほど、モデルの複雑さが増す バリアンスが高いほど、モデルは過学習しやすくなる バリアンスが低いほど、モデルは過学習しやすくなる バイアスが高いほど、モデルの精度が上がる None 79. データ加工において、「ワンホットエンコーディング」を適用した場合のデータの特徴として正しいものは次のうちどれですか? カテゴリ変数を1つの数値で表現する。 カテゴリ変数ごとに個別の二値変数を作成する。 カテゴリ変数を平均値で補完する。 カテゴリ変数を時系列データに変換する。 None 80. データの説明において、偏りを防ぐために考慮すべき重要な要素は次のうちどれですか? データが全体を代表するかどうかを確認する データを無作為に削除する データの一部のみを使用して説明する 主観的な意見を混ぜる None 81. 本番環境で使用されているモデルが突然精度低下を起こした場合、考えられる原因として最も適切なものは次のうちどれですか? モデルのハイパーパラメータが変更された。 トレーニングデータが削除された。 モデルのアルゴリズムが過学習を起こした。 データドリフトが発生した。 None 82. 相関関係を持つ2つの変数間の因果関係を説明する際に避けるべきことは次のうちどれですか? 相関関係を強調する グラフを使用して視覚的に説明する 相関係数を用いる 因果関係がない場合も因果関係があると主張する None 83. モデルの利活用において、データが定期的に追加されるシナリオで推奨される手法はどれですか? モデルの完全な再トレーニング 増分学習 モデルのパラメータ調整のみ データの削除 None 84. 次のうち、モデルのハイパーパラメータを調整する手法はどれですか? ロジスティック回帰 決定木 正規化 グリッドサーチ None 85. 予測モデルを本番環境にデプロイする際、APIの利用が推奨される理由は何ですか? モデルのスケーラビリティを向上させるため モデルの再学習が不要になるため モデルのパフォーマンスが向上するため モデルのパラメータを固定するため None 86. カテゴリ変数を数値に変換する際に、頻度ベースのエンコーディング手法を使用する利点は次のうちどれですか? 全てのカテゴリを独立したバイナリ変数に変換できる 変換後のデータがモデルに対して高い予測力を持つ可能性がある カテゴリ数が多くてもメモリ効率が良くなる カテゴリ変数を削除してデータセットを縮小できる None 87. ビッグデータ解析において、非常に大量のデータから有用な情報を抽出するための技術として最も適切なものは次のうちどれですか? データサンプリング データマイニング データ可視化 データフィルタリング None 88. Lasso回帰におけるL1正則化の主な効果はどれですか? モデルの重みを全て大きくする モデルの重みを小さくして、特定の特徴量をゼロにする 特徴量の相関を強化する モデルの学習速度を遅くする None 89. データを扱う際に重要な「分位点」とは何を意味しますか? データを特定の割合で区分した点 データの平均値 データの最大値と最小値の平均 データの標準偏差 None 90. クラスが不均衡なデータセットにおいて、モデルのパフォーマンスを正確に評価するために推奨される指標は次のどれですか? 精度 AUC-ROC 平均絶対誤差 マクロF1スコア None 91. 分析評価において、モデルの「過適合(オーバーフィッティング)」を軽減するために効果的な手法は次のうちどれですか? ドロップアウトやL2正則化を導入する モデルの複雑さを増やす 訓練データを削減する 精度を向上させるためにすべてのデータを使用する None 92. モデルが本番環境で意図しないバイアスを持つ可能性を最小限に抑えるためには、次のどの手法が有効ですか? データの前処理のみを行う データのバランスを取る モデルの複雑さを増す モデルのハイパーパラメータを固定する None 93. 欠損値が多く存在するデータに対して、モデル化を行う前に推奨される処理方法は次のどれですか? 欠損値の削除 多重代入法 平均補完 ラベルエンコーディング None 94. データ共有における「データカタログ」の主な機能は次のうちどれですか? データを暗号化し、セキュリティを強化する データの処理速度を最適化する データベースのスケーリングを行う データの内容や構造に関する情報を集約し、ユーザーが適切なデータを発見できるようにする None 95. モデルにおける「バイアス-バリアンストレードオフ」とは何を指しますか? モデルのバイアスとバリアンスのバランスを取ること モデルの計算速度と精度のバランスを取ること データのサイズとモデルの複雑さを調整すること データの分散を減らすための手法 None 96. あるデータセットにおいて、平均値が中央値よりも大きい場合、データの分布に関して最も適切な説明は次のうちどれですか? データは正規分布している データは左に歪んでいる(左偏) データは右に歪んでいる(右偏) データは一様分布している None 97. 時系列データの分割において、「スライディングウィンドウ法」を使用する主な目的は次のうちどれですか? データをランダムにシャッフルして分割する データの時間的な依存性を考慮して、連続したデータを扱うことができる データセット全体のサイズを削減する 時系列データを静的なデータに変換する None 98. データの「異常値」を説明する際に使用する適切な手法は次のうちどれですか? 平均値を強調する 外れ値を無視する 箱ひげ図を使って外れ値を視覚的に示す 外れ値を削除して説明する None 99. 複数の要因が結果にどのように影響しているかを説明する際、最も適切な分析手法は次のうちどれですか? 単回帰分析 分散分析(ANOVA) クロス集計 ヒストグラム None 100. データ加工において、非線形な特徴量をモデルに取り入れるために一般的に使用される手法は次のうちどれですか? Zスコアを計算する ワンホットエンコーディングを行う 多項式特徴量(Polynomial Features)を作成する 正規化を行う None Time's up