DS検定~模擬試験~ 2024年11月5日2024年11月6日 ailearn 1. AIを事業に実装する際、「リーダビリティ(解釈可能性)」が重要視される理由は次のうちどれですか? AIのパフォーマンスを向上させるため データの処理速度を上げるため ビジネスユーザーがAIの予測結果を理解し、適切な意思決定を行うため AIモデルを簡単に構築するため None 2. 生成AIにおいて「クリッピング」とは何を指しますか? 生成データを削除する手法 モデルの重みが特定の範囲を超えないように制限する手法 モデルの学習率を制御する手法 データの圧縮を行う手法 None 3. 「主成分分析(PCA)」の主な目的は次のうちどれですか? データの平均値を求める データの相関関係を調べる データの欠損値を補完する データの次元を削減し、主要な特徴を抽出する None 4. データ分析でよく使用される「分散分析(ANOVA)」の目的は何ですか? 単一のグループの中央値を求める 2つの変数間の相関を確認する データの時系列分析を行う 複数のグループの平均値の差が有意かどうかを確認する None 5. 画像データの分類において、転移学習が有効である理由は何ですか? 新しいモデルをゼロから学習する必要がないため 全てのデータをランダムに処理できるため 画像を前処理する必要がないため モデルの複雑さを低減するため None 6. データ収集時に、Webページから必要な情報を抽出するために使われる技術はどれですか? クエリパース データベースインデックス ウェブスクレイピング ネットワークトレース None 7. 大規模なデータセットを処理する際、データの計算負荷を軽減しつつ代表的なサンプルを使用する手法として適切なものは次のうちどれですか? ランダムサンプリング フルデータの使用 データの一部を削除 時系列データの全範囲を使用 None 8. データ共有の際に「分散ファイルシステム」を利用する利点は次のうちどれですか? データを圧縮して保存できる データをリアルタイムで共有できる データの完全性を保証できる 大規模データを複数のサーバーに分散して保存することで、処理速度を向上させることができる None 9. データの分布が時間とともに変わる場合、モデルのパフォーマンスを向上させるために推奨される手法はどれですか? モデルのハイパーパラメータ調整 バッチトレーニング コンティニュアルラーニング モデルの複雑化 None 10. あるデータセットの2つの変数間の関係を可視化するために最も適切なグラフは次のうちどれですか? ヒストグラム 散布図 箱ひげ図 円グラフ None 11. ランダムフォレストはどのようにして過学習を防いでいますか? 少数の決定木を使用して、全てのデータを学習する 訓練データをシャッフルして多数の決定木を作成し、その平均を取る 1つの決定木を大きく成長させることで、データの特徴を完全に学習する 訓練データを正則化して、過学習を防ぐ None 12. マルコフ決定過程(MDP)において、最適な政策を導くために使用される手法はどれですか? ベルマン方程式 シンプレックス法 Dijkstraのアルゴリズム ハミルトン法 None 13. AIが金融業界で最新のトレンドとなっている「AI取引」とは何ですか? 全ての取引をAIが管理する手法 AIが手動で取引を支援する手法 AIが取引を禁止する手法 AIがリアルタイムで市場データを分析し、自動的に取引を行う手法 None 14. クラウド環境でのデータ保護において、最も重要なポイントの1つは次のうちどれですか? データをクラウド上で全て公開する データのバックアップを行わない データの監査ログを無効にする データを暗号化して保管し、アクセス制限を設ける None 15. AIが「スマートホームシステム」で果たす役割として最も適切なものは次のうちどれですか? 家電の修理を行う 家電の設置を自動で行う 家電の使用を制限する 家電の自動制御を行い、エネルギー効率を最適化する None 16. Kubernetesにおける「ポッド」とは何ですか? クラスタ全体の負荷分散を行う機能 コンテナ間の通信を管理するプロトコル コンテナの依存関係を管理するシステム 1つまたは複数のコンテナを含む最小のデプロイメント単位 None 17. データを説明する際、対象者の理解を促進するために考慮すべき要素は次のうちどれですか? 対象者のバックグラウンドや専門知識レベル データの量 グラフの色彩 文字の大きさ None 18. データの活用が企業経営において重要視されている理由は次のうちどれですか? 感覚や経験だけでの経営が優位であるため データの解析に時間がかかりすぎるため データが信頼できないから データに基づく意思決定が、感覚に頼る意思決定よりも信頼性が高いため None 19. AIが「農業分野」で導入されることで最も期待される効果は次のうちどれですか? 作物の成長管理を自動化し、生産性と収穫量を最大化する 作物の品種をすべて統一する 作物の管理をすべて手動で行う 農業分野ではAIが使われない None 20. 2標本t検定を使用して2つのグループの平均を比較する際、次のうち正しい仮定はどれですか? 両グループの分散は等しい 両グループの分散は異なる 両グループのサンプルサイズは等しい 両グループのサンプルサイズは異なる None 21. 課題定義のフレームワークとしてよく使用される「5 Whys(5回のなぜ)」の目的は次のうちどれですか? 複数の解決策を洗い出す 問題の根本原因を特定する 問題の影響範囲を広げる 問題解決のための手段を優先順位付けする None 22. AIが「製造業における品質管理」において最も効果的に活用される方法は次のうちどれですか? AIが製品の不良品をリアルタイムで検出し、品質の改善を促進する AIが製品の品質に関与しない AIがすべての製品を無条件で合格させる 製造ラインでAIを無視する None 23. ある変数 X が、他の変数 Y と非線形な関係を持っていることが予想される場合、適切な解析手法は次のうちどれですか? 線形回帰 ロジスティック回帰 多項式回帰 単回帰分析 None 24. データの正規性を説明するために最もよく使用されるグラフは次のうちどれですか? 散布図 Q-Qプロット 棒グラフ 円グラフ None 25. ヒストグラムの役割として正しいものは次のうちどれですか? データの平均値を求めるため データの散らばり具合を視覚的に示すため データの因果関係を示すため データの時系列変化を示すため None 26. Pythonで大規模なデータフレームを高速に操作するために、pandasよりも高性能な代替手段として使われるライブラリは次のうちどれですか? Scikit-learn Dask TensorFlow PyTorch None 27. モデルのパフォーマンスがデータの品質に依存している理由として最も適切なものは次のうちどれですか? データにノイズが含まれていると、モデルの学習が正確に行えないため データが大きいほどモデルの精度が高くなるため データが多いほど、モデルの複雑さを高めることができるため データを使用すれば、必ずモデルのパフォーマンスが向上するため None 28. AIが工場の生産ラインで最も一般的に使用される目的は次のうちどれですか? 製造プロセスの自動化と品質管理の最適化 製品のデザイン作成 販売促進活動 顧客サービスの提供 None 29. データセットの「多重共線性」を検出するために使用される指標として最も適切なものは次のうちどれですか? 決定係数 相関係数 VIF(Variance Inflation Factor) 平均二乗誤差 None 30. データの利活用における「データ保持期間」の設定に関して最も適切な説明は次のうちどれですか? データは使用目的が達成され次第、不要なデータを削除する データは無期限に保持する データは一度取得したら削除しない データ保持期間を設定しない None 31. 非構造化データに対して、生成モデルを用いる場合の最大の利点は何ですか? 非構造化データから新しいデータサンプルを自動生成できる 非構造化データを自動的にラベル付けできる 非構造化データを低次元空間にマッピングできる 非構造化データの前処理が不要になる None 32. データの活用が急速に進んでいる農業分野において、「スマート農業」がもたらす主な利点は次のうちどれですか? 農作物の手作業での収穫を促進する 気象データや土壌データを基に効率的な農業が行える 農業におけるデータの利用を制限する 農作物の種類を減少させる None 33. データの代表値の一つである「中央値」はどのようなデータの特徴を表しますか? データの最頻値 データの平均値 データを大小順に並べたとき、中央に位置する値 データの最大値と最小値の差 None 34. 小売業において、消費者の購買行動を予測するために使用される「購買履歴データ」の活用法として最も効果的なものは次のうちどれですか? 購買履歴データを削除する 購買履歴データをランダムに選別する 購買履歴データを販売しない 消費者の過去の購入履歴に基づいたパーソナライズドな推薦を行う None 35. AI技術が進化する中で、プライバシー保護に対する最新の対応策として注目されている技術は次のうちどれですか? 中央集権的なデータ管理 データの分散処理やフェデレーテッドラーニングの導入 データの完全な公開 データの一元的な収集 None 36. 欠損データの補完手法として「多重代入法(Multiple Imputation)」が有効な理由は次のうちどれですか? 複数の補完値を生成して欠損データを複数回補完し、不確実性を考慮できるため 補完値をランダムに生成して、不確実性を減少させるため データを完全に削除して、不確実性を排除するため 欠損データが存在しても、モデルの精度に影響しないため None 37. CycleGANの主な利点は次のうちどれですか? 非常に短い時間で学習できる クラスの不均衡なデータに対して強い 多次元データの処理に優れている ラベルなしデータでも異なるドメイン間の変換が可能 None 38. 時系列データの予測結果を説明する際に、データのトレンドや季節性を強調するために最も適したグラフは次のうちどれですか? 折れ線グラフ 散布図 棒グラフ 円グラフ None 39. ITセキュリティにおける「レインボーテーブル攻撃」を防ぐための有効な手段は次のうちどれですか? パスワードを暗号化する ソルトを使用してパスワードをハッシュ化する ファイアウォールを設置する ウイルス対策ソフトをインストールする None 40. 分析評価において、「リコール(再現率)」が高いことが重要とされる場面は次のうちどれですか? クレジットカードのスコアリング 商品のおすすめエンジン 広告のクリック予測 健康診断でのがん検出 None 41. Pythonにおいて、ソートアルゴリズムの一つである「クイックソート」の平均時間計算量は次のうちどれですか? O(n^2) O(n log n) O(n) O(log n) None 42. データをグループごとに分類し、それぞれの傾向を説明する際に最も適切な分析手法は次のうちどれですか? 散布図 相関分析 クラスタリング 回帰分析 None 43. AIが医療現場で活用される例として最も適切なものは次のうちどれですか? 手術を全自動で行う 診断支援システムとして活用し、画像診断の精度を向上させる 医師の役割をすべて代替する 患者のコミュニケーションを代行する None 44. 企業が従業員に対して行うべき「情報セキュリティ教育」の目的は次のうちどれですか? 従業員が企業の機密情報を外部に漏洩しないようにするため 従業員が自由に情報を共有できるようにするため 取引先の情報を収集する方法を教えるため 企業の利益を最大化するため None 45. クロス集計表を使って2つのカテゴリカル変数の関係を分析する際に用いられる適切な検定は何ですか? t検定 ANOVA 相関係数 カイ二乗検定 None 46. 欠損データの割合を視覚化するために最も適した手法はどれですか? ヒートマップ 散布図 円グラフ ヒストグラム None 47. モデルの性能向上を目的とした「ブースティング」の手法として正しいものは次のうちどれですか? 個々の弱い学習器を順次組み合わせ、最終的に強い学習器を作る モデルのサイズを減らす 単一の大規模な学習器を使用する データの正規化を行う None 48. AIの活用が進む医療分野での最新技術として最も関連が深いものは次のうちどれですか? 遺伝子編集 画像診断におけるAI支援 生体組織の生成 手術ロボットの完全自動化 None 49. 時系列データの分析において、データの「自己相関」を確認する理由として最も適切なものは次のうちどれですか? データ間に因果関係があるかどうかを確認するため データが一定の間隔で繰り返すパターンを持つかどうかを確認するため データがすべて独立しているかを確認するため データの平均値を計算するため None 50. ビジネスにおける「コンプライアンス」とは何を指しますか? 法律や規則を遵守すること 顧客に対する製品保証を行うこと 社内の従業員を監視すること 取引先との契約を強制的に履行させること None 51. 分析評価における「ベイズ最適化」の利点として最も適切なものは次のうちどれですか? 全てのパラメータの組み合わせを網羅的に探索するため 少ない試行回数で最適なハイパーパラメータを見つけるため モデルの精度を向上させるためのデフォルト手法であるため 決定木に特化しているため None 52. 課題定義において、ステークホルダーからのフィードバックを効果的に活用する方法として適切なものは次のうちどれですか? フィードバックを受けたら、すぐにその意見を基に解決策を実施する すべてのフィードバックをまとめて、解決策の検討に利用する 重要なステークホルダーのフィードバックのみを反映させる フィードバックを検討し、課題の定義が適切かどうか再評価する None 53. 「外れ値(アウトライヤー)」を理解する際に重要な点は次のうちどれですか? 他のデータから大きく離れた値が、全体の傾向を歪める可能性があるため 外れ値は常に無視すべきものであるため 外れ値を取り除くことで、分析結果が必ず正確になるため 外れ値は分析に関係しないため None 54. REST APIを使ってデータを収集する際に、データの形式として一般的に使用されるものは次のどれですか? CSV JSON XML SQL None 55. データの標準化を行う目的は何ですか? データの範囲を広げる データの平均値をゼロにし、分散を1にする データの値を整数に変換する データの分散を大きくする None 56. 外れ値が多く含まれるデータセットを扱う際、最も適切な手法は次のうちどれですか? 外れ値を全て削除する 外れ値を中央値で補完する 外れ値に対してロバストな手法を使用する 外れ値を全て0にする None 57. 次のうち、「多重共線性」が回帰分析の結果に与える影響として最も適切な説明はどれですか? 説明変数間に強い相関がある場合、回帰係数の解釈が不安定になる データの分布が正規分布でなくなる データの欠損値が増加する 外れ値の影響が強くなる None 58. 標準偏差を求める際に必要な計算は何ですか? 分散を2乗する 平均値を引く 分散の平方根を取る 標本数を掛ける None 59. 外れ値の検出と除去において、IQR(四分位範囲)を使用する理由は次のうちどれですか? データの標準偏差が不明な場合でも使用できるため 外れ値を自動的に補完できるため データの分布が正規分布である場合に限って適用できるため データの分布に関係なく、安定した外れ値の検出ができるため None 60. ITセキュリティにおいて、セキュリティパッチ管理の目的として最も適切なものは次のうちどれですか? システムのパフォーマンスを向上させる データの圧縮率を最適化する システムやソフトウェアの脆弱性を修正し、攻撃のリスクを軽減する データのバックアップを自動化する None 61. Pandasライブラリを使用して、dfというデータフレームのage列に50歳以上の行を抽出する方法は次のうちどれですか? df['age'] >= 50 df['age'].apply(lambda x: x >= 50) df[df.age >= 50] df[df['age'] >= 50] None 62. ゲーム理論において「ナッシュ均衡」とは何ですか? プレイヤーがそれぞれの戦略を変更しても利益が増えない状況 すべてのプレイヤーが最適戦略を選んでいる状況 プレイヤー間の協力が成功した結果 一方的に勝利する戦略のこと None 63. コンテナオーケストレーションツールとして正しいものはどれですか? Kubernetes Apache Spark SQL Server JSON None 64. データの「アクセス制御」における主な目的は次のうちどれですか? 誰でも自由にデータにアクセスできるようにする データへのアクセスを適切な権限を持つ人に限定する データをすべて削除する データを自動的に公開する None 65. データベースのシャーディング(Sharding)において、データの一貫性を保つための主な課題は次のうちどれですか? データの物理的な保存場所を変更すること シャード間でデータの同期を保つこと データを圧縮して保存すること データベースのバックアップを行うこと None 66. データ共有において、データの「キャッシュ」を利用する主な目的は次のうちどれですか? データの圧縮を行い、保存スペースを節約するため データのアクセス権を管理するため データの暗号化強度を高めるため 頻繁にアクセスされるデータの応答時間を短縮するため None 67. モデル評価において、「混同行列」が提供する情報は次のうちどれですか? モデルの正確性、誤分類の内訳 モデルの学習曲線の進行状況 データセットの重複率 モデルのトレーニング時間 None 68. データサイエンスプロジェクトにおける「共同開発契約」の特徴として正しいものは次のうちどれですか? 両者が協力して成果物を開発し、その権利を共有する 片方が全ての開発を行い、もう片方が資金を提供する 成果物の権利は一方に独占される 契約期間終了後に権利が無効になる None 69. AIとデータサイエンスの最新技術「GAN(Generative Adversarial Networks)」の主な役割は次のうちどれですか? データの正規化 データの生成 データの欠損補完 モデルの評価 None 70. AIが「プライバシー保護」に与える課題の一つとして考えられるものは次のうちどれですか? データ収集が制限される AIがプライバシーを侵害するリスクがある AIが個人情報を正確に保護する AIがプライバシーに関与しない None 71. 企業が「グリーンウォッシング(greenwashing)」と見なされる行為として最も適切なものは次のうちどれですか? 環境保護に実際に取り組んでいることを報告すること 持続可能な製品の開発に注力すること 環境保護のために全ての活動を停止すること 実際には環境に配慮していないのに、環境に優しい企業イメージをアピールすること None 72. 多変量正規分布における共分散行列の役割は何ですか? 各変数の分散と相関関係を表す 各変数の平均値を表す 各変数の相関を表す 各変数の標準偏差を表す None 73. 次の推論に含まれる誤謬を指摘してください。 「すべてのリーダーは影響力を持っている。 Bさんはリーダーではない。 したがって、Bさんには影響力がない。」 相関誤謬 後件肯定の誤謬 前件否定の誤謬 結論飛躍 None 74. データエンジニアリング環境でのジョブスケジューリングを自動化するために使われるツールはどれですか? Docker Kubernetes HTTP Airflow None 75. モデルのパフォーマンスを向上させるために、次元削減が必要な場合に使用される手法はどれですか? ランダムフォレスト PCA(主成分分析) ロジスティック回帰 k-近傍法 None 76. データ共有プラットフォームで「データのインタープリタビリティ(相互運用性)」を確保するために必要なものは次のうちどれですか? 大規模なデータストレージ データの暗号化アルゴリズム データベースのスケーリング機能 標準化されたデータフォーマットとAPI None 77. 「自然言語処理(NLP)」が活用される場面として、最も適切なものは次のうちどれですか? 画像を自動で生成する 音声データを画像データに変換する 数値データの解析を行う 顧客の問い合わせを自動で分類し、対応策を提案する None 78. データエンジニアリングにおいて、環境構築時に重要な役割を果たす「依存関係管理」とは何ですか? ソフトウェアの動作に必要なライブラリやパッケージのバージョンを管理すること データのバックアップを行うプロセス ネットワークの通信を監視するシステム 仮想マシンのリソースをスケールアップすること None 79. AIの発展により「労働市場」に現れている変化は次のうちどれですか? すべての仕事がAIに置き換わる 労働時間が増える傾向にある 新しい職種が生まれつつある 人間のスキルが無価値になる None 80. データのクリーニングにおいて最も一般的に行われる操作は次のうちどれですか? データの増強 ノイズや欠損値の削除 データの学習 モデルの構築 None 81. 生成モデルを用いて新しいデータを生成する際、正規分布からサンプルを取得する理由は何ですか? 正規分布は生成されたデータの分布に最も近いから 正規分布はデータの次元を低減できるから 正規分布は他の分布より計算が容易だから 正規分布は潜在変数空間において連続的かつスムーズな変化を表現できるから None 82. AIシステムをセキュリティ攻撃から保護するために重要な対策の1つとして適切なものは次のうちどれですか? AIの出力結果を無制限に公開する AIの判断プロセスを全て削除する AIシステムにセキュリティ対策を施さない AIモデルのトレーニングデータを暗号化する None 83. AIシステム運用において、モデルの精度が時間と共に低下する「モデル劣化」を防ぐために有効な方法は次のうちどれですか? データドリフトや概念ドリフトをモニタリングし、モデルを定期的に再トレーニングする モデルのハイパーパラメータを変更せずにそのまま使用し続ける トレーニングデータを毎回同じものに固定して使用する 一度デプロイしたモデルは更新せずに長期間使用する None 84. データの標準化(Standardization)において、最も一般的に使用される手法は次のうちどれですか? ワンホットエンコーディング Zスコア変換 ターゲットエンコーディング ログ変換 None 85. GPTのような自己回帰生成モデルにおいて、「トークン化」の役割は何ですか? テキストを小さな単位に分割して、モデルに入力できる形式にする 生成されたテキストを圧縮して保存する テキストの生成速度を向上させる 生成されたデータの精度を評価する None 86. データ理解において、「特徴量エンジニアリング」が重要とされる理由は次のうちどれですか? モデルの性能を向上させるためにデータの特徴を最適化するため データの前処理を自動化するため データの可視化を行うため 外れ値を取り除くため None 87. 生成モデルにおける「確率的生成」とは何ですか? モデルが常に同じデータを生成すること モデルが観測されたデータだけを再構築すること モデルがランダムなノイズから新しいデータを生成すること モデルがデータのクラスを予測すること None 88. AIによる「需要予測」の導入が成功している業界として最も適切なものは次のうちどれですか? 教育 農業 製造業 エネルギー None 89. 最新のAI技術「ディープフェイク」がもたらす社会的なリスクとして最も適切なものは次のうちどれですか? AIの導入が遅れる データの削除 動画の圧縮 動画や音声の不正な生成による情報操作や詐欺の増加 None 90. AIを運用する際、結果の透明性を確保するために有効な手法は次のうちどれですか? モデルの決定プロセスを明確に説明する モデルの中身をブラックボックス化する 全てのデータを公開する 人間の介入を完全に排除する None 91. データサイエンスプロジェクトにおける「スプリント」は何を指しますか? プロジェクトのリスク評価手法 特定の期間内に行われる作業サイクル プロジェクト終了後の評価 プロジェクトの予算決定手法 None 92. ストリーミングデータを蓄積する際に使用される「Kinesis Data Streams」の主な利点は次のうちどれですか? 大量のデータをリアルタイムで処理しながら蓄積できる データを定期的にバッチ処理する データを圧縮して保存する データを他のシステムと共有しない None 93. 「再現率」は何を示す指標ですか? モデルが誤って予測したデータの割合 正解データのうち、モデルが正しく予測できた割合 モデルが正しく予測したデータのうち、最も重要なデータの比率 データを再利用できる能力 None 94. 暗号化アルゴリズムのうち、対称鍵暗号の例として正しいものは次のうちどれですか? AES RSA DSA ECC None 95. A B C D None 96. モデルのチューニングにおいて、ハイパーパラメータとは何を指しますか? モデルが予測に使用するデータのパラメータ モデルの学習過程で変更されないパラメータ モデルが生成する出力の精度を示すパラメータ モデルの評価に使用されるメトリクス None 97. データ分析における「欠損値処理」の最も一般的な方法は次のうちどれですか? 欠損値をそのまま残す 欠損値を削除する 平均値や中央値で補完する 欠損値を無視する None 98. テキストデータを扱う際、トークン化後の単語数が非常に多い場合に生じる問題は何ですか? 次元の呪い オーバーフィッティング アンダーフィッティング クラスターの数が増加する None 99. データ共有における「Data Lake」と「Data Warehouse」の主な違いは次のうちどれですか? Data Lakeはデータをリアルタイムで処理し、Data Warehouseはバッチ処理を行う Data Lakeは非構造化データを扱い、Data Warehouseは構造化データを扱う Data Lakeは小規模なデータを対象とし、Data Warehouseは大規模なデータを対象とする Data Lakeはトランザクションをサポートし、Data Warehouseはサポートしない None 100. デザイン思考において、プロトタイプの主な目的は何ですか? 最終製品を完成させるため アイデアを具現化し、ユーザーからのフィードバックを得るため 製品のコスト削減を目指すため チームの結束力を高めるため None Time's up