母集団
調査や分析の対象となる全体の集団。
標本はこの母集団から一部を取り出したもの。
母集団の特徴を知るために統計が使われる。
例:全国の高校生を対象にした意識調査の「高校生」全体が母集団。
標本抽出
母集団から一部を取り出して調査に使うこと。
調査のコストを下げつつ、全体の傾向を推測できる。
抽出方法によって結果の信頼性が変わる。
例:5000人の中から100人を選んでアンケートを実施。
国勢調査
国が行う全数調査の一つで、日本に住むすべての人を対象に行う調査。
5年ごとに実施され、人口や世帯の実態を把握する。
統計の基礎資料として政策にも活用される。
例:世帯数や就業状況などを全国的に調査。
アンケート調査
特定のテーマについて人の意見や情報を集める調査。
選択肢や自由記述で回答してもらい、傾向を分析する。
対象者の選び方で結果が変わるため注意が必要。
例:授業満足度に関する生徒アンケート。
全数調査
母集団のすべてを対象に調査する方法。
高い精度が得られるが、コストと手間がかかる。
国勢調査などで使われる。
例:学校の全校生徒に対してテスト結果を集計する。
単純無作為抽出
母集団から完全にランダムに標本を選ぶ方法。
すべての対象が同じ確率で選ばれる。
最も基本的な抽出法でバイアスが少ない。
例:くじ引きで無作為に100人を選ぶ。
層別抽出
母集団をいくつかの層に分け、それぞれから標本を抽出する方法。
層内の偏りを避けて、より代表性の高い標本が得られる。
性別や年齢などで層を分けることが多い。
例:男女別に人数をそろえてサンプルを取る。
多段抽出
複数の段階に分けて標本を抽出する方法。
最初にグループを選び、その中から個人を選ぶといった形式。
大規模な調査でよく用いられる。
例:まず地域を選び、その中の世帯を選ぶ二段階の抽出。
仮説検定
データに基づいて仮説が正しいかどうかを判断する方法。
事前に立てた仮説を統計的に検証する。
判断には有意水準が使われる。
例:「Aの商品はBより売れている」という仮説をデータで検証。
有意水準
仮説を棄却するときに許容する誤りの確率。
通常は5%や1%が用いられる。
この値以下の確率で起きたら「有意」と判断される。
例:p値が0.03なら、有意水準5%で仮説を棄却。
第1種の誤り
本当は正しい仮説を誤って棄却すること。
「ある」と判断したが、実は「ない」ケース。
有意水準がこの誤りの確率になる。
例:AとBに差がないのに「差がある」と判断してしまう。
第2種の誤り
本当は間違っている仮説を誤って採択すること。
「ない」と判断したが、実は「ある」ケース。
第2種の誤りは検出力とのトレードオフ。
例:AとBに差があるのに「差がない」と見逃す。
精度と偏り
精度はばらつきの小ささ、偏りは真の値からのズレを表す。
どちらも分析の信頼性に影響する重要な概念。
精度が高くても、偏りがあると誤った結論になる。
例:いつも同じ方向にズレている測定器は偏っている。
統計的バイアス
データ収集や分析の過程で生じるゆがみ。
正しい推定を妨げる要因になる。
選択バイアスや情報バイアスが代表的。
例:特定の属性の人ばかりを対象にしたアンケート。
選択バイアス
調査対象の選び方が偏っていることで起こるバイアス。
代表性のないサンプルが選ばれると正しい推定ができない。
標本抽出方法が原因になることが多い。
例:ネット調査でネットを使えない高齢者が除外される。
情報バイアス
得られた情報が不正確または偏っていることによるバイアス。
質問の仕方や回答者の記憶ミスなどが原因になる。
結果の解釈を誤る原因になる。
例:過去の出来事を正しく思い出せずに答える。
認知バイアス
人間の思考や判断に偏りが生じる心理的な傾向。
直感や先入観によって合理的判断が妨げられる。
意思決定や情報の解釈に影響する。
例:最初に聞いた情報を重視してしまう「アンカリング効果」。
BI(Business Intelligence)
企業の意思決定を支援するためのデータ分析の仕組み。
蓄積されたデータを可視化・分析し、経営判断に活かす。
BIツールでダッシュボードやグラフを作成する。
例:売上データをBIツールで部門ごとにリアルタイム表示。
データウェアハウス
さまざまなシステムのデータを統合・蓄積した大規模なデータベース。
分析に適した形式で整理されている。
BIやデータマイニングの基盤となる。
例:販売、在庫、顧客の情報を一元管理するための仕組み。
データマイニング
大量のデータから有用なパターンや関係を見つけ出す技術。
統計、機械学習、AIなどを活用する。
予測や分類、異常検知などが目的。
例:購買履歴から「一緒に買われやすい商品」を発見。
ビッグデータ
非常に大きく多様で、処理が難しいデータの集合。
量(Volume)、速度(Velocity)、多様性(Variety)の3Vで特徴づけられる。
従来の手法では扱えないため、AIやクラウドが活用される。
例:SNSの投稿、GPSデータ、センサー情報などをリアルタイム解析。
テキストマイニング
文章データから意味のある情報やパターンを抽出する技術。
単語の頻度や共起関係、感情などを分析する。
自然言語処理を使う場合も多い。
例:顧客の自由記述アンケートを分析して満足度の傾向を把握。
データサイエンスのサイクル
問題設定→データ収集→分析→解釈→活用という一連の流れ。
単なる計算ではなく、課題解決のためのプロセス全体を指す。
サイクルを回して改善を続けることが重要。
例:売上減少の原因を分析し、施策を試して再評価する。
データサイエンティスト
データから価値を引き出し、意思決定を支援する専門職。
統計学、プログラミング、ビジネス理解の3分野の知識が求められる。
問題解決能力とコミュニケーション力も重要。
例:顧客データをもとに売上予測モデルを構築し、提案する。