調査データ
アンケートやインタビューなどで人から得たデータ。
人の意識や行動、評価などを集めて分析するのに使う。
定量・定性の両方のデータが含まれることがある。
例:満足度に関するアンケートの回答結果。
実験データ
条件を操作して結果を観察することで得られたデータ。
原因と結果の関係を検証するのに適している。
再現性が高く、科学的な分析に使われる。
例:異なる温度で発酵速度を比較する食品実験の記録。
人の行動ログデータ
Webやアプリ上での人の操作や行動を記録したデータ。
クリック、スクロール、購入履歴などが含まれる。
ユーザーの傾向分析や改善に役立つ。
例:オンラインショップでの閲覧履歴や購入ボタンのクリック数。
機械の稼働ログデータ
機械やセンサーの動作記録を時系列で記録したデータ。
故障予知や稼働率の改善に使われる。
自動的に大量に蓄積される特徴がある。
例:工場のロボットアームの動作ログと異常検出履歴。
GISデータ
地理的な位置情報を含むデータ。
地図上に配置できるため、空間分析に使われる。
属性データと組み合わせて、地域ごとの傾向が見える。
例:災害発生地点と避難所の位置関係を示したデータ。
量的データ
数値で表せるデータ。
長さ、重さ、売上など、計算や統計処理が可能。
定量データとも呼ばれる。
例:1日の来店者数、商品の価格など。
質的データ
性質やカテゴリで分類されるデータ。
数値ではなく、名前や分類などを示す。
分析には集計やクロス集計などを用いる。
例:性別、出身地、職業など。
1次データ
自分で直接集めた元のデータ。
調査や実験を通じて取得する。
鮮度が高く、目的に合った情報が得られる。
例:自社で実施した顧客満足度調査の結果。
2次データ
他者が集めた既存のデータを利用したもの。
統計資料や公開データベースから取得される。
手軽に使えるが、自分の目的に合わない場合もある。
例:政府統計や過去の市場調査報告書。
メタデータ
データを説明するためのデータ。
作成日時、作成者、ファイル形式などの情報が含まれる。
データの整理や検索、管理に役立つ。
例:写真ファイルの撮影日時やカメラの設定情報。
構造化データ
決まった形式(表形式など)で整理されたデータ。
データベースやCSVファイルなどに使われる。
検索や集計、分析がしやすい。
例:Excelで作られた売上管理表。
非構造化データ
形式が決まっていない自由な形のデータ。
テキスト、画像、音声、動画などが該当する。
AIなどでの前処理が必要なことが多い。
例:SNSの投稿文やニュース記事の本文。
時系列データ
時間の経過とともに記録されたデータ。
時間軸に沿った変化や傾向を分析できる。
季節性や周期性の分析にも使われる。
例:月ごとの気温、毎日の株価など。
クロスセクションデータ
ある時点で複数の対象から得られたデータ。
同一時点での比較分析に使う。
一時的なスナップショットとして扱われる。
例:20XX年4月時点の47都道府県の人口。
データのサンプリング
全体から一部のデータを代表として抽出すること。
調査や分析の効率化に使われる。
無作為抽出や層化抽出などの方法がある。
例:1万人の顧客から100人を無作為に選んで意識調査。
データの名寄せ
同じ対象に関する複数のデータを統合すること。
名前や住所などが表記ゆれしていても、同一人物として扱えるようにする。
データベースの整理に重要な作業。
例:「山田太郎」「ヤマダタロウ」などの表記を統一して1人にまとめる。
データの外れ値
他のデータと比べて、極端に大きいか小さい値。
通常の範囲から大きく外れており、分析結果に大きな影響を与える可能性がある。
入力ミスや例外的な現象が原因の場合もある。
処理方法としては、削除・別データとして扱う・中央値で置き換えるなどがある。
例:通常は1000円〜5000円の売上が多い中で、1件だけ50万円というデータがある。
データの異常値
本来のルールや条件から外れている値。
外れ値とは異なり、統計的な意味よりも論理的・業務的におかしい値を指す。
センサーの故障、バグ、データ取得ミスなどが原因になることが多い。
原因を特定し、補正や除外などの対応を行う。
例:人間の年齢を扱うデータで「300歳」と入力されている。
データの欠損値
本来あるはずのデータが記録されていない状態。
空白や「N/A(エヌエイ)」「null(ヌル)」などの形式で現れる。
分析や計算に使えないため、補完または除外が必要になる。
平均値・中央値・推定値での補完や、欠損のあるデータの除外などの方法がある。
例:アンケートの一部の項目に回答がなく、空欄になっている。
アノテーション
データに意味やラベルを付ける作業。
AI学習用のデータ作成に欠かせない。
正確で一貫性のあるアノテーションが品質に直結する。
例:画像に「猫」「犬」とラベルをつけて機械学習に利用。
データの季節調整・移動平均
季節による変動や一時的なノイズを平準化する方法。
月ごとの変化を滑らかにしたり、傾向を読みやすくする。
経済や気象データの分析でよく使われる。
例:売上の季節変動を除いて、長期的な傾向を把握。
自然言語処理
人間の言語(日本語や英語)をコンピュータで扱う技術。
文章の分類、要約、翻訳、感情分析などが行える。
AIや検索エンジン、チャットボットに活用されている。
例:レビューから商品の評価傾向を自動で分析する。
画像処理
画像データを解析・変換する技術。
輪郭抽出、色補正、物体認識などが含まれる。
医療や防犯、工業検査などでも使われる。
例:カメラで撮影した製品のキズを自動検出する。