ITパスポート企業と法務

09 データの利活用

ITパスポート

 

調査データ

アンケートやインタビューなどで人から得たデータ。

人の意識や行動、評価などを集めて分析するのに使う。

定量・定性の両方のデータが含まれることがある。

例:満足度に関するアンケートの回答結果。

 

実験データ

条件を操作して結果を観察することで得られたデータ。

原因と結果の関係を検証するのに適している。

再現性が高く、科学的な分析に使われる。

例:異なる温度で発酵速度を比較する食品実験の記録。

 

人の行動ログデータ

Webやアプリ上での人の操作や行動を記録したデータ。

クリック、スクロール、購入履歴などが含まれる。

ユーザーの傾向分析や改善に役立つ。

例:オンラインショップでの閲覧履歴や購入ボタンのクリック数。

 

機械の稼働ログデータ

機械やセンサーの動作記録を時系列で記録したデータ。

故障予知や稼働率の改善に使われる。

自動的に大量に蓄積される特徴がある。

例:工場のロボットアームの動作ログと異常検出履歴。

 

GISデータ

地理的な位置情報を含むデータ。

地図上に配置できるため、空間分析に使われる。

属性データと組み合わせて、地域ごとの傾向が見える。

例:災害発生地点と避難所の位置関係を示したデータ。

 

量的データ

数値で表せるデータ。

長さ、重さ、売上など、計算や統計処理が可能。

定量データとも呼ばれる。

例:1日の来店者数、商品の価格など。

 

質的データ

性質やカテゴリで分類されるデータ。

数値ではなく、名前や分類などを示す。

分析には集計やクロス集計などを用いる。

例:性別、出身地、職業など。

 

1次データ

自分で直接集めた元のデータ。

調査や実験を通じて取得する。

鮮度が高く、目的に合った情報が得られる。

例:自社で実施した顧客満足度調査の結果。

 

2次データ

他者が集めた既存のデータを利用したもの。

統計資料や公開データベースから取得される。

手軽に使えるが、自分の目的に合わない場合もある。

例:政府統計や過去の市場調査報告書。

 

メタデータ

データを説明するためのデータ。

作成日時、作成者、ファイル形式などの情報が含まれる。

データの整理や検索、管理に役立つ。

例:写真ファイルの撮影日時やカメラの設定情報。

 

構造化データ

決まった形式(表形式など)で整理されたデータ。

データベースやCSVファイルなどに使われる。

検索や集計、分析がしやすい。

例:Excelで作られた売上管理表。

 

非構造化データ

形式が決まっていない自由な形のデータ。

テキスト、画像、音声、動画などが該当する。

AIなどでの前処理が必要なことが多い。

例:SNSの投稿文やニュース記事の本文。

 

時系列データ

時間の経過とともに記録されたデータ。

時間軸に沿った変化や傾向を分析できる。

季節性や周期性の分析にも使われる。

例:月ごとの気温、毎日の株価など。

 

クロスセクションデータ

ある時点で複数の対象から得られたデータ。

同一時点での比較分析に使う。

一時的なスナップショットとして扱われる。

例:20XX年4月時点の47都道府県の人口。

 

データのサンプリング

全体から一部のデータを代表として抽出すること。

調査や分析の効率化に使われる。

無作為抽出や層化抽出などの方法がある。

例:1万人の顧客から100人を無作為に選んで意識調査。

 

データの名寄せ

同じ対象に関する複数のデータを統合すること。

名前や住所などが表記ゆれしていても、同一人物として扱えるようにする。

データベースの整理に重要な作業。

例:「山田太郎」「ヤマダタロウ」などの表記を統一して1人にまとめる。

 

データの外れ値

他のデータと比べて、極端に大きいか小さい値。

通常の範囲から大きく外れており、分析結果に大きな影響を与える可能性がある。

入力ミスや例外的な現象が原因の場合もある。

処理方法としては、削除・別データとして扱う・中央値で置き換えるなどがある。

例:通常は1000円〜5000円の売上が多い中で、1件だけ50万円というデータがある。

 

データの異常値

本来のルールや条件から外れている値。

外れ値とは異なり、統計的な意味よりも論理的・業務的におかしい値を指す。

センサーの故障、バグ、データ取得ミスなどが原因になることが多い。

原因を特定し、補正や除外などの対応を行う。

例:人間の年齢を扱うデータで「300歳」と入力されている。

 

データの欠損値

本来あるはずのデータが記録されていない状態。

空白や「N/A(エヌエイ)」「null(ヌル)」などの形式で現れる。

分析や計算に使えないため、補完または除外が必要になる。

平均値・中央値・推定値での補完や、欠損のあるデータの除外などの方法がある。

例:アンケートの一部の項目に回答がなく、空欄になっている。

 

アノテーション

データに意味やラベルを付ける作業。

AI学習用のデータ作成に欠かせない。

正確で一貫性のあるアノテーションが品質に直結する。

例:画像に「猫」「犬」とラベルをつけて機械学習に利用。

 

データの季節調整・移動平均

季節による変動や一時的なノイズを平準化する方法。

月ごとの変化を滑らかにしたり、傾向を読みやすくする。

経済や気象データの分析でよく使われる。

例:売上の季節変動を除いて、長期的な傾向を把握。

 

自然言語処理

人間の言語(日本語や英語)をコンピュータで扱う技術。

文章の分類、要約、翻訳、感情分析などが行える。

AIや検索エンジン、チャットボットに活用されている。

例:レビューから商品の評価傾向を自動で分析する。

 

画像処理

画像データを解析・変換する技術。

輪郭抽出、色補正、物体認識などが含まれる。

医療や防犯、工業検査などでも使われる。

例:カメラで撮影した製品のキズを自動検出する。

 

タイトルとURLをコピーしました