データ分析とインテリジェンス

データを受け取ったらチェックすること

情報収集に関するまとめはこちら → 情報収集論・目次と概要

■データは手に入れた。次に前処理・・・の前にデータを確認する。

データを受け取る際に気を付けることの続き。

データを手に入れたらすぐに前処理というとそうはいかない。データがきちんとしているか、チェックしなければならない。この工程をせずに先に進むと、後で抜けもれが発覚したり、どのように処理するかを決めなおさなければならず、余計な手間がかかる。

■1・データの定義を把握する

特に初めて扱うデータの場合、何のデータであるのかをきちんと把握する必要がある。「○○というデータらしい」「□□のデータだろう」など曖昧な言葉ではなく、正しくその定義を確認する。データ定義書があればそれに越したことは無いが、いつでも容易されているわけではない。データの中身を知らなければ、正しいかどうかのチェックのしようもない。

■2・過不足がないかを確認する

「売上上位100件のデータ」など解り易い数字があればその件数を確認することで抜け漏れが発生していないかの最初のチェックができる。日付であれば月別や日別でみることで、揃っているかどうかがわかる。

件数の指定がない場合でも、規模感を知っていればそこから大きく外れていないかを確認できる。あまりに違う場合は連携データが違う、過不足が発生しているなど問題が起きていないか調べ、それもなければ本当に正しいかをデータ作成者に確認する。

■3・欠損値や異常値を確認

件数は正しくても一部データが壊れていたりすることがある。例えば先頭が0になっているはずのデータ(IDなど)が、数値型になって先頭の0が消えているような場合である。作成者がデータに慣れておらずExcelで作業をしてそのまま保存した場合に起きる。修正可能かつ工数が少ないので対応に手間がかからないか、または時間が無いのでやむをえない場合を除いて、基本的には作り直しを要求する方がよい。それ以後定期的に同様の作業が発生する場合は特にそうするべきだ。

異常値についてはそのまま集計してもさほど影響がない場合(回数分布など)は考慮せずとも良いが、影響が大きい場合はそのまま使うか、修正するかを検討する。ローカルルールで勝手におかしな数値を入れたりしている場合もあるため、注意が必要。

■4・重複をどうするか

重複している場合そのまま使うのか、ユニークにするのかは分析の内容次第なので、依頼者と協議をする。重複を消すか消さないかでどのような影響が出るかについて提示して上げれば話が進みやすい。ユニークにする順番で結果に変化が出るような場合は優先順位をどうするかも決める。

■5・全体の俯瞰

最後に全体の俯瞰をする。カテゴリ別に件数を集計して、おかしなところがないかを確認する。男女別で見たらほぼ同数なはずなのに偏っている、あるカテゴリ別で見れば人気のあるカテゴリとそうでないカテゴリがあるはずなのに似たような数字になっているなど、予想している数字とずれがあれば、データ作成者に確認する。必ずしもデータ作成者が間違えているわけではなく、データは正しく自分の認識が間違えている、あるいは特殊な事例が起きた可能性もある。

■今度こそ前処理へ・・・

ちょうどデータ確認で失敗したところなのでまとめてみた。データのチェックが終われば、今度こそ前処理のフェーズである。これも個別に書き出すと1大テーマになるので別の機会に。

このエントリーをはてなブックマークに追加

タグ:データハンドリング 情報収集


最新のブログ記事5件

すごい人工知能が開発されたら起きる未来について
csvファイルの扱い方
仕事を早くすることのメリットについて
データ分析実務におけるチェックリスト
機械学習はアルゴリズムを使ったPDCAである

ブログトップ > データを受け取ったらチェックすること