分析の結果がおかしいと思った時のチェックリスト
■結果は出てきたが、何かおかしい気がする・・・そんな時のチェックリスト
データを準備して、ツールに投入して実行したら、予想していたのとは大分違う結果が出てきて戸惑う、なんてことは日常茶飯事だが、その際どうやって検証したらよいかについてまとめる。
■入力データが間違えている
正しいデータを使っているつもりだったのに調べてみたら間違っていたというのが最も多いだろう。その内容も様々である。
チェック漏れ
データを受け取ったらチェックすることは必要だが、それでもチェックから漏れているかもしれないので改めて確認する。チェック項目は
- ・欠損値
- ・異常値
- ・先頭の0が消えている
- ・桁がおかしい
- ・文字コード
- ・重複
- ・データが足りない/多すぎる
など。
いつの間にかにデータの仕様が変わっている
相手のリテラシーが低いと定期的に受け取っているはずのデータなのになぜか突然仕様が変わっていることがあるので、調べても間違いがわからなかったら受け取ったデータを疑う。データを受け取る際に気を付けることが大事。
取り込むテーブル名・ファイル名が違う
コードを使いまわししているとありがちだが、名称を変更し忘れていてデータが取り込めていなかったり、古いデータを取り込んでいるのに気が付かなかったりすることがある。
ファイル名は正しいが内容が違う
前処理などでファイルをいじったりしていると起きる。ファイル名は正しいのだが、うっかり古いファイルを新しいファイル名で上書きしてしまうケース。データの形式が同じだとエラーにならずそのまま実行されてしまい、違う結果が出ていることに気が付きづらいので危険。
■取り込みを失敗している
正しいデータであっても正しく取り込めないと結果がおかしくなる。取り込めているかは都度確認が必要。
テスト時に制限した値が残ったままになっている
最初から全部取り込むのではなく、まず試しにいくらか取り込んで中身を確かめることは基本である。が、確認したあと制限を外すのを忘れてそのままにしてしまうことがある。コードの最初であれば見つけやすいが、コードの途中に紛れ込んでいると、見逃しやすい。
途中でおかしなデータがあってエラーを起こしている
仕様は正しいのだけれども、想定していないnullや0のせいでおかしくなっている。
■コードの途中がおかしい
エラーで止まる場合はコードがおかしいとなるが、エラーにならずに結果がかえって来ると間違っていないと思い込みやすい。
範囲指定が違う(年度とか)
コードの途中に直接書き込む形式になっていたりすると地雷。他人が作ったコードの場合はなおさら面倒。
■結果が正しく予想が間違えている
実はコードは正しいのに、当初の予想が大きく間違えていたので違和感を持った、というような場合。危険なのはデータを入れてツールを動かしたのだから間違えていないと盲信してそこから無理矢理理解しようとすることで、事実を捻じ曲げてしまうのは最も行ってはいけない。
■もっとありそうだけど
まずは思いついた内容を書きつらねてみた。他にもありそうなので、思いついたら追記しよう。
タグ:分析
最新のブログ記事5件
定期レポートを効率化する
最悪のデータ分析組織とは
「何を知りたいのか」がわからなければデータ分析は始まらない
データ分析で業務委託を使う・外注する方法
データ分析について考えたことのまとめ
ブログトップ > 分析の結果がおかしいと思った時のチェックリスト