データ分析とインテリジェンス

データを受け取る際に気を付けること

情報収集に関するまとめはこちら → 情報収集論・目次と概要

■自分の身は自分で守らなければいけない

定期的に送られてくるデータをいつも通りの場所においてスクリプトを実行したはずなのに、エラーで止まったり、いつもと違う結果になったりということはよくある。そしてそれは忙しい時や納期が迫っている時に限って起こる。

問題が起きたらすぐに解決するスキルも重要であるが、それ以上に大切なのは問題が発生しないように事前に準備と仕組み作りを行うことではないだろうか。

というわけでデータを受け取る際に気を付けることについて、まとめてみることにする。ちなみに調べてみてもあまり出てこなかったのだが、もしスタンダードなやり方があるようならぜひ教えていただければ。

■事前に形式を決めておく

定期的にやり取りが発生することはわかっているのであれば、最初に形式をきっちりと決める方が良い。記録を文章に残し、項目が多ければチェックシートを作成する。また、納期には余裕を持たせ、形式が間違えていたら出し直しをしてもらうようにすれば、あとで大慌てするという事態になることは大分少なくなる。具体的な項目としては、次のようなことが考えられる。

データ型、桁数 Excelで手作業を行っているような場合は特に要注意。桁数が多い場合に表記が変わっていたり、先頭の0が消えてしまったデータが送られてきた経験がある人は多いだろう。事前に先方でチェックしてもらい、おかしなデータが送られてこないようにしよう。

ファイル名 同じファイル名だと、いつのファイルか解らなくなったり、古いファイルを新しいファイルに上書きしてしまうこともある。ファイル名を決めた上で、日付などで区別をつけるのが良い。

ファイル形式 決めておかないと、前回csvファイルだったのが今回txtファイルになったりして、わざわざリネームする羽目になる。1つ2つならともかく、数十あるいはそれ以上のファイルだとお手上げ。

差分か全データか データ足りなかったり一部修正が必要な場合、可能な限り全データをもらった方が良い。差分の場合、以前のデータと形式が揃っていないとうまくまとまらないため、

無駄にexcelのシートが分割されていないか いくつものシートにわざわざデータを分割する人がいるが、1つのシートにまとめて区分なりフラグなりを追加すれば済む話であることを知らない人も多いので、やり方を教えてあげよう。工数も事故も減って喜ばれるし、何より余計な仕事をしなくて済む。

その他 最初に決めて変わらなければそれで問題無いが、知らぬ間に変わったりすると困ること。例:区切り文字、囲い文字、項目名、並び順、ヘッダのあるなし、文字コードなど

■窓口担当者をマネジメントする

データに慣れている人同士が直接コミュニケーションを取る場合より、間に営業など別の人が入ってやり取りをすることの方が多いだろう。営業でデータの扱いに慣れている人は少ないため、おかしなデータが来ても確認せず、そのまま渡してくることもある。データのチェックがどれだけ大切か、事前に取り決めをしておくことでどれだけ無駄をなくすことができるかなどを説明し理解してもらい、よい協力関係を築くことができれば、アナリストはより分析に集中できるようになる。

■それでも人は間違える

ルールを決めたところで、人が介在する限り、どこかで間違える可能性は捨てきれない。いつも大丈夫だからと油断せず、受け取ったデータは自分で確認することも必要である。とはいえ細かく見すぎて時間を取られてしまい肝心の分析ができなくなっては本末転倒なので、仕組みが出来た後ならば項目を決めておき、大きな間違いや欠損が発生していないかを調べる程度でよいだろう。

■そして前処理へ・・・

データが問題なく受け取れたら、次に取り掛かるのはみんな大好き前処理である。前処理については、別の話題になるのでここでは触れない。他の詳しい人が書いてくれることを期待しよう。

前処理の前に必要なデータのチェックについてまとめた → データを受け取ったらチェックすること

このエントリーをはてなブックマークに追加

タグ:データハンドリング 情報収集


最新のブログ記事5件

「人工知能でいい感じの成果を出してくれ」にどう向き合うか
すごい人工知能が開発されたら起きる未来について
csvファイルの扱い方
仕事を早くすることのメリットについて
データ分析実務におけるチェックリスト

ブログトップ > データを受け取る際に気を付けること