データ分析とインテリジェンス

移転しました。今後こちらのサイトは更新しません。移転先→新ブログ

データハンドリングや前処理はもっと注目と評価をされるべき

■データハンドリングや前処理はおまけではない

データマエショリストなどという呼び方が一部されているが、少々自虐的な言い方でもあり、そこには分析が主であり前処理はあくまでも従に過ぎないという意識があると思われる。しかし、本来単に与えられたデータを分析のために加工することのみをさすのではなく、もっと幅広い概念であるはず。すなわちデータ分析プロセスの全体像「インテリジェンスサイクル」とはで言う「要求」「収集」のフェーズを情報分析サイドとして速やかに正確に行うことである。その内容をざっと上げれば以下のようになるだろう。

  • ・問題を理解する力
  • ・何を課題とするかに落とし込む力
  • ・情報収集力
  • ・前処理のためのデータハンドリング(クレンジング・前処理)能力
  • ・統計学・機械学習など分析スキル

少々説明を加えておくと、まず問題が正しく理解できていなければ正しい答えなど出てくるわけがない(問題を理解せずにただデータと取り組んでいる人の何と多いことか!)。そしてその問題を解決するためにどのような情報・データが必要であるかを考え、何を課題とするかに落とし込む。そして課題に基づいて情報収集を行い、前処理をするのだがこの際にも分析のためにどのような加工が必要かを考えるためには分析スキルが必要であるのは明白だろうし、知識があっても実務能力がなければこれも意味が無い。つまりこれらのうちどこかが大きく欠けてしまえば、誰かの指示の下で言われたことを作業するだけになるか、誰もマネジメントしていない環境であれば役に立たない分析が出来上がる。

一般的に前処理能力と言えば「前処理のためのエンジニア能力」のみをさすことが多いようで、たしかにそれだけしか考えなければ単なる作業者となってしまいかねない。しかし、このようにもっと広い概念であると考えれば分析に重要なポジションであるということが良くわかる。ただし、重要であること評価されることは別であり、残念ながら情報に加えて兵站も無視しがちな日本企業においては評価されるあまり期待できない。言い換えれば、この役割が重要であると考え評価する企業は相当にリテラシーが高いということでもある。

■データハンドリングの書籍や資料が見当たらないから作ろう

よくよく考えてみれば、実務の中であれこれ失敗したり試したりして身に着けてはきたが、データハンドリングや前処理についてまとまった書籍や資料というのはほとんど見当たらない。いったいみんなどうやって勉強しているのだろうか。

以前にもいくつか書いたが、もっと体系的にまとめられれば有用なのではないかと考えている。とはいえいきなり全部は難しそうなので、当面の目標は「初心者データハンドリング・前処理ハンドブック」を目指してまとめてみよう。

このエントリーをはてなブックマークに追加

タグ:データハンドリング 前処理 クレンジング インテリジェンスサイクル データ分析プロセス


最新のブログ記事5件

大学や独学でデータ分析の勉強をしただけだと実務で使えない理由
「データ分析をする人」とは何をする人のことを指しているのか
定期レポートを効率化する
最悪のデータ分析組織とは
「何を知りたいのか」がわからなければデータ分析は始まらない

ブログトップ > データハンドリングや前処理はもっと注目と評価をされるべき