データ分析とインテリジェンス

機械学習はアルゴリズムを使ったPDCAである

機械学習の説明をする際にどうしたらいいか考えていたら、結局のところは(将来はいざしらず)普段行っていることの道具や方法が少し違うだけで本質的には何も変わりがないのでは、という結論になったのでまとめてみました。機械学習というと、なんだかさっぱりわからないから手をださないか、人工知能が何から何までやるので人間は必要なくなる、と両極端になることが多いようですが、そうではなく1つの方法に過ぎないということが伝わればより使われるようになるのではないでしょうか。

次の表は、PDCAと機械学習それぞれについて一般的な流れをまとめたものです。

>>>続きを読む

データ分析がプロセスであることを意識しないと見えないこと

データ分析をしたいと統計学や機械学習の勉強をしている人は多いでしょうが、いざ実際に使ってみようとするとなかなかうまくはいきません。それは統計学や機械学習の手法を使うというのはデータ分析のプロセスの一部であってそれだけでは成立しないからなのですが、そのことについて触れられる機会は非常に少ないです。

これはいままでビジネスの中でデータ分析が使われることが少なかったゆえに問題点が表に出てこずあまり議論されてこなかったことが原因だと考えられますが、言い換えれば今のうちからこの問題について考え、対策を身に着けておけば先んじることができる、ということでもあります。

>>>続きを読む

『日本軍のインテリジェンス』から現在のデータ分析軽視を考える 目次

>>>続きを読む

データ分析失敗の原因

誰しもが重要だと知っていながら最も実行とは遠いのが、「悪い情報を積極的に聞くこと」であろう。悪い情報を聞いても聞こえないふりをするぐらいならまだましだが、怒り出したり責任転嫁しようとしたりと醜態をさらす人は多い。その情報はあっという間に社内に広まり、全ての信用は失われ、二度と正確な情報が上がってくることはない。「悪い情報はすぐにでも上げるように」と口ではいいながらいざその時になったら豹変などすれば、なおさら悪い。

イエスマンに囲まれて気が付かないうちに業績は悪化、最後は中国の古典『史記』に見る情報の失敗(1)で紹介したように、「わたくしは注進しなかったからこそ命があったのです」などと言われてそれでおしまいだ。そもそも分析の目的は意思決定と行動の質の向上であるのに、その分析がねじ曲がっているのであれば役に立たないどころか害悪である。しかしそうなるように積極的に仕向けているのは、たいていの場合経営者・マネージャー側である。

>>>続きを読む

『大本営参謀の情報戦記』に学ぶデータ分析 目次

>>>続きを読む

そのレポートは本当に必要ですか?

何十万円、時にはそれ以上の額を支払って毎月外注しているレポートであるが、その多くは全くと言ってよいほど活用されていないか、あるいは本当に必要なのはごく一部だったりするなんてのはざらである。

一番危ないのは週ごと、月ごと、四半期ごとなど区切りごとに作られるレポートであるが、とっくに形骸化したり誰が使っているか知らないけれども前任者から引き継いだのでそのままになっているというようなことになっていないか注意するべきだ。特に余裕のある企業だとこの程度の無駄が発生していても気になるわけでもなく、余計なこと言って叩かれるぐらいなら黙っておいた方が得なので放置されているのはよく見かける。

>>>続きを読む

データサイエンティストはSEであるべき・・・か?

最近簡単なツールを作って人に渡す機会が増え、どうしたらうまくできるかを考えることがあったり(よくよく考えてみればそれまさにSE兼プログラマの役目)、システム・ツールの導入に失敗して炎上する様子を横目で見ていて、なぜだろう?と疑問がわき、システム構築関連の書籍をいくらか読んでいたところ、「これはデータ分析も同じではないか?」と感じたのがきっかけである。

ツールの作成は、コミュニケーションやユーザーのレベルに合わせたアウトプットの作成、業務フローの確認といった分析やプログラミングとはまったくかけ離れた業務を行わないと、ユーザーにとって使いにくかったり最悪の場合は誰にも使われないという事態になるのは正しく使えば正しく動くだけのツールは不良品であるに書いたが、これはそのままシステム構築の話と同じだった。

>>>続きを読む

正しく使えば正しく動くだけのツールは不良品である

システム担当は単にツールを作ったら後は知らんぷり、マーケターはスキルが低くてどうしたらいいかわからない、仕事は遅れに遅れて営業はクライアントに怒られ平謝り、苦情は社内を駆け巡り、かくしてシステム担当と営業とマーケターはさらに対立を深めてコミュニケーションが取れずにいろんな作業が非効率になって・・・。どこという話ではなく、どこでも見る景色である。実に馬鹿げた話であるが、コミュニケーションがうまくいっていないと誰が悪いということでもなく自然に起きるようだ。

そんな中、システム担当ではないがデータアナリストとしていろいろな人にツールを作ってきたが、ただツールを作るためのプログラムスキルやDBの知識だけでなくもっと対人間という広い視点からとらえなおす必要があると考え、まとめることにした。

>>>続きを読む

データハンドリングや前処理はもっと注目と評価をされるべき

データマエショリストなどという呼び方が一部されているが、少々自虐的な言い方でもあり、そこには分析が主であり前処理はあくまでも従に過ぎないという意識があると思われる。しかし、本来単に与えられたデータを分析のために加工することのみをさすのではなく、もっと幅広い概念であるはず。すなわちデータ分析プロセスの全体像「インテリジェンスサイクル」とはで言う「要求」「収集」のフェーズを情報分析サイドとして速やかに正確に行うことである。その内容をざっと上げれば以下のようになるだろう。

少々説明を加えておくと、まず問題が正しく理解できていなければ正しい答えなど出てくるわけがない(問題を理解せずにただデータと取り組んでいる人の何と多いことか!)。そしてその問題を解決するためにどのような情報・データが必要であるかを考え、何を課題とするかに落とし込む。そして課題に基づいて情報収集を行い、前処理をするのだがこの際にも分析のためにどのような加工が必要かを考えるためには分析スキルが必要であるのは明白だろうし、知識があっても実務能力がなければこれも意味が無い。つまりこれらのうちどこかが大きく欠けてしまえば、誰かの指示の下で言われたことを作業するだけになるか、誰もマネジメントしていない環境であれば役に立たない分析が出来上がる。

>>>続きを読む

アンサンブル学習のブースティングとバギングの違いについて

バギングとブースティングの区別がようやくつくようになってきた(気がする)がさらにそれぞれのアルゴリズムになるとまだ混乱する。というわけで、今のところの自分の認識を書いてみる。

アンサンブル学習とはようするに「1回で決めるよりたくさんやって平均取った方がいいんじゃね?」というアプローチということであると理解している。たしかにその方がより正しそうな結論がでそうだし、異常値などに引っ張られることも少なくなったりするだろうと想像はつく。細かいやり方は違うけどやっていることは至極自然な発想。

>>>続きを読む