医療から宇宙へトップ分析会社

データマイニングに関する8つの誤解

「意思決定のためのデータマイニング」という以下の本から、データマイニングに関する8つの誤解についての抜粋です。

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

作者: StÃ©phane TuffÃ©ry
出版社/メーカー: Wiley
発売日: 2011/04/18
メディア: ハードカバー
購入: 15人クリック: 478回
この商品を含むブログ (2件) を見る

よく質問されることも含まれてます。”誤解”なので、そうではないですよ、ということがタイトルになってます。

1. 事前の知識は必要ない⇒事前知識は必要

データマイニングする際には分析対象のデータに関する事前知識は必要です。特に変数が表す意味や、どういう経緯でデータが入手されているかなど、業務知識は重要です。

2. 専門的なスタッフは必要ない⇒専門スタッフが必要

分析の専門家だけでなく、データに関する当該業務の専門家も必要です。例えば、経済的なリスクを評価する分析を行うときには、リスクを何に設定するのか、専門家が決定しなくてはなりません。

3. 統計学者は必要ない⇒統計家が必要

データマイニングで一番時間がかかるのはデータプロセシングです。変数の信頼性や相関のチェックなどは統計家が行うべきですし、他にも確認することがたくさんあります。欠測、過適合、多重共線性、アルゴリズムのパラメータ、変数の型など。ソフトのボタンを押すだけでは良い分析はできません。

4. データマイニングは思いもよらないことを発見する⇒（特に分析し始めは）当たり前の事が発見されることが多い

データマイニングで利用される変数は、（業務の）専門家に決めれられたものであることが多いです。そのためデータマイニングによって生成されたモデルは、思いもよらない、ということは少ないです。データマイニングでできることは、数千の変数の組み合わせから最も良い組み合わせを抜き出したり、それによってターゲティングルールを少し変更することで反応率が良くなる事もあります。

5. データマイニングは全く新しい技術⇒昔ながらの技術も多い

データマイニングは古典的な分析も含みます。これまでの分析と違うのは、データサイズが大きい、性能が少し落ちても解釈しやすいモデルを使うなどの点ですが、データマイニングが全く新しいわけではありません。

6. 手に入る全てのデータを利用しなくてはならない⇒データを絞ることも重要

データマイニングの結果は、変数が沢山あるほど改善すると思うかもしれないが、そう言う訳ではない。良いモデルができたとき、さらに改善させようとして変数を加えると、モデルの質や頑健性が悪くなることもあります。

7. いつもサンプリングしなくてはならない⇒全数データを使うこともある

サンプリングするときは、元の集団のことを良く知っておかなくてはなりません。顧客特性が良く変わる分野ではサンプリングは控えるべきです。サンプリングデータの分布は、もとのデータの分布と一致している必要があるので、サンプリングによって稀なデータ（稀な現象や小さいセグメントの顧客）が無くなってはいけません。

8. 絶対にサンプリングしてはいけない⇒サンプリングすることもある

予測モデルを作るとき、学習と検証のためにサンプリングが必要です。またデータが大きいときに、サンプリングすることで早くモデルを作ることができます。サンプリングデータで深い計算をすることで、良いモデルができることもあります。

データマイニングのことを過度に期待せず、正しく効果的に利用しましょう、ということですね。”ビッグデータ”にも同じ事が言えるかと思います。