BLOG

ブログ

新着記事

2020.02.27 ゴッチのIT雑記データ分析

ゴッチのIT雑記 #02《データサイエンス業務の8割は前処理ってほんと?編》

 
こんにちは。前回は《データ分析ってなんだろう?編》を投稿させていただいた、ゴッチです。

 
今回は、データサイエンス業務関連のことを書きたいと思います。
「『データサイエンス業務の8割は前処理』ってよく聞くけど、本当?絶対盛ってるよね?なににそんな時間かかってるの??」と思ったことのある人(つまり昔の自分)に向けて書きました。

 
一応僕はいままさにデータサイエンス業務の前処理を担当しているので、それなりに信憑性のある情報をご提供できると思います。
よろしくお願いします。


 
『データサイエンス業務の8割は前処理』という言葉を聞いたことがあるでしょうか?
これはデータサイエンス系のことを勉強したり調べてたりするとよく聞く言葉です。

 
この言葉を聞いて、
「本当?8割も?なんで?理由は?内訳は?絶対盛ってるよね??」
と思ったことのある方は少なくないと思います。僕は思いました。(だってただの処理じゃないですか。しかも前処理なんて、なんだか簡単そうじゃないですか?)

 
今回はこれについて書いていこうと思います。しかしその前に、前処理をよく知らない方もいると思うので、一度前処理についての話をざっとします。そのあとに本題に入りたいと思います。

 
 

前処理ってなに?

前処理というのはデータサイエンス業務のひとつです。データ前処理とも言います。
データサイエンス業務の全体のプロセスは大きく3つに分けることができます。

  1. 業務理解
  2. 前処理
  3. 分析

1は特に難しくないと思います。
業務内容や業務の目的を知らなければ分析はできませんよね。ゲームを一度もやったことがないデータサイエンティストがゲームの売上をあげようと思っても、なかなか難しそうだというのはある程度想像できると思います。

 
3の分析は名前の通りで、分析することです。

 
では、分析するために必要なものはなんでしょうか?
分析するために必要なものは、“データ” ですね。
そもそもデータサイエンス業務というくらいなのでデータは必須です。自動車修理が仕事なのにそもそも自動車が来なかったらなにもできないみたいな感じです。

 
では2の前処理とはなにかというと、分析に必要なデータを用意することです。
「分析 “前” のデータの “処理” 」だから前処理と呼ばれるんだと思います。

 
 

「データサイエンス業務の8割は前処理』ってほんと?

前処理についてある程度わかったところで、本題の『データサイエンス業務の8割は前処理ってほんと?』について話していこうと思います。
まず結論からいうと、「場合による」です。
なんだかめちゃくちゃつまらない回答ですね。

 
これをもう少し詳しく言うと、
「8割かかることもあるし、かからないこともあるし、8割を超えることもある」
という感じです。

 
これだけでは納得できないと思うので、具体的にデータサイエンス業務の現場を想像してみましょう。
例えばあなたがデータ分析するために現場に入って、「データはどこですか?」と上司に聞いたとします。するとこんな答えが返ってきました。

  1. 「データ?あるとは思うんだけど、どこにあるのかはわからないな。たぶん整理もされてないんじゃないかな」
  2. 「データは全部ここに入ってはいるんだけど、整理はされていないよ」
  3. 「データ全部ここにあるよ。顧客データはこれで、アクセスログはこれ。この資料に各データの一覧と説明が書いてあるから参考にしてね」

1の場合はまずデータを探すところから始めなければならないですね。データがあればまだいいですが、なかったらどうでしょう。さらに時間がかかりそうですね。

 
2はデータを探す必要はなさそうですが、そのデータがなにを意味しているか、そのデータは正しいのか、なにと紐づいているのか、まだまだやることはありそうです。

 
3はデータもあって整理もされていて、各データの説明がされている資料もあるそうです。
これであれば割と早い段階で分析に着手できそうです。

 
言うまでもないと思いますが、1が一番時間がかかって、2はその次、3は一番時間がかからない、というのを想定しています。
前処理についてまとめると、だいたいこのようになりそうです。

  1. データを探す
  2. データを整理する
  3. 分析しやすいようにデータを加工する

この段階のどこから始めるのかによって前処理にかかる時間は大きく変わる、というのをご理解いただけるでしょうか。
このような理由があるため、
『データサイエンス業務の8割は前処理』というのは、「場合による」と答えさせていただいた次第です。


 
前処理についてざっくり理解できたでしょうか。

 
以上では話を簡単にするために厳密さを欠いている部分もありますが、だいたいこのような感じです。
もっとちゃんと知りたいと思った方はデータサイエンス系の本や、最近では前処理についての本も出ていたりするのでそういうのを参考にしていただければと思います。
僕もまた機会があったらもう少し踏み込んだ話を書いてみようと思います。

ありがとうございました!

 
AIコンサル/SES/受託開発はこちら