BLOG

ブログ

新着記事

2020.02.20 ゴッチのIT雑記データ分析

ゴッチのIT雑記 #01《データ分析ってなんだろう?編》

 
こんにちは。現在データサイエンスの、主に前処理に従事しているゴッチです。
以前、 スクレイピングと形態素解析で「名詞王」を決める という記事を投稿させていただきました。
こちらのブログもおもしろいのでぜひ読んでみてください。

 
いきなりですが、データ分析とはなんでしょう?

 
僕はデータ分析といえばヒストグラムを出してみたり散布図を出してみたり、プログラミングを駆使していろいろなグラフやら統計量やらを出して、そしてそれらを見てなにかしらの答えを出すのがデータ分析だと思っていました。
でも、本当にそうなのでしょうか?
データ分析にはプログラミングや数学の知識は必要なのでしょうか??

 
 

ひとつのグラフだけでもデータ分析はできる

最近『自分のアタマで考えよう』という本を読みました。(9年くらい前の本なのですがおもしろいので何度も読んでいます。オススメです)
この本では《知識と思考の分離》や《思考の生産性》などのおもしろい話題がたくさん載っているのですが、その中で、メインパートではないのですが、日本の出生数のグラフを見ていろいろ考えるパートがあります。
この本ではそのたったひとつのグラフから様々な「なぜこんな形なのか?」や「ここからなにが言えるのか?」を詰めて行くのですが(おもしろいので紹介したいのですが長くなってしまうので割愛します)、これがデータ分析系の書籍だとそうはならないと思います。

 
これがもしデータ分析系の書籍だと、「男女で層別化してみよう!」や「10年後を予測してみよう!」と展開していくでしょう。
たしかにそれもいいですが、この本のように、ひとつのグラフだけでももっと楽しめるとも思います。1つのグラフをスルメのように楽しむのも大変趣があり素晴らしい行為だと思います。

 
 

先日のPython boot campでの一幕

ここまで『自分のアタマで考えよう』という本を題材に、「グラフひとつだけでもデータ分析はできるよね!」という話をしましたが、これと似た話が先日のPython boot campでもありました。

 
(Python boot campとは弊社が不定期で催しているPythonとデータサイエンスの勉強会です)

 
有名な統計量に“平均値“というのがあります。これはみなさんご存知で、小さい頃から計算できたと思いますが、この平均値も立派な統計量の一つです。

 
Python boot campで弊社CTOの杉森はこのように言っていました。

 

(平均値など各統計量を算出するメソッドを紹介したのち)
「この表を見てなにが言えるでしょうか? 平均値や中央値などの値が並んでいますね。ここからなにが言えるでしょうか? 考えてみてください」
「昨今ディープラーニングなどの様々な分析アルゴリズムが開発されています。しかし、覚えておいてください。難しい手法を使えば難しい課題を解決できるとは限りません

文章にするとなんとなくそっけないというか、なんてことないセリフのようですが、データ分析系の本を読んでいてもこのようなセリフはなかなか出てきません。
多くの場合「層別化をしてみよう!」のように、メソッドをこねくり回す系の話に持って行きがちです。
(個人的な話ですが僕はこの話の内容とこの話にそこそこ長い時間を使ったことに感動してソッコーでメモをとって、今度もし自分が教える側になったら絶対この話をしようと決めています)


以上、「データ分析ってなんだろう?」と、改めて考えさせられた2つの事例を紹介させていただきました。

 
なんだかデータ分析本アンチのようになってしまいましたが、もちろんそうではありません。
また、僕が読む本が「Pythonデータ分析」系の本だから各種メソッドが紹介されるのはある意味当然です。
もっといろんな本読んで勉強します!

 
ありがとうございました!

 
AIコンサル/SES/受託開発はこちら