誰でもできるデータサイエンス勉強会レポート

2021.12.13

2021.12.13

Fabeee社員ブログ


弊社(Fabeee株式会社)で開催している勉強会について記事にしました。
今回は弊社DX事業部データサイエンスグループの川田が講師として開催した勉強会の模様をご紹介いたします。
 
今回の講師:川田 真也(かわた・しんや)プロフィール
国公立大学修士課程修了後、webマーケティング会社での広告運用等の実務に従事し、金融系研究会社や起業などを経て、2020年9月Fabeee入社。 博士課程に在籍している傍ら、専攻している計算社会科学領域における実務での活用と 発展を目指し、データサイエンティストとして現在業務に従事。 日本マーケティングサイエンス学会会員。
 

はじめに

ビッグデータ、インフラの向上によりデータ利活用をする企業が増えてきました。
高収入でAIを活用たりキラキラしたイメージがあります。
実際にどのようなデータ分析をしているかなどレポートを通して説明していきたいと思います。
今回はデータサイエンスの入門ということで勉強会を3回に分けて開催しました。

  • 【第1回】誰でもできるデータサイエンス超入門!データの関係性を見つける
  • 【第2回】誰でもできるデータサイエンス超入門!データに付加価値をつける
  • 【第3回】誰でもできるデータサイエンス超入門!モデルを作る

【第1回】誰でもできるデータサイエンス超入門!データの関係性を見つける

データ間の関係性を比較して有力なデータを見つけることで様々なデータの中から着目するデータを見つけることが出来るようになります。
所持しているデータの気づかない要素間の関係を分析、関係性のある要素をまとめてデータから分かる解を導き出せるようになります。

データサイエンスは魅力的な職業

データサイエンスは魅力的な職業で10年後も無くならない仕事と言われています。
ビッグデータやそれに伴うインフラの向上によりデータ利活用をする企業が増えてきました。高収入でAIを活用するなどキラキラしたイメージがありますが実はろても泥臭い仕事です。
実際にどのようなデータ分析をしているかレポートを通して説明して見ていきたいと思います。

多くの分野でデータ日々生成されており2010年以降大幅に増えております。
多くの分野でデータ日々生成されており2010年以降大幅に増えております。

身近にあるビックデータとは

  • youtube、インスタなど投稿閲覧履歴
  • twitterの投稿、フォロワー関係の情報
  • 公共機関SUIKAの利用履歴など

購買データなどの活用も盛んに行われています。
アマゾンのレコメンド機能などもその一つです。
インターネットやスマートフォンの普及などによりデータが取れやすい環境になったのも大きな要因です。

データサイエンスに求められるもの

  • データの収集、運用管理
  • データのルールや正しい理解
  • データのルールからの正しい抽出

今回第一回ではデータのルール正しい理解、正しい理解部分を学んでいきます。
データの収集、運用管理に関してはデータが取れている前提で割愛します。

ちょっとした問題

勉強会参加者みなさんへデータのルールという観点からちょっとしたカード問題が出題されました。
ちょっとした問題

このカードはルールがあります。
「カードの片面にローマ字が書かれていれば」全てのカードを捲って確認をしたら分かりますが、最小の手数でこのルールが成立しているかを確かめるにはどのカードを捲ればいいでしょうか。
 
①Aだけをめくる
②Aと4だけめくる
③それ以外
 
※回答は資料をダウンロードしてご覧ください。

データに関しての正しい理解とは

ここからは本題になります。
例えば1+1=2と誰でも知っているルール。
データサイエンスに与えられるお題では算術計算のように体系化されたルールが必ずしも当てはまる訳ではありません。
もちろん当てはまることもありますが…
 
そこで、今回はデータの関係性に着目していきます。
「相関関係+α」思考の巡らせ方
データを見てどのような要因があるかを学んでいきます。
 
屋台のアイスクリーム屋のデータ事例
屋台のアイスクリーム屋のデータ事例

ここでは前提となる傾向等を理解することを意識します。
このサンプルデータからどんなことを考えられそうでしょうか。

  • 気温が高いとアイスクリームが売れそう
  • 子供の数が多いと売上も伸びそう
  • 天気も関係してそう

などなど、データサイエンスをする上でひとしきり考えられそうなことをあげていくことは大事です。そこから相関関係などを見ることで個々のデータから特徴や違和感に気づくことができます。さまざま角度から物事を考えて仮説を立てましょう。

ここではサンプルデータ関係を見ましょう。
データの関係性を見る(記述統計学の範囲)
①2変数の関係を区別を設けずに対等に見る(散布図にする)

Pythonのライブラリーやエクセルでも作れます。

②相関係数を出してみる

※相関係数の出し方や式などは資料に記載で割愛いたします。

  • 平均気温とアイスクリームの売上数は、強い正の相関はある。
  • 子供の数と平均気温にも正の相関がありそう。
  • 子供の数とアイスクリームの売上数にも、正の相関がありそう。

アイスクリームの売上数とどちらも相関があるが、因果があるとは言い切れない。
これだけでは判断ができません。
この相関係数は2変数の関係を区別を設けずに対等に見ているため因果にはなりません。

3つの指標がどう関係するのかは、理解してみましょう。

  • アイスクリームの売上
  • 平均気温
  • 子供の数


仮に次のような因果の向きを仮定してみます。

  • ①気温はアイスクリームの売上に影響する
  • ②気温は子供数に影響する
  • ③子供の数はアイスクリームの売上に影響する

偏相関係数(平均気温を除外してデータを見る)

偏相関係数を出すことで、「正味の相関関係」をみてみましょう。
ここでは、次のようなことを見ることになります。
平均気温の影響を除いた時の子供の数とアイスクリームの売上に相関があるかを考えます。
つまり、相関を見る対象以外の影響を除いた際の相関係数をみていきます。

ここでは0が気温、1がアイスクリームの売上、2が子供の数となり、-0.14になっているのはアイスクリームの売上の影響を除いた時の、気温と子供の数との相関関係です。

この結果を見ると、今回のデータであれば、因果関係の候補出しまでは、ベースに後続の分析を進めていくことができるのではないかと考えられます。

今回のデータからでは、相関係数並びに偏相関係数のどちらについても「正味の相関」があることがわかり、平均気温の変化とアイスクリームの売上、子供の数とアイスクリームの売上にも影響があるものとまでしか言えません。そこで、まずは今回の問題とはじめに立てた仮説を用いて、矢印の方向を左のように定義してみましょう。
 
まとめ

  • データを理解するためにも、まずお題に対してどのような仮説が立てられるのか列挙してみましょう。
  • 相関関係はあくまでも、2変数の関係を区別を設けずに対等に見ています。
  • 変数が3つ以上出てくる際に比較対象以外の影響を除く必要があるため、偏相関係数の算出で「本来の相関関係」 を見ましょう。

ここまでが【第1回】誰でもできるデータサイエンス超入門!データの関係性を見つける、の内容になります。データを見た上での思考の巡らせ方や相関係数、因果関係を紐づけるための偏相関係数を学ことができました。

【第2回】誰でもできるデータサイエンス超入門!データに付加価値をつける

付加価値をつける作業としては、そのデータセットの中で導き出した特定のルールや規則が適用できるのか、または説明ができるなどを判定し続けていくことです。第2回ではこれを学んでいきたいと思います。

Fabeeeにおけるデータサイエンス領域の捉え方

どういうデータをなんの目的で分析をしていくのか弊社ではビジネスの観点で分析を行っております。現在のデータサイエンスに一番求められる部分です。

 
横軸
機械学習・深層学習(AI・ディープラーニング)
数理モデル(モデル構造作成・データ分析の力)
 
縦軸
モデル構築力(どういうモデルにしたらアウトプットがでるか)
モデルを実装する力(システム面・ビジネス面)
 
今回はデータ分析系を学びます。

ちょっと問題

これからある規則に従って、並べられた3つの数字の書かれたカードを3セット表示します。

みなさんには、ある規則を見つけていただき、最終的にその規則に当てはまる選択肢を選んでいただきたいと思います。

 
上記のカードを見てこれまでの規則に合う選択肢はどれでしょうか

①Aのみ
②Bのみ 
③A,B共に当てはまる
④A,B共に当てはまらない

回答が気になる方は資料をダウンロードしてください。
 
付加価値をつける作業としては、そのデータセットの中で導き出した特定のルール/規則が適用できるのかまたは、説明ができるなどを判定し続けていくことであると考えております。

今回はデータに差があることを証明したいと思います。

データに差がない仮説を棄却する

否定の否定なので肯定となる
この棄却するための仮説仮説を「帰無仮説」よびます。
また元の示したい仮説を「対立仮説」呼びます。

帰無仮説が棄却されるので対立仮説が正しいという方法で付加価値の付け方を学びたいと思います。今回の手法は、統計的仮説検定と呼ばれる方法「とある仮説に対して、それが正しいのか否かを統計学的に検証する」という推計統計学の手法
 
あくまでも、差の起こりやすさを確率的にとらえる。
=>どれだけ稀なことであるのかを考える

ここで第一回に活用したアイスクリーム屋のデータで次の日の予測をしてみましょう。

前回おさらい
平均気温とアイスクリームの売上数は、強い正の相関はある
子供の数とアイスクリームの売上数にも、正の相関がありそう。
(偏相関も確認していきました。)

これでだけでは因果があるかがわかりません。
そこでこのデータに天気のデータを追加しました。

晴れと雨で売れ行きに差があったのか?
ここに差があるよってのがわかれば付加価値があるよってことになります。

対立仮説:「雨の日と晴れの日でアイスクリームの売れ行きには差がある」
帰無仮説:「雨の日と晴れの日でアイスクリームの売れ行きには差がない」
この帰無仮説が棄却されれば、対立仮説はとりあえず言えます。

ここで、売上数と気温のデータから作成した上の散布図を確認してみます。
雨の日の気温に偏りがあるように見受けられます。
このデータがある中で差があるのかを見ていきます。
仮説検定には色々なやり方がある中でスチューデントT検定を活用します。

雨の日の日数と、晴れの日の日数が異なる=>対応の異なる種類の検定を用いる必要がある。

気温とアイスクリームの売り上げには強い相関があり、散布図にある、ほぼ線形の関係を持つようなデータであることなどを踏まえ、等分散であると仮定し、(平均値の)比較検定していきます。

「雨の日と晴れの日でアイスクリームの売れ行きには差がない」
という帰無仮説において、p値が0.00979となることから、有意水準1%としてもp値が小さくなることから、帰無仮説が棄却することができる。そのため、対立仮説であることが証明できます。「雨の日と晴れの日でアイスクリームの売れ行きには差がある」と考えることができるため、このようにデータに付加価値をつけることができます。

【第3回】誰でもできるデータサイエンス超入門!モデルを作る

第一回・第二回の内容を受けて、データからの簡易的なモデルの作成や機械学習を用いた簡易的なアプローチを学んでいきます。

モデルを作る

第1回、第2回でデータ間が持つ相関関係や、事象が与える影響(第2回では、天候の影響があるのか)についての検定を行いました。
その結果を踏まえて、簡単な数理モデルを作っていきたいと思います。

モデルの作成

① 気温から売上個数を求める、単回帰モデルで作る
② ①に天気による影響を考慮した、重回帰モデルを作る
③ ①②で得られたモデル式を俯瞰的に捉える
④ ③を少し改良してみる

単回帰分析=> 1つの目的変数(Y)を1つの説明変数(X)で予測
重回帰分析=> 1つの目的変数(Y)を2つ以上の説明変数(X)を用いて予測
 
単回帰分析

結果

重回帰分析

結果

求められた回帰式

 
X1:気温
X2:天候_雨のダミー変数
X3:天候_晴れのダミー変数
 
気温が1度上がるごとに95個売り上げがあがり、
晴れの日だと、4.5個売り上げが上がる
雨の日でだと4.5個売り上げがさがる
というモデルになっています。
 
今回与えられた情報からであれば、過去データから単回帰分析で求めたものよりも天候情報を考慮したものの方が、決定係数を高くなり、説明精度は上がっているように思われる。しかしながら、晴れの日と雨の日での売上個数が約5個しか変わらないというのは、現場の肌感覚として合うのかなど、疑問点が出てきます。
モデル式で与えられ、さらに精度が高くなっているからと言って、全てを鵜呑みにしてしまうのは、少々危険です。
 
誤差が大きくなっているところについて確認をしてみましょう。
7/3,4, 9,16,17,18,22,24,25の誤差が大きくなっていますね。
上記の日付に共通点は、ないでしょうか。

ここに平日と休日という ダミー変数を加えて重回帰分析をしてみましょう。






決定係数(目先の精度)の値は向上しましたが、全体的な日毎の誤差自体は、あまり変わりませんでした(むしろ悪化している?)
しかしながら、X2,X3のような天候による影響度合いが大きくなり、
追加した平日・休日の影響も反映さえたものになりました。
 
現状の結果を見ると、まだ休日での誤差が大きくなっています。稼ぎ時であろう休日の時点での大きな予測値の誤差は、深刻です。今回の中では、じゃあどうしていくのかという方針の部分を示すにとどまってしまいますが、次のような改善ができるのではというのを挙げておきたいと思います。
 
①休日での天候は売上そのものに影響を与えそうなので、
現状のダミー変数の考え方を[休日_晴れ,休日_雨,平日_晴れ,平日_雨]といった区切り方に変更してみましょう。

②モデル式の推定方法を別の方法を試す。
(データが十分にあり、過去2年分のデータなどが用意されるのであれば、Prophetなどのライブラリーも利用しそれぞれの結果等の比較を行う)
 
まとめ

  • 分析目的を満たすための論理構成を作り、必要となるデータを想定・準備(追加できるデータを集める)
  • まず単回帰や重回帰分析を用いて、手元にあるデータから考慮した変数などが持つ影響等の妥当性なども検討する
  • 改善ポイントをあげながら、モデルをブラッシュアップさせる

参加者の声

ご参加いただいた参加者様のからはアンケートを取り下記の様な評判の声をいただきました。データ分析の流れやイメージなどが伝わりやすく沢山の方に理解をいただいたようです。

  • データ分析考え方のイメージができてよかった。
  • モデルの構築ということで、前回より少し踏み込んだ内容を学ぶことができた。
  • データの取り扱う上での基礎となる考え方を学べた。
  • データ分析の流れについて知ることができました。
  • 段階的に話していただいたので、理解できました。

第1〜3回までの誰でもできるデータサイエンス超入門の内容をまとめさせていただきました。内容をより詳しく知りたい方は下記から資料ダウンロードができますのでご利用ください。

Fabeee編集部

Fabeee編集部

こちらの記事はFabeee編集部が執筆しております。