BLOG

ブログ

新着記事

2020.11.20 DXデータ分析

そうだ!テキストマイニングの手法を用いて、世間の関心を可視化(数値化)してみよう。

こんにちは! FabeeeでデータサイエンティストをしておりますサジタリアスのSです。

いろんな締め切りの足音が近づいてきている・・・・。

これは、やばい・・・。
学生時代、締め切り前に大学の研究室にAmazonで買った寝袋とエナジードリンクを常備して、
徹夜していたあの頃の感覚に似ている・・・。

論文の投稿のように締め切り伸びないかな・・・・。
なぜか論文等の締め切りは、かなりの確率で伸びていた気がする。

とはいうもののブログの当番が回ってきたが、何を書いたらいいんだろう??

 

私サジタリアス、迷いました。

 

業務の宣伝もしつつ、自分が研究的なことをしていることを
知ってもらえるような内容にしたい。

これまで論文などで発表していたことは、探してもらえれば見つかるので、

なんか新しいデータでこれまでやってきた手法などを使って簡易的な分析をした方が

良いのではないかと考えたわけです。

ということで今、自分の手元にどんなデータを取得しているか確認してみました。

するとちょうど良く、タイムリーなテキスト系のデータがあるじゃないですか。
ということで、このデータを使ってちょっとした分析結果を
少しだけ共有してみようと考えたわけです。
ここからは簡易分析に少しお付き合いいただければと思います。

 

 

今回の分析手法

Dynamic Topic Model (DTM)デスクトップミュージックではありません。

まず、トピックモデルについて超簡単に説明したいと思います。
数式などは、割愛して全体のイメージを
掴んでもらえればいいのではないかと思います。

 

トピックモデルとは、文書で取り上げられているトピック(話題)を
推定する教師なし学習の手法です。
文章だけではなく、購買データなど様々な分野に応用ができる手法です。

 

大前提として、トピックモデルを用いる場合には、
文章は複数の潜在的なトピックから確率的に生成されているという
仮説の上で分析を行なっていことになります。

 

またDTMでは、Dynamicとついている通りでトピックモデルを動的に扱うことができ、
トピックには流行り廃りがあり、同じトピックの中での単語の使い方も
変化することを考慮し、時系列データについてモデル化した手法になります。

 

DTMにおけるグラフィカルモデルは、下記の流れのようになります。


トピックの変化というのは、新聞記事の中ではじめは経済面のみでのみ扱われていた内容がやがて政治面、
1面と広く扱われるようになったりと話題の扱われ方などを捉えることになります。

DTMに適用させるために各文章(ここでは日毎のユニークなtweetを1日の文章として考え)の
単語の頻度を観測し、全ての文書から指定した数のトピック(今回は10個)を求め、
文書におけるトピック構成比率とトピックにおける単語の構成比率を推定していきます。

興味がある方は、より詳細な分析手法の説明は、論文等を参照してください。

 

 

今回の分析に使用するデータ

「コロナ」というキーワードを含んだtweetデータ
期間:2020年4月7日から2020年9月24日
取得方法:twitterAPIを利用
収集方法は、様々な記事で公開されているので、ここでは割愛いたします。

 

今回のデータから得られた結果
特定のキーワードについてのトピックの中での重要度?の時系列の変化を見たものです。

– 今回確認したトピック内のキーワードの変化

 

1. 時短営業

緊急事態宣言解除から、経済活動が徐々に再開されて行く中で、
飲食店では、時短営業が行われていたことも世間の関心の一つであったようです。
7月以降は、要請が緩和されたりと関心が薄れてきたようですが、
データのない10月以降再び感染数の増加を機に歓楽街などでの時短営業の要請が
出始めていますので、その関心がどのように変化しているのか気になるところです。

 

2. GoToキャンペーン

Twitter上では、6-8月頃に盛り上げを見せ、
世間の注目が集まっていたことがわかります。
トラベルのインパクトは、大きかったがようです。
イートについては、10月から開始されてますが、
開始前の盛り上がりはいまいちだったのでしょうか。

 

3. 新型コロナワクチン

4月緊急事態宣言が出されてから、ワクチン開発が各国で進められる状況下で、
その進捗が7月以降から世間の関心を集め出していることがわかります。

 

4. オンライン会議

このコロナによって、一気に認知度を上げた単語の一つだと思いますが、
4月以降はTwitterで呟くほどのことではなく、
当たり前になってきたことで話題としての世間の関心は、下がってきたようですね。
市民権を得たということでしょうか?

 

 

 最後に

クイックで粗い分析でしたが、意外と我々が感じている変化を
可視化することが出来たのではないかと思います。

 

今回はテキストデータを用いた分析から社会の関心の変化を抽出し、
「人々の行動がどのように変化していくのだろう」といったことを題材にしてみました。

そんなことに興味を持ちながら、データサイエンティストとして業務に取り組んでいます。

 

FabeeeのDX事業部では、今回ご紹介した分析方法だけでなく、
最新の研究成果なども活用しながら、あらゆる業態の企業へのお手伝いを行っております。

紹介した分析内容は、ブラッシュアップしてどこかでアカデミックな活動もしなければ。

 

最後まで、お読みいただきありがとうございました。

 

それでは皆様、手洗い・うがい・消毒などの対策は念入りに。

またどこかでお会いしましょう。