全量データとはなんぞや

今話題の全量データについて、ちょっと気になったので少し情報整理してみました。

全量データとはなんぞや

全量データとは、Twitterが開放しているAPIのひとつである「Firehose」から取得したデータのことを指します。いわゆるTwitterに関するすべてのデータです。

このTwitterのFirehoseで取得できるデータを提供しているのは、Twitter社とTwitter社傘下のGnip社の2社だけ。

Gnip(グニップ)とは、2014年にTwitterに買収されたソーシャルメディアAPIアグリケーション企業だそうです。

この2社に認定されたデータ認定企業が、実際にはデータの販売を行っています。日本だとTTデータ、日本IBM、NetBase、Sprinklr、Crimson Hexagonなどですね。

一説によると、TwitterのFirehoseを使うには1億円以上だとか言われています。

どんなデータが含まれてるのだろう

我々一般人は中身を見たことがないのですが、もちろん見ている人もいるわけで、そういう人が何かつぶやいていないかなと調べてみました。


が、やはり情報なさそうですね……。

じゃあ、実際にこの全量データを使って分析している人たちのメディアを見てみることにしましょう。

イマツイの記事内容を精査してみた

全量データを使える人というと、NTTデータさん。

その中で全量データから見えたものを記事にしてパブリッシュしているのがニュースサイト「イマツイ」です。
イマツイ | 豊洲発!ツイートから「今」が見えるニュースサイト
イマツイは毎月数本の記事を投稿してるので、その内容から全量データに含まれてる項目を推測してみました。

全量データの構造

おそらく構造としては、大きく分けて「ユーザーデータ」と「ツイートデータ」になるのではないかと思います。

Twitterアナリティクスや広告管理画面から取得できる項目はもちろん取れるものとして、さらに追加できるのでは?と思われる項目をひとつ。

それは仔細な位置情報です。

まずは「そうかな?と思ったのはこちらの記事から。
夏ボーナスの行方にデータから迫る | イマツイ | 豊洲発!ツイートから「今」が見えるニュースサイト
夏のボーナスの使いみちについての記事ですが、各地域ごとにツイートがきっちり分けられています。

そもそも位置情報はユーザーが自ら追加しなければ取得できない数値のはずではありますが、別情報で類似位置情報を活用しているのかもしれません。

また、「隅田川」の記事から分かるように、非常に高精度な位置情報があると思われます。ひょっとすると基地局情報も入ってるかも。

おわりに

以上、いかがでしたか。

Firehoseについては2017年に仕様変更が発表されてますので、そちらについても整理してみたいなと思いつつ。

それでは!