2017-09-30
2017-09-23
読書感想文「Everybody Lies」
Seth Stephens-Davidowitz著の"Everybody Lies"を楽しく読了した。
一言で言うと、ヤバい経済学のビッグデータ版。おれにとっての結論は「ビッグデータとは、おばあちゃんの知恵である」。具体的に言うと2点がおばあちゃんに似ている。
(1)大数の法則には従うが、個別の事象の予測はできない。
(2)一生懸命分析した結果、直感と食い違わない(つまらない)結論が導かれることが多い。
データの面白さ
Google検索トレンドをデータソースとしている点が新しい。他にも研究論文や政府統計、Pornhub(世界最大のポルノサイト)のデータが扱われている。他の記事でもPornhubのデータを目にするので、ビッグデータも「アダルトが最新技術を発展させる」が成り立っているようだ。
Google検索がデータとして面白いのは「アンケートなど質問紙調査と違い、回答者が正直に行動するインセンティブがある」という点。アンケートに正直に答える理由はないが、自分の欲しい情報にたどり着くためには検索窓に明確に入力する必要がある。
例えば、人種差別主義者は、アンケートで「あなたは人種差別をしますか?」と聞かれた時にYESとは答えないかも知れないが、欲しい情報を得るためにGoogle検索では自分の志向を露呈する。
これまでデータで捉えられなかった人間の暗部が見えることが面白くもあり、気が滅入る部分でもある。例えば、人種差別犯罪が起きた時、オバマが感動的な演説をした。その直後に、Google検索トレンドでは人種差別を逆撫でしている事が判明したり・・・
逆に、Google検索がデータとして弱いのは「行動そのものの観察でない」点。偶然の相関と区別が難しい。この本も、ところどころ推論に飛躍がある。
例えば、アメリカの団結の強さを"The United States are"と"The United States is"という異なる文法表現で測ろうとしたり。人種差別に関する検索からHip-hop(黒人の蔑称を多用する)の歌詞検索を間引く方法が杜撰だったり。
人間は、ビッグデータを正しく扱える?
今後、IoTセンサーが発達すると、より人間の行動そのものに近いデータを分析できるようになる。人間がそれを正しく扱えるか?
(1)大数の法則には従うが、個別の事象の予測はできない。
が原則になりそうだ。例えば、ある地域で、犯罪発生と高い相関関係のあるデータが採取できたとする。そのデータに基づいて、警備を増強するのは正しいが、犯罪予備軍を個別訪問するのは(よほど暇でない限り)正しくはない。
SiriやAlexaの英語が流暢な理由
この本の主旨ではないのだが「対話形式でGoogle検索する人が多い」という単純な驚きがあった。Google.comでの検索結果が主なデータソースなので、英語ならではの特徴なのか?
どういうことかというと、だいぶ前に「夫 嫌い」「妻 誕生日 プレゼント」という検索候補が日本で話題になった。日本語でGoogle検索する時って、名詞をスペースで区切ってand検索するケースが多い(と、私は思っていた。)
けれど、この本に出てくる検索ワードは「I hate my husband」や「Why do I hate my husband」のような文章が多い。まるで、Googleと対話するようだ。笑ったのが、「Is my penis small」という検索の多さ。それは、Googleに聞いてもわからんだろう。
こういうデータが、人工知能研究に貢献したんだろう。SiriやAlexa、Google音声検索の英語が流暢なのも、こういった検索データの蓄積が理由なんだ、と腑に落ちた。
単純にオモシロイ分析結果もたくさん載っているので、お勧め
雑談のネタにもなる。
たとえば、
- 男女の初回デートでの言動で、2回目のデートがある/なしと強く相関するもの
- 借金を返す人がよく使う言葉、返さない人がよく使う言葉
- カジノが、常連客をリピーターにする方法
- 競走馬の強さと、その身体的特徴の相関
英語の勉強のつもりで読んだけど、文章が読みやすくて、英語リハビリにぴったりでした。
"Everybody Lies Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are"
Seth Stephens-Davidowitz著
DEY.ST.そういえば、風俗店の文章を分析した、頭のよいオモシロイ人もいましたね。
デリヘル嬢の「お店からの紹介文」を計量分析してガチで読む①
2017-09-16
2017-09-09
2017-09-02
登録:
投稿 (Atom)