2015-12-03

データを「要約」する技術 Teraki

■データ量の爆発に対する、「要約」技術


IOTが喧伝されて久しい。
センサーが生むデータ量が爆発し、手に負えなくなるのは明白だ。
通信速度やデータ処理速度も向上しているけれど、追いつかないだろう。

ちょっと古いが、Teraki というベルリンのスタートアップの記事を見つけた。

要点は、
  • Terakiというアルゴリズム(ソフトウェア)はデータの要約ができる。

  • 要約の方法は、音楽分野でfrequency decompositionと呼ばれる方法に近い。

    frequency decompositionというのは、音をsinusoidという単位に分解する技術らしい。
    よくはわからないけど、データを点の集合ととらえず波形でとらえて要約するということかな。

  • このアルゴリズムはデータ圧縮とは異なる。
    データ圧縮は、デバイスのバッテリーや処理時間を無駄に消費する点で向いていない。

  • メリットは、言うまでもなく通信量、処理時間、データ容量の削減。

  • すでに自動車メーカと実装をはじめていて、自動車が生む250MB/時のデータを10MB/時に削減し、精度は99.99%できる。

■記事の内容について


徒然と思ったことをメモ。

  • データの種類によって、適用できるか否かが変わるんじゃないか。
    波形に変換しづらい、バラバラなデータって、要約しづらそう。
    きっと精度が下がるんだろうな。

  • frequency decompositionってどんな技術?
    音がどんなふうに聴こえるんだろう。

  • IOTセンサーが発する波形を音楽として聴けたら、面白そう。
    街なかのセンサー群では、きっとアンビエントな感じだろう。
    テクノがかかっているクラブのセンサー群は、二次創作の材料になりそう。
    人や物の動きに一定のパターンがあるから。

  • IOTデータ量の爆発って、先日読んだ「申し訳ない、御社をつぶしたのは私です。」で、数値目標が増えすぎてシステム化しても管理できなくなる組織に似ている。
    逆に言えば、企業が導入しているシステムにもデータ要約アルゴリズムの需要はある。

■人の脳にもほしい(1)

人間がメディアから受け取る情報量も、もう爆発している。

「おいしいトコどりしてくれる」を売りにしたキュレーション・サービスや「顧客の好みを学習する」は既にあるが、どれも、いまいちピンとこない。

恣意的なマーケティングが絡んでいるからだ。
本当の意味での要約ではなく、「これが金になるんです」というアピールになっていて、的を射ていない。


理想は
  1. 分厚い本を入力すると、要約がもらえる有料サービス
  2. TVのバラエティ番組の面白いところだけ編集してくれるレコーダー

1.は、人力で実現している有料サービスを利用したことがあるが、イマイチだった。

ライターがビジネス書を数ページ分に要約するサイトだったのだが、何にも伝わらなかった。
実際に読んだことのある本についても、要点を外していた。

これも、本の売り上げに響かない配慮が邪魔していたのだろう。
「続きは本書で」とか、要約ではなく紹介に過ぎない内容も多かった。

2.は、今のyoutubeが一部、違法に果たしているサービスかもしれない。


■人の脳にもほしい(2) いや、もうあるぞ。


知覚情報の処理も要約できたら、面白い。
もっと他事を考えたり、第六感が開発されたりするんじゃないか。

たとえば、特殊なメガネをかけると、視覚情報を要約してくれる。
道を歩いている時にかけると、

  • 歩くのに支障がない程度の路面変化は省略してくれる
  • 通行人の細かい動きや持ち物、表情は省略してくれる
  • 通行人のなかから、知人や、好みのタイプの異性をハイライトしてくれる
 と、ここまで考えて、「あ、これ、もうあるぞ」と気づいた。
我々の脳は、情報量の爆発に適応しつつある。

「電車内で化粧する女性」について語る時、「他人は背景」と認知されている、とよく語られる。

つまり、情報を要約して、自分に重要でないものは背景として省略し、気に留めないのだ。

この傾向はもっと加速するのだろうな。