粘土と折り紙に教わるビッグデータの処理

「TEDで面白いスピーチないかなー」と思って探していたら、こんなスピーチを見つけた。

Kenneth Cukier: Big data is better data | Talk Video | TED.com

少し脱線するが、ここで個人的には面白いことがひとつ起きた。「ん？ケネス・クキエ？どっかで見たことある気が…。」

そう思って1秒後、この本を思い出した。

作者: ビクター・マイヤー=ショーンベルガー,ケネス・クキエ,斎藤栄一郎
出版社/メーカー: 講談社
発売日: 2013/05/21
メディア: 単行本
この商品を含むブログ (22件) を見る

この本の著者の1人だった。こういう「パッと正解が浮かぶかどうか」ということに近頃は敏感になっている。反射的な想起の精度のモニタリング。

さて本題に戻ろう。ケネス・クキエ氏はより多くのデータを得ることの価値を強調している。上に挙げた本の中でも同様だった。より多くのデータを獲得することによって、データ自体が、自らのもつ意味を語り出すようになる、という主張が印象的だった、そんな文を以前にも記事で書いた。

ビッグデータ自体については今回はそれほど書かない。今回考えたいのは、データと人間の関係についてだ。

人間にとってのデータの量

ビッグデータにしてもそうだが、「データの量が増加した」というとき、それはコンピュータが処理するデータの量であって、必ずしも人間の側が処理するデータの量が増えたわけではない。もちろん「目にするデータの量」は増えたかもしれないが、「処理するデータの量」が増えたかというと、そうでもないだろう。そっちの方は、各個人のもつ処理能力の上限に制約されたままだろうと思っている。コンピュータが進化しました、人間もそれに合わせて進化しました、というわけにはいかない。

コンピュータが登場する前、技術的に先進的な形で提供される「データ」と言えば、新聞、テレビ、雑誌、ラジオ、電話などのメディアを通して提供されるものだった。

もっと遡ろう。とりあえずは、グーテンベルク（15世紀）による活版印刷術の発明以前*1まで。そこでは多くの人にとって「データ」に相当するものは感覚器官で得られるものだけだっただろう。もちろんその大部分は視覚情報だ。人間は大脳を発達させた生き物だが、最も発達したのは視覚野だ。脳の後ろ側の、実に3分の1程度が、視覚情報の処理に使われている。そして忘れてはならないのは、どれほどデータの収集方法が技術的に発展しても、それを最終的に「利用する」*2のが人間である限り、人間の感覚器官で捉えられる形式でそれは表現される必要があるということだ。それはデータの側から見て、もっとも望ましい形式かどうかということは、わからない。あくまでも「人間の側からすれば、それが最もなじみ深いものである」としか言えない。

情報の次数と加工、あるいは粘土や折り紙

では人間にとって、感覚器官を通して環境から入力を受ける情報というのは、何の加工もされていない、いわば「0次情報」だろうか。それとも人間が感覚するより以前に、環境の内部で、何らかの形式に沿って既に加工がなされている、「1次情報」だろうか。それはどちらか人間の側から判断することは可能だろうか。

以前の記事で書いたこととも重なるところだが、情報処理をするのは人間やコンピュータ*3だけではない。*4

すぐに思い浮かぶところではサルや犬、イルカなど、人間以外の脳をもつ生物がいるし、脳をもたなくとも、自らの生存を維持するために必要な活動を行う、植物、粘菌、細菌、或いはタンパク質高分子など、情報処理の主体は様々だ。そして情報処理の主体に情報を提供する「環境」それ自体も、最も高度な情報処理の主体として存在している。

オリジナルの情報*5とそれが加工された1次情報、2次情報、3次、4次…n次という風に、「情報の加工」ということを考えていると、数学の問題を連想する。たとえば簡単な方程式の計算問題がある。

３X＝１２　

∴ X＝４

この手の暗算でも答えがパッと出せる問題だとわかりやすいのだが、暗算で答えが出せなくても、あらゆる数学の問題は、それ自体のうちに既に答えを含んでいるという風に自分は考えている。イメージとしては、折り紙をどんな風に折っても、それは一枚の折り紙であることに変わりはない、そんな具合だ。人間にとって「問題」と言われているときには、「答え」と呼ばれているものとは異なる形を見せているものが、ある一連の操作を加えて変形していくと、「答え」と呼ばれるものになる。しかしそれは何か全く別のものに変わったという意味ではない。あくまで見え方が変わっただけのことだ。粘土をどんな風にいじくり回そうとも、粘土自体がなにか別のものに変わるわけではない。情報の加工も、「粘土の形を変える」という範疇に留まる操作なのではないかと私は思う。

だから、この視点でいくと、人間が感覚器官で捉えるあらゆる情報が、捉えるよりも前の段階で、すでに何らかの操作がなされている「加工済みの情報」ばかりだとしても、それはしかるべく逆向きの操作を行えばオリジナルの情報にたどり着くことが可能かもしれない。もちろんそれに要する時間が「多項式時間（Polynomial-time）」に収まるかどうかはわからないけれども。笑

加工しているのは何？或いは誰？

そしてさらに、「加工済みの情報」について、加工に携わるのは、かつては環境だけだったかもしれないが、メディアの登場以降は、メディアもまた、ある個人が情報を入手するよりも前にその加工を行う役割を担うことになった。この辺の変遷をざっとまとめると次のようになるだろうか。

第Ⅰ期（E）：環境による情報の加工→人間による情報の獲得と加工

第Ⅱ期（E＋PM）：環境＋「人格メディア」による情報の加工→人間による情報の獲得と加工

第Ⅲ期（E＋PM＋NPM）：環境＋「人格メディア」＋「非人格メディア」による情報の加工→人間による情報の獲得と加工

※

E：Environment（環境）　

PM：Personality Media（人格メディア）　

NPM：Non-Personality Media（非人格メディア）

人格メディア・・・人間が情報を加工して情報を流すタイプのメディア（新聞、テレビ、雑誌、ラジオなど）

非人格メディア・・・情報の加工に必ずしも人間が関与しないタイプのメディア（例えばアルゴリズムで処理が自動化されている検索エンジン、キュレーションアプリ、SNSなど）

どの期も情報の流れは左から右の矢印しかないが、人間の側からまた環境、メディアの方へという方向ももちろんある。ただ原理的に、こちらは後手になる。

今日ではコンピュータがその加工作業に占める割合を増加させている。「ビッグデータ」というとき、そのデータは人間の入手以前に、コンピュータによってかなり圧縮されている、というように考えることもできる。「ビッグ」なのはコンピュータにとってであって、人間にとってではない。だから人間がそれに触れるためには、それだけ圧縮しなければならないことになる。ボトルネックは人間だ。

では、「データを最終的に利用するのは人間である」ということと、「だから人間が最終的なデータの処理に携わるべきだ」という二つの主張の間には、切れ目があるか否か。或いは論理的なつながりがあるか否か。どうもないように思う。データの処理については、もしかしたら人間よりもコンピュータの方が優れているかもしれない。いや、コンピュータというと、まだ人間が作り出すものだから、厳密には人間の手を離れてはいないところがある。では粘菌はどうだろう。彼らに情報処理が行えるように条件を整え、様々な処理のパターンを学習させていくと、人間よりも高いパフォーマンスを発揮するかもしれない。いや、私たちが気付いていないだけで、彼らは既に人間よりも高いパフォーマンスを発揮していないとも限らない。私たちは自分たちの脳を、「情報処理の特権的な主体」と思い込みがちな環境を文化的に作ってしまっているが、自然をよく見ていると、どうも「脳」というのは必ずしも「情報処理の先頭ランナー」というわけではないような気がしてくるのだ。

データは誰が処理すべきだろう。粘土や折り紙は誰にやらせるのが一番いいんだろう。

*1:活版印刷術はグーテンベルク以前に、宋代の中国で発明されていたというところに拘るのであれば、「どっちが世間に普及したか」を考えるとよいと思う。そもそも中国は数千字にも及ぶ漢字を使い、それに対してヨーロッパでは、わずか26文字のアルファベットで活字を作る。どちらの方が普及しやすいか、そして実際に普及したかは容易に判断できる。

*2:「処理する」でもいいのだが、その場合、コンピュータの登場以降は人間とコンピュータの分担が発生している。もちろん最終的な処理は、まだ人間の側が行っていることの方が多いだろう。これは人間の側のもつ、コンピュータに対するある種の偏見を繁栄してのことなのだろうという気もする。

*3:ここでは「電子コンピュータ」を念頭に置いている。

*4:

人やコンピュータでなく、ネットワークに問題を解決させるということ - TOKYO/25/MALE

*5:時系列に沿って考えると、現在存在しているすべての情報は過去のなんらかの情報が加工されたものとして存在しているはずだから、オリジナルなものはあり得ないのだが