並べ替えや選別から処理へ
改めて考えてみると、検索エンジンやキュレーションが行っていることの本質は、ウェブ上の様々なページのランク付けや選別だ。Googleはウェブ上の厖大なウェブページの中から、検索者が最も必要としていそうな特定のページを探し出そうと、今日もアルゴリズムの改良を続けている。Feedlyなどのフィード購読サービスの場合は、ユーザー自身が「最新情報を知りたいページ」を指定していく。そうすれば自分のお気に入りのサイトの更新情報だけを取得した「自分仕様のマガジン」ができあがる。Smartnewsなどの機械学習が実装されたニュースキュレーションアプリなら、使えば使うほどユーザーの嗜好を学習して表示する記事の選抜の精度を上げていく。
ちなみにSmartnewsがユーザーに配信する記事を選別する際に、ネット上の記事をどのように分類しているのかについて、開発者の方やマーケティングディレクタの方の記事を見つけたので、ここに貼っておく。
そしてまた、改めて考えてみると、私はネットを利用するとき、私がしたいことは何かというと、私の疑問に対する答えが書いてある「特定のページ」を探したいわけではなく、厳密には「答え」が知りたいだけなのだ。だからそれが必ずしも、「特定のページ」に対応している必要はなくて、ただ今の検索エンジンの慣行に従って、「ページごと」に内容を確認しているだけのことだ。私はGoogleを始めて使ったのは確か中学3年の頃だったと思うが、そのとき以来、私はいつのまにか検索エンジンというものの「常識」に暗黙のうちにしたがって答えを探すようになってしまっていただけの話だ。
最近は「データサイエンティスト」と呼ばれる人々が重要だと世間一般には言われている。データサイエンティストの定義は人によって様々で、いまいちピンとこないところもあるが、検索エンジンやキュレーションとの重要な違いは、データサイエンスにおいては情報を何らかの手順で「処理」しているということだろう。ここで「処理」というと、なんだか抽象的な表現で伝わりにくいかもしれない。検索エンジンやキュレーションでは、特定のページの「中身」まで踏み込んでそれを書き換えたりはしない。あくまでもページを外から評価して並べ替えたり、表示するページとしないページを選抜しているだけだ。一方でデータサイエンティストが行うのは、様々なデータをウェブ上から集めてきて、それらを「加工」し、別の見せ方で提示してみせるということだ。ここでいう「加工」というのが「処理」の内実だと考えればいいだろう。
私がある事柄について、何らかの情報を欲しがっているというとき、その情報について「ズバリこれだ!このページを探していたんだ!」と思えるような書き方をしてくれているウェブページが常に存在するとは限らない。もちろんそういうページが見つかる場合もある。デパートの営業時間や、近くにあるスタバの場所などは、「検索」によって簡単に答えを確認できる。しかしもう少し込み入った事柄を調べるとなると話は別で、検索してもすぐに目当てのページは見つからず、結局は複数のページを虫食い的に読みあさり、それらの内容を頭の中でまとめ直さなければならない。これは面倒だ。
それならば、検索の初めから複数のウェブページ上の情報を統合し、簡潔にまとめられた状態で表示するようななんらかの処理の手順を自動化したらどうだろう。今はそれをデータサイエンティストと呼ばれる特定の人間たちが行っているわけだが、これを機会の手に委ねて自動化し、あたかもGoogleで検索するときのように、何かを打ち込んだらそれについての必要なデータが一目瞭然という形で表示されるという風にできないものか。
ウェブページの中身にまで踏み込んでそれを処理に利用してしまうというのは、ある意味では著作権の侵害ということになるのだろうか。単にページを並び替えているだけならば、そういう侵害に当たることはないだろう。しかしページAとページBとページCから適当な処理を施した上でページDを生成したとしたら、それは何らかの意味で「パクリ」ということになるのだろうか。法律に詳しくない私には、このへんのことはよくわからない。
「世界中の情報を整理して人々に使いやすいものにする」というGoogleのモットーはあまりにも有名で、今更取り上げるほどのものでもないかもしれない。ただ、これを深読みすると、「整理」というのは「適切な並べ替え」のことを指している。「加工」とか「処理」ではない。ネット上に色々な人がどんどん何かを書き込んでいけば、あなたの欲しい情報について書き込んでくれている人間のページがきっとあるだろうから、私たちはそのページをトップに表示できるようにがんばりますよ、というのがGoogleのやっていることの本質だという言い方ができる。
考えてみればこういう「処理」のサービスというのはすでに存在していて、Twitter上の手間情報をフィルタリングして弾いてくれるサービスというのがある。これは特定のぷらっとフォーム上に存在している厖大な情報について、ユーザーの嗜好に合わせて適切な処理を施すという志向のサービスだ。もちろん誰か特定のユーザーのツイートを書き換えたりしているわけではない。そこまでしたら完全に法に触れるだろう。それならば、こういう処理というのはどこまで踏み込んでいいものなのだろうか。
先日、unoの機械学習を使ったサービスを使った。
これはTwitterやFacebook上のユーザーの投稿内容を分析して、ユーザーの性格分類を行うもので、29パターンのエゴグラム(人格のタイプ)に分類して、それに応じた髪のスタイリングを提案するというサービスだ。ちなみにこのサービスに関するEngadgetの解説記事があるので、ここに載せておく。
私はTwitterの場合とFacebookの場合と両方を試してみたが、どちらも「論理思考優位の勝ち組タイプ」というような結果だった。これは私個人の情報を利用して処理を行うことに私が同意して行われるわけだが、もしもこれがネット全体のあらゆるウェブページや投稿に対して行われたとしたらどうだろう。それは「検索エンジン」でも「キュレーション」でもない、情報処理の新しい見方ということになるのではないか。これを書いただけでは、「若者に典型的な誇大妄想狂の戯言」というラベルを貼られて終わりそうなものかもしれないが、おそらく技術的には可能だろうと思われる。今の私にはまだ技量が不足していて、これを実現させられないが、プログラミングの学習を続けていって、そのうちプロトタイプだけでも完成させたいと思っている。