タグをもとに検索しても新しいものに出会えないのはなぜか

　よくツイッターなどでハッシュタグ（＃）のついたツイートを検索したりする。そこで新しいものが見つかるかもしれないと思って、いろいろなユーザーのツイートを見るのだが、基本的には新しいものに出会えることはない。それはどうしてか考えていて、さっきふと思った。

人間がタグをつけているからだ。

　人間が自分でタグを付ける時、それはその人の常識とか感覚に左右される。例えば私が最近読んでいるモイセス・ナイム『権力の終焉』の初めの方で、アメリカ国内の格差に関する記述が出てくるのだが、この本についてツイートする人間がハッシュタグで「格差」という言葉を使うことはほとんどないだろう。たぶん「#本」とか「#権力の終焉」とか「#読書」とかが使われる。

　だから、「読書」とか「本」とか「権力の終焉」という語句で検索した人であればこの本に関するツイートを見つけることができるけれども、「格差」という語句で検索した人間はこの本に関するツイートを見つけることはほぼないと言っていい。出会える可能性はほぼゼロだ。

　Twitterを例にして考えたけれども、これは何もTwitterに限った話ではない。Googleなどの検索エンジンを使って検索しても同じことだし、Amazonで「格差」と検索しても、大抵は「格差」という言葉がタイトルに含まれる書籍が上位に来るに決まっている。だから格差問題について新しい認識やこれまでとは違う議論についての知識を得たい人間が、GoogleやAmazonを利用しても、すでにどこかで見たような「おなじみの結果」しか得られないだろう。それはイーライ・パリサーが問題視した「パーソナライゼーション」とは異なる、原理的な問題だ。

　こういう問題が起こるのはなぜかといえば、『権力の終焉』を紹介する時に「格差」という言葉を意識する人はほとんどおらず、タグをつけるのはそういう人間たちだからだ。Instagramで始まったこの「タグ付け」のしくみは、毎日膨大な量の写真が投稿される写真について、投稿するユーザーがそれぞれ自分で内容を整理してくれるので、サービスを運営する側がわざわざ一枚一枚ラベリングする必要がない。そういう意味でとても便利な仕組みだとして、「タグ付け」は当初かなり絶賛された。私もこの発想はとても便利だと思う。それはコンピュータに判別できない文字列を利用して、コンピュータによる乗っ取りを防ぐ「キャプチャ」と同じくらい斬新な発想だ。

　しかし人間が分類するがゆえの限界もある。人間がものごとをカテゴリー分けするときには、どうしても既にその人の頭の中にあるカテゴリー分けに沿って分類を行う。そんなの当たり前じゃないかといえばその通りだが、これが新しいカテゴリー分けとの出会いを阻んでしまう。

　最近は人工知能の研究では「ディープラーニング」が流行っている。モイセス・ナイムの『権力の終焉』に関するネット上の投稿に対して、人工知能が「格差」というタグを付けられるようになれば、人々が格差について調べたときに『21世紀の資本』のAmazonでのページや個人のブログだけでなく、『権力の終焉』という、それ自体は格差がテーマの本ではないものの、格差についても記述のある本や記事とも出会えるようになり、それによって認識を広げるきっかけが得やすくなる。

　これまでは特に「タグ付け」について書いてきたが、これはニュースアプリの「タブ」についても同じことが言える。「経済」のタブの中で紹介されている記事の内容が「IT」や「農業」に関するものであったりする場合があっても、「私は経済に興味ないから」と経済のタブを表示しないようにしていたら、出会いのきっかけすらなくなってしまう。「どこにどんな出会いがあるかわからないのだから、なるべくたくさんのソースから情報収集しましょう」ということが言いたいのではなくて、物事を分類するというのはけっこう難しいよね、という話である。検索エンジンが行っていることの大半は初期からずっと「分類」であって、今でもその精度はどんどん向上し続けているにもかかわらず、私たちは分類の問題にぶつかり続けているのだ。

　「なんか便利なアプリがないかな〜。」と誰かが思っていたとして、「便利なアプリ」と検索すると、いろいろな種類の便利なアプリを紹介するサイトや記事がヒットするだろう。しかしもしその人がいう「便利」という言葉が、特に「生活習慣を改善するための便利なアプリ」という文脈で使われていたとしたら、「便利なアプリ」という語句では希望する検索結果を得ることはほとんどないだろう。そこで余計なサイトや記事を見なければならないから時間のロスが生まれる。

　そういうロスをなくすためには、今の時点では検索する側の人間が検索ボックスに打ち込む語句を工夫するくらいのことしかない。このように、検索エンジンはまだ、個人の脳内の「文脈」（どの単語をどんな意味で使うかに関するメタ情報）を認識することにはそれほど長けていない。もちろんGoogleは既に今の時点で、検索語句の履歴、ネット上でのサイト間・ページ間の移動パターン、位置情報、クリック回数など、いろいろなデータ履歴を収集・分析し、それを将来の検索精度に反映させている。しかしそれでもなお、「便利」という単語だけからその背後にある「生活習慣の改善」という目的まで読み取って検索するほど洗練はされていない。

　ロボット型の仕組みがもっと洗練されて、人間に意外な出会い、「セレンディピティ」をもたらすようになると面白い。