Wikipediaの記事の生成を自動化できるか
Wikipediaの記事にはいろいろな参考文献のリンク情報が載っている。それらは書籍であったり、特定のウェブサイトであったり、論文であったりする。ある項目について記事を書く場合に、どういう情報が必要であるか、どういう書籍のどの部分を使って文章を書けば読み手にとって理解しやすい文章になるかということは、今は人間の手によって行うのが標準的なのだろうが、どうも最近目にした情報によるとWikipediaの内側はごく一部の人間が編集権を占有しているらしく、他の人間が書いた記事の内容は彼らによって簡単に修正されてしまうような状況に陥っているらしい。
ちなみに記事はこちら。
これはある意味でとても残念な話で、多くの人間が利用している知識の確認サービスであるWikipediaの編集がかなり恣意性を含んだものであるということになる。もっとも編集というのはその定義上、中立ではありえない。マスメディアというと公平性や客観性、中立性が求められるという議論が今でもなされていることがあるが、実際にはそんなことは不可能で、どんなメディアであれ、メディア自体が何らかのバイアスを生んでしまうということは、メディア自体の中立性について懐疑的な目を向けたマクルーハンが、随分前に指摘している事実である。
私は最近の個人的な関心として、赤と青の絵の具から紫の絵の具を作るということを可能にする検索エンジンを作ることができないかということを考えているが、この問題を考えるときに参考になりそうだと思えるのが、Wikipediaである。
すでに以前の記事*1で指摘したように、現行の検索エンジンというのはどれも、やっていることの本質は「分類」と「ランク付け」であり、その単位はウェブページである。文章中の特定の段落や文など、ウェブページよりもさらに小さな単位でランク付け表示を行うことはできないし、ましてやウェブページよりも小さな単位の情報を組み合わせるということはやっていない。
さきほど何の前触れもなくあっさりと赤と青から紫を作るというようなことを書いたが、これは今の検索エンジンについての比喩である。つまりネット上に赤や青、黒、白、茶色、黄色、緑といった絵の具しかなく、検索者は紫の絵の具が欲しいという場合、現行の検索エンジンが何をするかといえば、紫との「関連度合い」(relevance)が高い絵の具、つまり赤と青の絵の具をランキングの上位に持ってきて差し出すということがせいぜいだ。せっかく赤と青の絵の具があっても、それを混ぜて紫の絵の具を作るということは、検索エンジンにはできないし、そもそもそういう風に設計されていない。
想像してみて欲しい、自分は紫の絵の具が欲しいと相手に言ったら、相手はちょうど紫の絵の具は持っていないが、赤と青の絵の具を持っている、そんな状況を。この状況で、あなたは次のどちらを望むだろうか。
A: 赤と青の絵の具をそのまま両方渡される
B: 相手が赤と青の絵の具を混ぜて紫の絵の具を作ってくれ、それを渡される
私はBの方が親切だと思う。もっともそれができればの話だが。
ここでWikipediaに話を戻そう。Wikipediaが今の絵の具の話とどう関係するのかというと、それが書籍やウェブページ、論文などの多様な情報源から得た情報をうまく組み合わせてひとつの「記事」という形で新しい情報を生成しているという点で共通するということだ。並べ替えるだけでなく、あくまでも欲しいものを差し出すということにより近いことをやっているように、私には思えるのだ。
編集権の集中が問題視されているらしいWikipediaであるが、個人的にはそれとは全く別のところに深いテーマが隠されているように思える。もしもあるテーマについて、その内容をわかりやすい形で示す記事を生成するという作業を自動化することができれば、そしてさらに、それをウェブ上のすべてのテキスト情報について実行することができれば、今よりも検索の効率は上昇するはずだ。「ボロノイ図」であれば、検索すればおそらく一番上にはWikipediaの記事が出て、それを読めば「あぁ、ボロノイ図ってこういうものなのか」という風に解決に至るだろう。しかしもう少し判断の難しい問題の場合、たとえば最近毎日のように取りざたされている、舛添都知事の資金の用途と、政治家としての彼の評価といった問題を調べたい場合、私たちは検索結果として表示された複数のページの文章(たいていは大手メディアの投稿記事や一部の著名人の個人ブログなど)にくまなく目を通して、それらを頭の中でまとめあげなければならない。紫の絵の具を作るのは私たちの側であって、検索エンジンの側ではない。
もちろん、ある種の嗜好を持つ人間にとっては、人間の側で判断を下すから意味があるのであって、舛添都知事についての政治家としての力量の判断まで機械任せにするようでは人類はおしまいだということになるのだろう。しかし政治や経済、社会に関する話題の多くは、毎日のように色々な人間が生み出す記事の山によって、何が本当に知るべき情報であるのかということを判別するのが難しくなっているように思う。多くの人にはそんな判別を行うに十分な時間もない。私などは情報が多すぎて、記事自体を読む樹が失せてしまうこともしょっちゅうある。結果的にはある話題について、何の情報も得られないままということになってしまう。情報だけは山のようにあるのに、なんとももったいない話である。