読者です 読者をやめる 読者になる 読者になる

どの範囲から何を引き出すか

【字数:2247字 目安:6分】

f:id:plousia-philodoxee:20150512040819j:image

「どの範囲から何を引き出すか」というのはけっこう難しい問題で、

①ネット全体から(検索エンジン

②自分が保存した特定のデータ全体から(Evernote

③アプリ内のすべてのコンテンツから(Twitterやブログ、YoutubeAmazonなど種類は多岐にわたる。ちなみにFacebookでできる検索はユーザーとFacebookページのみなので、ここに含めない。)

④自分の脳内から(日常生活の多くの場面)

⑤その場にいる人の脳内から(職場や会議の場面)

などがあるが、「引き出すときに人の能力が問われる」と広く認知されているのは④と⑤だろう。

①~③はそれを提供する企業の能力で決まると考えられがちだ。②は「そもそも自分が何を保存したか」などの要因も絡んでくる。過去に検索したことを自分が忘れてしまったら、同じことを再度調べるのはなかなか困難になってしまう。短時間で解決できる問題に関して何かを調べているのなら、「引き出す」のは一回だけでもいいかもしれないが、長時間じっくり取り組まなければならないこととなると、忘却というのは致命的だ。

そして「記憶力」とは、実際には「記憶する力」ではなくて「記憶したことを引き出す力」のことだ、ということを合わせて①~⑤を考え直すと面白い。

①~③はコンピュータのアルゴリズムが引き出し、④、⑤は脳内のニューロン同士のつながり(ニューラルネットワーク)が引き出している。

「時間」も絡む

 さらにここに「短期と長期」という時間の長さも絡んでくると、引き出すのが人間の仕事である④や⑤はもちろん、たとえ引き出すのが人間ではない②や③でも、長期的には「私は過去に何を調べたか」を人の側が覚えていなければならないという場合がある。①なら検索履歴をみれば何を調べたかはわかるが、②〜⑤にはそれがない場合がほとんどだからだ。リマインダーという補助手段を活用する手もあるが、すべての場合にそれが活用されているわけではなく、むしろ限られたいくつかの場合にしか使われていないというのが実情ではないだろうか。

そして検索エンジンの基本を振り返る

 ①のように、「色々な人が書き込んだこと全体から何かを引き出す」というときに、検索エンジン」(search engine)といえばGoogle、Bing(msn)、NAVER、Dolphinなど、アルゴリズムはいくつかしかない。

検索エンジン

(a) ディレクトリ型→エディタと呼ばれる人たちが、ウェブサイトを精査してカテゴライズし、登録していく。ロボット型に比べてサイトの登録数が少ないが、サイトの質が高いとされる。

(b) ロボット型→クローラ(スパイダー)と呼ばれるロボットがネット上の様々なサイトの情報を持ち帰って登録していく。処理能力はディレクトリ型に比べて格段に高いが、企業によるSEO対策により、ユーザーの希望にそぐわないサイトが表示される場合もある。

の2種類がある。ロボット型のGoogleアルゴリズムについてはアルゴリズム – 検索サービス – Googleで詳しい説明がある。ここで関係しそうな部分を引用する。

今日の Googleアルゴリズムは、本当に探している情報を推測することを実現する 200 を超える独自のシグナル、つまり「手がかり」を利用しています。これらのシグナルには、ウェブサイト上の語句、コンテンツの新しさ、お住まいの地域、PageRank などが含まれます。

 Pagerankのリンク先はGoogle創設者の二人、サーゲイ・ブリンとラリー・ペイジスタンフォード大学時代の論文である。なお現在はこの論文に書かれた内容からアルゴリズムはかなり修正・改良されている。

 「過去に何を引き出したか(何を検索したか)」という「履歴」(record/history)によって、検索エンジン(ブラウザ)における検索結果は変わってくる。自分が検索したことのない単語やウェブ上で触れたことのないコンテンツが検索結果に反映されることはない。特定の企業が提供する検索エンジンアルゴリズム自体は単一で、その企業がそのとき採用しているものに限られる。アルゴリズムが改良されることはあっても、「あるもの」が別の「あるもの」に変わるだけで、数が増えるわけではない。もちろんユーザーの側は、ブラウザを変えることで同じ単語でも検索結果が変わってくるが、「ある単語を複数のブラウザで同時に検索する」という人間はほとんどいないだろう。

 

 結局は引き出す人間にとって快適であることが重要な要因のひとつである。引き出すには「整理」が欠かせない。この「整理」の方をテーマに、以前記事を書いた。 

plousia-philodoxee.hatenablog.com

結局どれが一番効率的か

 それでは短期と長期とを問わず、誰もが必要なときに必要なものを最も効率良く引き出すしくみというのは

A:コンピュータのアルゴリズム

B:ニューラルネットワーク(とその集団での協調)

C:それ以外の方法

のどれだろう。今の私にはそれについて答えるために考える手立て、ないしフレームワークのようなものがない。これから何らかの指標でこれらを比べ、どれがベストかということを決められるようにしたい。なぜなら「引き出す方法」について考えることは、以前からの私の関心である、世論の形成や変化(public opinion formation/dynamics)集団による情報処理(group-level information processing)ということと深く関係するテーマであるからだ。