検索エンジンと人間の関係について考える

【目安時間：10分】

関心の変化
検索エンジンの役割について再考する
あえて情報を引き出す手間をかけることの意義
人工知能と検索エンジンの関係という問題

関心の変化

　久々にブログを更新する。前回の記事は大学院の院試の直前で、まだそれに向けてルベーグ積分などの勉強をがんばっていた頃の自分が書いたものだが、ここ最近の自分はすっかりそういう分野への興味関心を失ってしまった。今はもう、解析学やルベーグ積分などの領域に踏み込もうという気にはなれない。

　コンピュータ科学の領域に関する好奇心が復活してきた。思えば学部の頃にも卒論を書くにあたって、一つ目に書いた卒論をやめてテーマを変更し、IT産業と社会の変化の関係について書こうと思い立ったあたりから、コンピュータ科学や情報社会論などの領域に足を踏み込んでいた。しかし当時はそれほど本腰を入れてコンピュータ科学の勉強をしないで、ポピュラーサイエンスのコンピュータ解説書などを中心に、お手軽な読書くらいのことしかしていなかった。

　そういうことはコンピュータ科学の領域に限らず、数学にしてもそうだった。最初にやろうと思ったときにはそれほどしっかり勉強せず、途中で放棄するか気が変わってしまい、それからしばらく経ってからまたそこへ戻ってきて、今度は割ときちんと学習する・・・そんな回り道をすることが何度かあった。

　話を本題に戻そう。近頃の自分は、コンピュータ科学の中でも特に検索エンジンやSNS、もう少し広い言い方をするならば「ウェブアプリケーション」に対する関心が強まっている。インターネットを通じて、個人がそれぞれの端末を使って行ったことが広く共有、協調し、何かより広いものへと発展していく、そういうことをウェブアプリによって実行する場合に、検索エンジンやSNSはどんな働きをすることができるのか、そういうことに関心が絞られてきた。

今になって思えば、院試の直前は勉強こそそれなりにしていたものの、肝心の研究テーマが付け焼き刃のような状態で、なんとも足元がふらついていた。

検索エンジンの役割について再考する

　「人間がものごとをいかに記憶するか」ということに関する研究、一言で言って「memory」に関する研究の成果は、それこそ検索エンジンやSNSのおかげもあって、社会でも広く共有されているレベルの知識になっている。どうすればものを覚えられるか、記憶のコツに関する記事や書籍も数多い。その一方で「いかに思い出すか」（あるいはいかにそれを使うか）という部分の研究、これも一言で言って「remind」に関する研究の成果については、まだそれほど広く共有されているようには思えない。

　いかに多くの事柄を記憶に収めたところで、使いこなせれば意味がないわけだから、これでは記憶の方の研究も十分に活かされないことになってしまう。記憶に関する研究は、「思い出す方法」に関する研究とセットになって初めて真価を発揮するのではないか。

　Googleを含めた検索エンジンは、「人間がいかにものごとを思い出すか」ということについてはそれほど配慮しきれていないように思える。なぜか、それはネット上に散らばった膨大な量の情報の「引き出し方」については我々検索者自身はほとんどなにも知らないままだからだ。もちろん少しはできることもあって、たとえばこのサイトでは検索のコツとして11のテクニックが紹介されている。

shonan-web.jp

　こうしたテクニックを使ったとしても、ウェブ上に散らばった膨大な数のサイトの中から自分の見たいサイトを見つけ出すために、検索者がしていることは依然としてごくわずかだ。Googleの検索エンジンがどんどん賢くなっていっても、それに合わせて検索者の検索スキルも向上しているなどということは特にない。

　「ネットの海の中から検索者にとってより有益な情報を効率よく引き出すことが検索エンジンの仕事の中心なのだから無理もない」と言われればそれまでだろう。しかし考えてもみてほしい。そもそも何のために私たちは検索エンジンを使うことになったのか、と。

　それはなんらかの情報を引き出して、それを日常で起きるちょっとした疑問（「この洗剤はからだに悪いのだろうか」「ダイエットの効果的な方法は？」「マイナンバーってぶっちゃけどういうこと？」など）に対する答えを得て、問題を解決するのに役立てるためだ。

　テクノロジーの進歩とはそういうもので、必ずしもそれを使う側の「スキルの向上」に対応するとは限らない。いや、むしろ使う側のスキルに依存して道具のパフォーマンスが変わってしまうような状態が減っていくことこそがテクノロジーの進歩であるとすら言えるかもしれない。一部の職人的な技術を持つ特権的な人間だけが道具を使いこなせる社会と、誰が使っても同じように使える道具が広く普及した社会があったとしたら、社会全体で見たときにテクノロジーのレベルは後者の方が高いと言える。

あえて情報を引き出す手間をかけることの意義

　話が「テクノロジー」という一般論に拡張したので、この辺で検索エンジンに話を戻そう。検索エンジンの場合であれば、私たち検索者が画面の「こちら側」でごくわずかな行動を行う一方、検索エンジンはコンピュータの向こう側で、あるいはクラウドの向こう側で、いつの間にか膨大な計算を実行し、ネット上の膨大なウェブページをランク付けし、その結果だけを私たちのコンピュータの画面に表示する。

　あるサイトがどうして1番上に表示されているかはある程度説明できたとしても、別のあるサイトがどうして7番目に表示されているのかについて正確に説明できる人間はほぼ皆無だろう。

　それは「そんな手間をかけなくても使えるのだからこそ『便利だ』と言えるのだ」と捉えることもできる。しかしそれと同時に、私たち自身が何らかの情報を使うときの姿勢として、少しおかしな状況に陥ってはいないだろうか。私たち人間は、「情報というのは、自分の頭の中から引き出されたときに、最もうまく活用できる」ということを前提として、どこの社会でも古くからずっと「教育」という社会的な営みを続けてきている。しかし検索エンジンの進化というのは、私たちが自分の頭から情報を引き出すのとは別の、しかもより簡単な方法で、知識を自分の眼の前に表す手段を提供している。

　最近『レイティング・ランキングの数理』*1という本が出た。出版社である共立出版のHPの紹介文を引用すると、

ランキングはある集合の項目に順位付けを導入したものであり，レイティングはそれぞれの項目に評価とみなせる数値指標を紐づけたものである。スポーツ，政治，商品，ウェブページ，他にも多くの場面で，レイティングやランキングが使われている。また，レイティングやランキングの導出には様々な手法が用いられている。

　本書はレイティングとランキング手法が数理的にどのようになっており，またどのように使用，応用されているのかについて，魅力的に，なおかつわかりやすく解説する。Massey，Colley，Keener，Elo，Markovなど，今日採用されている異なる手法を概観，比較し，それらの得意，不得意を挙げ，なぜ，そしていつ使用するのかを説明している。また，無敗の取扱い，引分けの取扱い，重み付けなどの問題にも，重要な示唆を与える。さらに，簡単に理解できる本書を通したスポーツでの例や，興味深いトリビア，歴史的事実によって理解を深めることができ，必要な数学も多く解説されている。

　総じて，レイティングやランキングにまつわるあらゆる話題がちりばめられている。コンピューター科学者・数学者から学生，スポーツファン（とくにアメリカンフットボール），ギャンブラーまで，あらゆる層に受け入れられる書籍となろう。

　原書の著者であるAmy N.LangvilleとCarl D.Meyerの二人の専門は数学らしく、以前に『Google Pagerankの数理』という本も書いていて、こっちの本は卒論を書くときに読んだことがあったので記憶に残っていた。*2

レイティング・ランキングの数理 ―No.1は誰か？―

作者: Amy N.Langville,Carl D.Meyer,岩野和生,中村英史,清水咲里
出版社/メーカー: 共立出版
発売日: 2015/07/23
メディア: 単行本
この商品を含むブログ (1件) を見る

Google PageRankの数理 ―最強検索エンジンのランキング手法を求めて―

作者: Amy N.Langville,Carl D.Meyer,岩野和生,黒川利明,黒川洋
出版社/メーカー: 共立出版
発売日: 2009/10/10
メディア: 単行本
購入: 4人クリック: 249回
この商品を含むブログ (26件) を見る

　何かの情報を引き出すというときに、人間自身が自分の記憶から引き出すのではなく、検索エンジンにネットから同じ情報を引き出してもらう、ということが検索エンジンの本質だ。ネット上には自分だけの記憶ではなくて、むしろ膨大な数の他人の記憶が散らかっていて、その整理をしているのがGoogleということになる。

　「世界中の情報を整理する」というのがGoogleのモットーだというのは有名だが、その意味をいま改めて考えてみると、それはネット上にいる世界中の人間たちの書き込んだ情報の整理であって、ある特定の個人の頭の中の情報の整理ではないのだ。これは私にとって重要な意味を持つように思える。

　どの検索者も、最終的には自分で決断を下さなければならない。そこで重要なのは世界中の他人たちの情報の整理ではなくて、むしろ自分の頭の中の情報の整理ではないかと考えられるからだ。そこが片付かないままでいたら、いかにネット上が片付いていても問題は解決されない。そして検索エンジンを使って何かの問題を解決することに役立てようと考えるならば、こういう基本的な部分の認識をもとに考えていかなければならない。

　世界中の情報を整理しても、個人が自分の頭の中の情報を整理する術を磨いていなければ、そしてそういう術が社会的に共有されていなければ、どれだけ検索エンジンが発達してもしょうがないのではないかとすら思ってしまう。それは所詮、「宝のもちぐされ」ということにしかならないのではないか、と。

　人間の代わりにアルゴリズムが引き出すという形で、検索エンジンは人間の思考を支えようとしているが、果たしてそれは「情報」、或いはもう少し踏み込んだ言い方をすると「知識」の活用の仕方として健全なのだろうか。私たちがネット上に何かを書き込むよりも手書きの方が記憶に残りやすいという事実がしばしば指摘されるが、このことは重要な手掛かりを示している。私たちにとっての「記憶」或いは「想起」とは、私たちの社会を前進させる主要な原動力の一つである「知」とどのように関わるのだろうか。

　「いかに引き出すか」ということについて、検索者の頭ともっと協調して機能するような検索エンジンというものを考えることはできないだろうか。人間がものを考えるときには、自分が引き出したこと、あるいは周りにいる人間が引き出したことをはずみにして考えを展開していく。そういうプロセスを助けるためのツールとして、現在の検索エンジンは上で述べたような理由で不十分な代物なのではないかと思う。

　「思考、或いはそのアウトプットを補助するツール」としての検索エンジンとはどのようにすれば作れるのだろうか。いや、むしろそれは現在の検索エンジンの定義からは外れるかもしれない。それならそれでも構わない。解決したい問題はあくまでも「人間が問題を解決する方法の効率化」であって、「最高の検索エンジンを作ること」ではないからだ。

人工知能と検索エンジンの関係という問題

　そしてこの点とはまた別に、検索エンジンが「人間が問題を解決することを補助するための道具」と捉えられるならば、人工知能（AI）が人間の思考を代替するようになっていくこれからの社会において、検索エンジンにはどのような意味が与えられることになるんだろうか。これは人工知能と検索エンジンの関係ということになるから、この記事のタイトルとはまた別の問題ではないかと思われるかもしれないが、なかなかどうして、この記事のテーマとも不可分なテーマではないかと私は考える。

　例えば最近世間でも徐々に認知度が上がってきている感のある「ディープラーニング」（深層学習）の技法が進歩し、人工知能がネット上のデータを大量に集めて自ら判断を下すようになっていくと、人間が検索エンジンを使う意味はどこにあるのだろうか。問題解決は人間よりも人工知能の方が向いているということを示す例は、いろいろなところで目にする。もしそうなら人間がわざわざ問題解決のために検索エンジンを使う必要はあるのか、ということを考えた方がいいだろう。

　その疑問に対しては、「何かを思い出すということそれ自体の快感」や「何かを新たに知るということそれ自体の喜び」といった、いわば娯楽（或いは人によっては「それこそが学ぶということだ」と考える人もいるだろう）のために検索エンジンを使うという方向に変わっていくのだろうか。すでに人間が何かを調べて解決策を提示するよりも、上で述べたように人工知能という一般的な領域でもそうだが、ディープラーニングという個別の領域でも、膨大な情報の中からいくつかのカギとなる特徴量を取り出し、それを元に人工知能が解決策を提示する方がよりよい結果を出せるという例がいくつも出てきている。

　そうすると「ネット」という空間は、いろいろな人間がいろいろな書き込みはするが、その情報を元に問題を解決する主体は人工知能にシフトしていくことになるのだろうか。人間たちはいわば、超スマートでインテリジェントな人工知能様に問題解決をしてもらうために必要な情報をせっせとインプットする「データ入力要員」、言い換えると数あるセンサーの中でも「自然言語に関する最大規模のセンサー」という位置付けで捉えられることになるのだろうか。社会の舵取りは、今では民主主義の名の下に人々が担っているが、人工知能にやらせた方がいいということがこれから色々な領域で明るみになるにつれ、人々は案外あっさりと舵取りを彼らに任せるようになるかもしれない。

　もしそうなら、人間はネットとどのように関わるかといえば、検索を通じて世界中の情報に触れるという関わり方ではなくて、SNSのような人間関係のプラットフォーム上での戯れを中心とした関わり方へと移っていくことになるのかもしれない。情報の活用は人工知能の元へ、日々の戯れは人々の元にある、そんな状況が到来するのかもしれない。

*1:第1章　ランキング入門
社会的選択とArrowの不可能性定理
Arrowの不可能性定理
「いつもの例」とは

第2章　Masseyの手法
最初のMasseyのレイティング手法
Masseyの主な考え
Masseyのレイティング手法を使ったいつもの例
Masseyのレイティング手法の高度な機能
いつもの例：高度なMasseyのレイティング手法
Masseyのレイティング手法のまとめ

第3章　Colleyの手法
いつもの例
Colleyのレイティング手法のまとめ
Masseyの手法とColleyの手法の関連性

第4章　Keenerの手法
強さとレイティングの規則
強さの属性を選ぶ
Laplaceの継続法則
歪ませるべきか歪まさせざるべきか?
正規化
鶏と卵，どちらが先？
レイティング
強さ
要めの式
制約条件
Perron-Frobenius
重要な性質
レイティングベクトルを計算する
既約性と原始性を持たせる
要約
2009―2010のNFLシーズン
Jim Keener対Bill James
バック・トゥ・ザ・フューチャー
Keenerはあなたを金持ちにできるだろうか？
結論

第5章　Eloのシステム
エレガントな知恵
K因子
ロジスティックスのパラメーターξ
定数和
NFLでのElo
後知恵予想の正確さ
先見力による予測の正確さ
試合の得点を加味する
ξ = 1000, K = 32, H = 15のときの後知恵予測と先見力による予測
可変のK因子をNFLの得点と使用する
得点と可変K因子を用いた後知恵予測と先見力による予測
試合ごとの分析
結論

第6章　Markovの手法
Markovの手法
負けへの投票
敗者が得点差を投票する
勝者も敗者も失点を投票する
試合の得点以外
無敗チームの取り扱い
Markovのレイティング手法のまとめ
Markovの手法とMasseyの手法の関係

第7章　攻撃力・守備力レイティング手法
OD手法の目的
OD手法の前提
さて，どちらが先か？
交互精緻化プロセス
分離
攻撃力・守備力レイティングの組み合わせ
いつもの例
得点とヤード数
2009―2010年シーズンのNFLのODレイティング
ODレイティング手法の数学的解析
対角成分
Sinkhorn-Knopp
OD行列
ODレイティングとSinkhorn-Knoppの定理
ちょっとだけズルをする

第8章　再順序化によるランキング
ランキング差分
いつもの例
最適化問題を解く
条件を緩めた問題
進化的アルゴリズム
高度なランキング差分モデル
ランキング差分法のまとめ
ランキング差分行列の性質
レイティング差分
いつもの例
再順序化問題を解く
レイティング差分法のまとめ

第9章　ポイントスプレッド
ポイントスプレッドが意味する所と意味しない所
手数料（あるいは，暴利）
なぜ，オッズのみを提示しないのか？
スプレッド賭博は，どのように行なわれるのか？
スプレッドに勝つ
オーバーアンダー賭け
なぜ，レイティングで，スプレッドを予測するのが難しいのか？
（スプレッドを予測するための）レイティングを作るためにスプレッドを使う
NFL 2009―2010シーズンのスプレッドレイティング
いくつかのレイティングシステムの比較
他の対の比較
結論

第10章　ユーザープレファレンスのレイティング
直接比較
直接比較，プレファレンスグラフ，Markov連鎖
重心とMarkov連鎖
結論

第11章　引分けの扱い
入力引分けと，出力引分け
引分けを取り込む
Colleyの手法
Masseyの手法
Markovの手法
OD，Keener，Eloの手法
摂動解析からの理論的結果
実データセットからの結果
映画のランキング
NHLのホッケーチームのランキング
引分けの導入
まとめ

第12章　重み付けを組み込む
4つの基本的な重み付けのスキーム
重み付きMasseyの手法
重み付きColleyの手法
重み付きKeenerの手法
重み付きEloの手法
重み付きMarkovの手法
重み付きODの手法
重み付き差分法

第13章　「もしも」シナリオと感応度
階数1の更新の効果
感応度

第14章　ランキング集約―その1
Arrowの基準を再び
ランキング集約方法
Bordaカウント
平均ランキング
模擬試合データ
ランキング集約のグラフ理論法
ランキング集約の後の改良処置
レイティング集約
レイティング集約行列からレイティングベクトルを生成する
集約手法の要約

第15章　ランキング集約―その2
いつもの例
BILPを解く
当該BILPの多重最適解
BILPの線形計画緩和法
制約条件緩和法
感応度解析
限定（限界）
（最適化による）ランキング集約方法の要約
レイティング差手法，再び
レイティング差分手法とランキング集約手法
いつもの例

第16章　比較の方法
2つのランキングされたリストの定性的偏差
Kendallのタウ
完全リストにおけるKendallのタウ
部分リストにおけるKendallのタウ
完全リストについてのSpearmanの重み付け物差し
部分リストについてのSpearmanの重み付け物差し
長さの違う部分リスト
評価指標：既知の基準との比較
評価指標：集約されたリストとの比較
回顧的スコアリング
未来の予測
学習曲線
丘形状までの距離

第17章　データ
Masseyのスポーツデータサーバー
Pomeroyの大学バスケットボールのデータ
独自のデータをスクレイピングする
対の比較行列の作成

第18章　エピローグ
階層分析法
Redmondの手法
Park-Newmanの手法
ロジスティック回帰/Markov連鎖法(LRMC)
Hochbaumの手法
モンテカルロシミュレーション
筋金入りの統計分析
その他いろいろ

*2:たとえばこのことにしても、私自身の記憶に依存して考えが展開されているのであって、その意味では検索エンジンに頼る必要すらない。私はスタンドアローンで自分の頭から自分の過去の経験の記憶を引き出した。