アブストラクト、数、凝集力について

 今日は久々に大学時代の友人と会って話をした。話は多岐に渡ったので、話題ごとに切り分けて記事を書いていこうと思う。まずは「要約」、論文でいうとアブストラクト」(abstract)について。

 人が何かを書くとき、実はその文章或いは作品がすでに「要約」になっている。それは書き手の頭の中で展開している思考なり感情なりアイデアなりを「ことば」にしたことで、どうしても表現出来る内容は限られているという意味と、また言葉にできる内容をすべて書いているわけではなくてある程度まとめて表現したものであるという意味の二重の限定性からそういえる。

 文章や作品の骨子をまとめたものが、通常の意味で言われる要約である。ではそもそも要約とはなんだろうか。なにがいい・わるい要約であり、それはどういう基準で判定できるのだろうか。ここで「判断」と書かずに「判定」と書いたのは、判断するのが必ずしも人間である必要はないと私は考えるためである。もしかしたら人工知能の方が、要約の精度について、人間よりも正確に評価することができるかもしれないのだ。

 書籍に関するネット上のサイトや書店に並んでいる本を見ていると、要約というのが社会ではけっこう流行っていることが伝わってくる。日本人は忙しい。その一方で、日本人の労働観では、たくさん稼ごうとすると、或いはたくさんの仕事をこなそうとすると、ごく当然のように労働時間を増やしてそれを解決しようと考える。だから労働時間を減らす方向に社会的な圧力がかかりにくい。だから限られた時間でなるべくいろんな本を読んだことにしたい。「読みたい」ではなく、「読んだことにしたい」というところがポイントである。つまり手抜きをしたいわけだ。そういう集団状況では要約が流行るのは自然な現象だ。

制約を生み出す構造

 本というのは、それを生み出す業界内の構造によって、ある程度内容に制約が加えられる。

人目をひくようなフォント、

人目をひくような写真、

字の色、

レイアウト、

スポンサーの広告、


実際のところ、読者がどれだけ見ているのか疑問でしかない広告、広告、広告…。


そういうものがほとんどで、肝心の本文だけに集中することができない。余計なものが多いのだ。「こんなのいいから本文だけ読ませてくれ」と思わずにいられない。それでもそんなことに一人で苛立ってみたところで何も変わらないし、疲れるだけだから仕方なく広告のページを飛ばし、イラストやらなんやらを視野の中心から消し去って、本文に没頭しようとがんばることになる。

 もしかしたら本文が長いということとは別に、広告やら絵やらなんやらが増えたことも、要約が流行っている背景にあるのかもしれない。余分な情報がやかましく厚かましく自己主張してくるところでは、必要なことだけ知りたいと感じるのはある意味自然なことだ。

アカデミアの洗練

   そんな中で文章に関して洗練されたスタイルを保ち続けているのが学会における「論文」だ。冒頭に必ず「アブストラクト」(梗概)があり、その下にキーワードが並ぶこともある。時間がないときなど、アブストラクトを読むだけでもその論文のポイントが大まかにはわかるようになっている。「業界の制約」などというものはアカデミックの世界には存在しないから、当然広告などないし、絵もなければレイアウトもなにもない。大抵は二段組みで統一されたフォーマットに従って活字が並び、必要ならば図や写真や表が入る。

 数と凝集

  スタイルの点で洗練されているのが論文であるとすれば、要約する力自体が洗練されているのが「数」であるということができる。日本経済の抱える問題は云々かんぬんと長々と語ったり、或いは特番を組んで延々と不毛でヤラセな議論をやるよりも、「1000兆円です。」とひとこと言えばいい。これでどれほどまずいことになっているかが伝わる。もちろんこの一言で全てを説明したことにならない場合もあるが、要約とはそういうことだ。何を捨てて何を残すかが問われる。もしもここに何が込められているかということを確認したければ、最終的には本文(要約される前の文章なり作品)を当たるしかない。

   要約サイトやまとめサイトはわんさかできているけれども、どうも要約の質が高くない。元の本を読むと要約に書かれていたこととは違うことがエッセンスだと感じることもよくある。だからそういうサイトに頼らず、原典に当たっていくことになる。自然言語処理の研究は進んでいても、まだ文脈の把握はできないから、当然文脈によってポイントが決まってくる要約はまだ無理だ。自然言語処理はまだ「凝集力」を獲得していない。濃縮還元ではないジュースでしかない。

   なにかいい方法はないか、考えてみようかな。