駒澤塾:中学受験の算数・理科

中学受験の算数・理科を中心に書いて行きます。駒澤が旧字体なのは検索をしやすくするためです。

前世紀の知識データベース回顧

40年くらい前、インターネットの名前すら無かった頃、科学技術文献速報という製本された情報冊子と、専用端末からオンラインで検索できる科学論文のデータベースが有りました。 情報の整理と検索についてヒントになる事がたくさん有りそうなので、記憶の底をたどってみました。

 

当時はコンピュータと言えばガラス張りの空調の効いた部屋の中で磁気テープがくるくる回り、ランプがいっぱいチカチカ光っていた時代です。 ようやくパーソナルコンピュータが研究室にも導入され始めて、岩石力学の研究室ではシミュレーション用に購入したPC-8801に院生たちが16進法のコードを打ち込んでゲームをしていました。

 

そんな頃、

大学4年生で研究室に所属して最初に受けた指導が、所属院生たちの研究内容の把握と、科学技術文献速報の調査担当範囲の割り振りでした。

f:id:komazawajuku:20200615224145j:plain

大学の図書館で電話帳みたいな最新巻を棚から抜いて、担当するジャンルの科学論文の抄録の全件に目を通して、これはという論文があったら毎月の報告会で共有化するという作業です。 

 

科学技術文献速報には世界中の科学雑誌に掲載された論文の情報がコンパクトにまとめられていました。 タイトル、著者、収録誌などの書誌情報の他に200字ほどの抄録が日本語で付いていたのですが、この抄録は人力でまとめられていました。

外国語の論文を読み、日本語の抄録を作成するという作業はたいへんな手間が掛かる仕事で、全国の若手研究者がアルバイトとして受託していました。 私の入った研究室でも、博士課程の大学院生が締め切り間際にあわてて抄録を書いているのを見た記憶があります。

 

現在、googleなどで検索して出てきた結果にも内容が短く表示されていて、その記事をクリックするかどうかの判断に使えますが、そこで表示される内容はプログラムによって抽出されたものです。 自分の記事の検索結果を見ると、検索キーワードを含む前後の文章が切り取られたり、記事の冒頭部分が切り取られたりしているように見えます。

 

さらっと「検索キーワードを含む前後の文章が切り取られて」と書きましたけれど、これは結構すごいことをしています。 切り取るという処理ではなく、「キーワード」とひと言で表現される部分で。 

利用者が検索に指定するキーワードは制限されていません。 もしもgoogle側が「SAPIX」、「Sapix」、「サピックス」などを別の単語とみなしたら、欲しい結果が全然出て来ない事になるわけで、googleの性能の高さには、それらの類語の関係が記録された巨大なシソーラス類語辞典)が大きな役割を果たしています。 このシソーラスは利用者のタイプミスまで対応しています。 検索中に「もしかして、△△△?」の表示で見たことがあるはずですが、どれほどの類語をリンク付きで収録しているか、想像するとめまいがします。

 

科学技術文献速報の時代には、類語の処理は人間がやっていました。 その作業に使うために印刷物としてシソーラスが分厚い本になっていました。 文献に付与するキーワードを、シソーラスに収録された語に限定する目的は、綴りの統一や、同義語、上位語。関連語などの紐付けですが、その裏には「キーワードへのコード番号の付与」という必要性も有ったはずです。 「データの1ビットは血の一滴」という時代でしたから、「飽和水蒸気量曲線」などという長い名前をそのまま扱う余裕は無く、コード番号に変換してプログラムの中では処理していたはず。

 

 日本の科学技術の発展において、用語や名称が日本語の名称で体系整理されたというのは大きな意味を持っていると思います。 欧米の科学を導入した国で自国語で完結できているところって日本以外に有るのでしょうか。 寡聞にして知りません。 輸入された新知識を日本語で取り扱うという基礎には、外来の新概念を本質レベルで理解し、それを漢文の素養に乗っけて言葉を作って行った明治の先達たちの努力がありますが、整理・体系化されていなければ意思疎通の道具としては力を発揮できない訳で、科学用語のシソーラスが存在する意義はとても大きいです。

 

 世界中の論文に対して日本語で200字程度の抄録が作られ、それをシソーラスの体系に準じてキーワードにする作業で、実はもう一つ大切な情報がくっつけられていました。 それは全キーワードの「番地」です。 キーワードが、どの学術誌の、どの論文に含まれているかだけでなく、「抄録中の何番目に登場しているかという番地」までがデータ化されていました。 

これによって実現していたのが、キーワード間の近接性で絞り込んだ検索でした。 たとえば、2つのキーワードを指定して検索をかける時に、その2つが「隣り合っているか」「同じセンテンスの中に含まれるか」「単純に抄録の中に含まれるか」を指定できたのです。 

その効果は絶大で、「食塩」+「溶解度」で単純に検索すると、食塩も登場するけれど主題は水酸化ナトリウムの溶解度という論文も混じって出力されますが、「食塩」《隣り合って》「溶解度」という指定ができれば、食塩の溶解度に関するものに絞り込める可能性が高くなるのです。

 

情報の検索で最初に目に付くのは「情報の取りこぼしが無いこと」ですが、もうひとつ大切なのは「得られた中にノイズ情報が少ないこと」です。

情報の取りこぼしを減らすためには「もしかして、これも?」という類似情報まで出力させるのが効果的ですが、やりすぎると「膨大な商品数を誇っているけど、買いたいものが一つも無いお店」みたいになってしまいます。

googleでもダブルクォーテーションで完全一致を指定したり、キーワードの頭にマイナス符号を付けて除外の指定をしたりするとノイズ情報の混入をだいぶ防げますが、近接性の条件指定はありません。 延々と無関係なネット情報をスクロールさせながら、近接性の指定ができたら良いのになぁと思ったことが何度もあります。 

 

科学技術文献速報の検索作業には、得られた検索結果の中からノイズ情報を減らすという仕組みが、もう一つ有りました。 

冒頭の人力による検索作業の描写で「担当するジャンルの科学論文の・・・」の部分です。

そもそも検索をする最初の段階で、絞込みをしているわけです。

 

ジャンルで大枠を絞り込むというのは、普段の生活でも自然にやっていることです。 規模の大きな書店で目的の本をすぐに見つけられるのは、普遍的なルールで棚が配置されているからですよね。 普遍的なルール、それが「分類」です。

「分類」に関しては「分類学」というジャンルが有るほどですので、稿を分けます。 そこに登場する要素だけ書いておくと「視点の統一」「母集団に対する網羅性」「分類間の独立性」です。

 

 

科学技術文献速報の資産は21世紀になっても継承され、発展しています。 自分の仕事が変わって直接的に利用する機会は、ほぼ無くなりましたが、今回いろいろ調べていて、昔は大変だった情報の収集が、いつでも、どこでも、出来るようになっていることを知りました。 

 

今回の記事で「効率的な勉強法」や、「膨大な教材の整理」に役立ちそうなことは2つあります。

ひとつは「分類」という作業が、目的の教材や解法にたどりつくための大きな道しるべになるということ。

もう一つは、ひとつの対象に複数のキーワードが付く場合に、キーワード同士の「距離」という情報が検索の精度を上げる重要な役割を持ち得るということ。

 

「検索」に関連した話題、次はもっと具体的な話を書く予定です。

たぶん「Sapix教材の整理方法」というタイトルで。

 

 

このブログはリンクフリーです
リンク(はてな用語で「言及」)に事前連絡は不要です
出典を示して頂けるならコピーペーストも自由にどうぞ。
って言うかリンクやツイートでgoogleの表示順が上がるので大歓迎