書評/新聞記事 検索  図書新聞は、毎週土曜日書店発売、定期購読も承ります

【重要なお知らせ】お問い合わせフォーム故障中につき、直接メール(koudoku@toshoshimbun.com)かお電話にてバックナンバー・定期購読の御注文をお願い致します。

評者◆第18回 (番外編) 図書館流通センター・データ部
読者と書籍をつなぐ蔭の立役者「MARC」――情報検索の根幹を担う書誌データはこうして生まれる
No.3245 ・ 2016年03月05日




■書店と異なり、図書館ではこれまでに刊行された膨大な書籍も所蔵し続け、利用者に提供する役割がある。『日本の図書館』によると、日本の公共図書館の蔵書数は実に4億点超と言われている。さらに数年前まで年間の出版点数は増加し続け、今でも7万6000点もの書籍が1年間に出版されている。こうした膨大な書籍から、読者が“出合いたい1冊”を探し出してくれる手助けとなるのが、MARC(MAchine Readable Cataloging=機械可読目録)と呼ばれるものである。各種MARCがある中、日本の公共図書館3226館のうち2706館が使用しているのがTRC MARCで、累積件数は約357万件を誇る。そのMARCが日々生まれてくる現場である図書館流通センター(TRC)のデータ部を訪問し、MARCの作成方法や仕様の特徴などをデータ部の土屋綾氏に説明してもらった。

■1日平均350冊 3日でデータ完成

 東京・文京区大塚にある図書館流通センター本社。2013年に完成した社屋の2、3階にデータ部がある。所属するのは社員とパート合わせて約100人。そこでは、①TRC MARC、②雑誌MARC(雑誌データベース)、③AVMARC(録音・映像資料のデータベース)の3種類のデータベースを作成している。
 ここでは①の新刊図書データの作成手順とその特徴などをみていきたい。
 TRCでは書誌情報を作成する際には、必ず実物の本をもとに作成している。出版社から提供される「近刊情報」のデータも参考までに利用しているが、ほとんどは実物の書籍を確認して、一つひとつの項目を手作業で入力している。
 それらの書籍(ムック含む)は、取次である日本出版販売から1日に2回、「見本」として送品してもらっている。その数、1日平均で350冊。繁忙期である年度末には1日に500冊を超える書籍が入荷してくるという。
 「見本がデータ部に到着するのは、出版社によって異なる
が、おおむね書店店頭に並ぶ3日前。そこから新刊データを作成して、書店で販売されるのと同じタイミングでデータができ上がる」(土屋氏)
 見本はまず、「新刊」班というデータ部で最も人数の多い24人の部署で、書籍1冊ずつに固有のIDであるMARCナンバーを付与する。同時にMARCナンバーとリンク付けしたICタグを書籍に挟み込む。これは、どの書籍が部内のどこにあるかを管理するためのもので、複数人が1冊の書籍をもとに作業するため、ICタグを導入したという。
 続いて、2カ所の暗室で写真撮影の作業に移る。書籍の表紙を1冊ずつ、歪みを修正するためのガラス板を乗せて撮影する。書誌情報の一つとして、図書館の選書用カタログ『週刊新刊全点案内』や図書館専用ポータルサイト 「TOOLi(ツールアイ)」に「表紙画像」を掲載するためだ。「黒い表紙の撮影が難しい。ガラスを置くと指紋や埃が写り込む場合がある。また、黒一色、白一色の表紙だとピントも合わせづらいため、白黒のコントラストのついた紙を当てて、ピントを合わせている。さらに最近はCD―ROM付のムックなども多く、その場合は付録の厚みの分だけ10円玉を挟み、表紙が歪まないように調整している」(作業担当者)。
 撮影した表紙画像は画像編集ソフトを使って、写り込みや汚れを消すなどして表紙の部分だけを切り取り、専用フォーマットの最高画像で保存しておく。
 撮影を終えた書籍は次に、「分類・件名」班に送られる。ここは、書籍の主題が何かを確認する部署。「分類」と「件名」というキーワードを使って、書籍の内容を規定していく。「分類」はいわゆるNDC(日本十進分類法)に基づいて各書籍にその番号を付与。「件名」については、件名典拠ファイルを参照しながら、例えば「工業規格」「住宅建築」などの件名を入力していく。
 分類や件名のほかにも、「ノベライズ」や「飲食店ガイド」「写真集」など著作の「資料形式」、「小学1~2年生」「教員」などの「利用対象」、「SF」や「ファンタジー」といった1000以上もの「ジャンル」などもデータに付与していき、書籍に〝輪郭〟を付けていく。
 作業を終えた後は、書籍の内容などに沿って、必要な場合は画像をスキャンし、「内容・目次」班、「典拠」班といった部署に書籍を送る。
 画像スキャンの作業場では、主に目次や著者紹介などのページを画像化している。「実物の書籍があるのにわざわざスキャンするのは、各部署で分担して作業しているため。作業が同時進行できるよう、スキャンした画像で作業ができる場合はその画像で、実物が必要な場合には優先的に書籍を回して、作業を効率化している」(土屋氏)
 さらに、スキャンした画像は見て作業するだけではなく、別利用もしている。「内容・目次」班では、スキャンした目次ページなどを、OCR(文字が入った画像からテキストを抽出する機能)をかけてテキスト化している。
 同班は「内容細目」「目次情報」を作成している部署。「内容細目」とは、例えば個人全集のように1冊の書籍に複数の作品が掲載されている場合の、収録作品のデータベースのことを指す。独立した作品が1つの書籍に含まれる場合は、すべて作成している。
 「目次情報」は大学生向けのテキストや学術書、児童ノンフィクション、楽譜について作成している。目次情報が重要な書籍、とくに学術書などでは、タイトルのみでは抽象的すぎて内容が判別しにくいなどの理由から、目次情報を作成している。これら2つのデータベースは一から入力するだけでも大変な作業量となるため、スキャン画像を活用して、データ作成の短縮化
を図っている。3日で書籍のデータを作成するためには、こうした工夫も必要になってくる。
 また、著者個人の典拠ファイルを作成する「典拠」班でも、スキャン画像を活用している。同班では、初めて本を書いた著者もしくはデータ部に初めて見本が入った著者の典拠ファイルを作成している。

■1日に270冊校正 1冊あたり10回以上

 典拠ファイルを作成するのは、同名異人を区別し、異名同人を紐づけするため。「例えば、日本人の『鈴木博』さんという著者は31人もいる。単に、この名前で検索すると、163件もの書籍がヒットする。だが、TRCではそれぞれの鈴木博さんに固有のIDを付けているので、特定の鈴木博さんの作品を検索できる。また、外国人の日本語表記は出版社によって様々。シェークスピアは37通りの表記がある。これらの表記をすべて紐づけしているので、異なった表記のシェークスピア作品のすべて、1663件の書籍を検索できる」(同)
 こうした作業を経て、最後はタイトルや著者、出版社名などを総合的にチェックし、データを完成させる「新刊」班に書籍が戻ってくる。
 同班は、入力作業とともに、書籍出版で言う「校閲部」の役割をこなす重要な部署。そのチェック体制は1冊に対して10回以上というほど、念には念を入れている。
 まず入力作業を終えると、入力した人とは異なる人が2度チェック。さらに翌日には、図書の目録カードの形でデータが紙に出力され、「カード校正」と呼ばれる校正作業に入る。これは「新刊」班でもかなりのベテランにしかできない作業で、1日平均270冊、多いときで400冊以上の書籍の情報を校正するのだという。
 「ただ、10回以上校正しても、手痛い間違いを犯してしまうこともある。一文字の違いで検索できなくなるのが、図書館の検索システムなので、校正は最も気を配る作業だ」(同)
 さらに、「新刊」班では、多くの図書館員が利用する『週刊新刊全点案内』も同時進行で作成している。火曜日から翌週月曜日までに入荷した書籍を水曜日までに順次データ化し、金曜日までに『週刊新刊全点案内』用のデータに整えて印刷会社に渡す。翌週の月曜日には全国の図書館に発送されるという流れだ。

■最大の特徴は児童書 「調べ学習」にも対応

 ここまでは大人向けの一般書のMARC作成の手順だ。図書館でも利用の多い児童書の場合は、目次情報を付与するのは当たり前で、さらに詳細で数多くの情報を付与している。
 そのひとつが「学習件名」。これはノンフィクションの児童書が対象となる。1冊の書籍の中に、1ページ以上、任意の情報があればキーワードを付与するというもの。例えば、インドの地理などに関する児童書があれば、1冊ずつ中を見て、ムンバイに関する記述が2~9ページ、続いて10ページ以降が政治などと、キーワードを付与している。
 「児童書はとくに大きなくくりで作られた書籍が多い。タイトルだけをみても、インドの生活や農業について書かれているか分かりづらい。そこで、本の中を見て具体的なキーワードをふることによって、子どもが自分で書籍を調べることができるようになる。レファレンスなどの際に図書館員が調べやすく、また調べ学習などの際に子どもがテーマに対応した書籍を見つけられるように、こうした学習件名を付与している」(同)
 また、児童書全般には「児童内容紹介」を付けている。図書館員が参考にするために、すべての書籍に105文字の「内容紹介」を付けているが、「児童内容紹介」は150文字で、子どもが読んで分かるような内容紹介となっている。学年ごとに習う漢字が違うため、利用対象を意識して漢字を使用したり、噛み砕いた表現を取るなどの工夫を施している。こうした「調べ学習」を意識した情報も多数付与して、児童書を検索しやすくしているのが、TRC MARCの最大の特徴といえる。
 他の図書館のMARCの情報と比べると、その情報量の多さは明らかで、ある児童書では、他のMARCの情報量を1とすると、TRC MARCは4倍以上の情報が掲載されていた。それはすなわち、子どもたちが、より検索しやすく、調べたいものにたどり着きやすくなっているという証左でもある。
 「TOOLiという図書館専用ポータルサイトでは、例えば『AKB48』と検索すると、仮にタイトルが『初めてのクラリネット』などで『AKB48』の文字が入っていなくても、目次に載っている『AKB48』関連の楽曲をすべて検索し、表示する。ほかにも、文学賞の受賞や書評紹介された際の情報も、その都度データを追加して、データベースをメンテナンスしている。これまで見た通り、データ部が一丸となって、実物の書籍を頼りに一つひとつのデータを入力して構築したTRC MARCが、今や図書館では欠かせない図書検索システムを陰で支えているともいえます」(広報部・尾園清香氏)







リンクサイト
サイト限定連載

図書新聞出版
  最新刊
『新宿センチメンタル・ジャーニー』
『山・自然探究――紀行・エッセイ・評論集』
『【新版】クリストとジャンヌ=クロード ライフ=ワークス=プロジェクト』
書店別 週間ベストセラーズ
■東京■東京堂書店様調べ
1位 マチズモを削り取れ
(武田砂鉄)
2位 喫茶店で松本隆さんから聞いたこと
(山下賢二)
3位 古くて素敵なクラシック・レコードたち
(村上春樹)
■新潟■萬松堂様調べ
1位 老いる意味
(森村誠一)
2位 老いの福袋
(樋口恵子)
3位 もうだまされない
新型コロナの大誤解
(西村秀一)

取扱い書店企業概要プライバシーポリシー利用規約