図書館電子化システム特別委員会第3年次報告: II-1．多言語、特に中国語、ハングル資料の目録情報処理における入出力インターフェース

I．多言語、特に中国語、ハングル資料の目録情報処理における入出力インターフェース

1.　はじめに
　　学術情報センター（現国立情報学研究所）は1985年からNACSIS-CAT総合目録のサービスを開始しているが、当初から中国語、韓国・朝鮮語の資料の取扱が、「暫定的」にしかできず問題となっていた。そこで1998年のクライアント・サーバー型・新CATシステムへの切り替えに続いて、2000年1月からは多言語対応目録システムへの移行を行った。これにより従来は代替文字で扱ってきた中国語資料やハングル資料を、資料に書かれているとおりの文字で登録することができるようになった。

2.　中国語資料の目録情報処理
　現在中国語資料は大学図書館などに約732万冊所蔵されているといわれている。学術情報センターは、1995年に「中国語資料データベース化検討ワーキンググループ」を設置し中国語資料の総合目録データベース化について検討を開始し、その検討結果に基づき1998年11月『中国語資料の取扱い（案）』を公開した。1999年12月には、『目録情報の基準・第4版』も発行している。
　また2000年１月にUCS (Universal multiple-octet coded Character Set ：国際符号化文字集合)に対応したシステムに変更し、総合目録データベースに登録されているデータをすべて UCS に変換した。同時に北京図書館作成のCHAINA-MARC（参照ファイル名はCHMARC、1988年以降、約30万件）と、漢字統合インデクスの導入、「その他のヨミ」フィールドの新設、を行って中国書の入力を容易にした。

3.　ハングル資料の目録情報処理
　ハングル資料は大学図書館などに約71万冊所蔵されているといわれている。国立情報学研究所では、中国語資料に引き続きハングル資料データベースを構築するために、1999年12月に「韓国・朝鮮語資料データベース検討ワーキンググループ」を設置し検討を始めている。

総合目録データベースにおける韓国・朝鮮語資料のデータ入力方法の策定
韓国・朝鮮語資料を入力する際に使用する目録規則の検討
韓国MARCの調査、分析および導入方法の検討
総合目録データベースにおける入力済みデータの取扱い

　これらについて検討原案を作成し、意見集約のうえ、『目録情報の基準』とコーディングマニュアルの改訂、システム改造など必要な措置の後、2002年後半にも開始する予定としている。

4.　中国語資料の遡及入力事業の実際
　文部省は、平成12年度予算に、図書館機能高度化経費「総合目録構築経費」を計上した。初年度は東京大学と京都大学に、それぞれ予算が配分され中国書の遡及入力を実施した。現在、国立情報学研究所と東京大学・京都大学の三者の連絡網が作られ、「実際の入力作業を通じて中国書入力の問題点を洗い出しマニュアルの整備を図る」事業が進行中である。

4.1　東京大学の場合
（1）入力予定
　総合図書館、文学部図書室、東洋文化研究所図書室の3ヶ所で、現物からの入力を実施。他に、東洋文化研究所の「現代中国書データベース」をフォーマット変換し2万件をRECONデータベースに反映する予定である。

（2）クライアントシステム
　国立情報学研究所の開発した「多言語対応WebUIP」を利用。

（3）遡及入力要員
　中国語に堪能な週30時間雇用の職員6～7名を採用して総合図書館・東洋文化研究所・文学部の3ヶ所に配置して入力作業をおこなった。

（4）OPACへのデータ格納
　情報学研究所より、テープを入手してローカルへの取り込みを行っている。現状では簡体字は「◆UCSコード◆」のまま表示され、ピンインのヨミは表示されないが、平成13年度中には中国語・ハングル資料に対応したOPACシステムを提供する予定である。

4.2　京都大学の場合
（1）入力予定
　附属図書館、文学部、人文科学研究所の3ヶ所で現物からの入力を実施。附属図書館の中国語図書は1600冊程度であったため、経済学部・工学部・農学部・理学部・経済研究所・文学部など学内数ヶ所から中国書を搬入して作業を進めた。

（2）クライアントシステム
　富士通製iLiswave GBクライアント（中文Windows対応）と、業務用で利用しているJISクライアント（iLiswave）を併用。簡体字の記入には、GBクライアントを利用している。

（3）遡及入力要員
　中国語に堪能な大学院生を中心に19名採用。

（4）OPACへのデータ格納
　書誌完成後、JISクライアントにより１冊ずつローカルデータを追加しつつ取り込みを行っている。簡体字は「◆UCSコード◆」でピンインは読むことができる。

4.3　進捗状況
　この平成12年度の入力実績は、国立情報学研究所の採取したデータによると次のとおりとなっている。

		東大	京大	合計
書誌	新規	5,917	5,581	11,498
	流用	1,075	408	1,483
	修正	12,276	10,020	22,296
	合計	19,268	16,009	35,277
所蔵	新規	16,522	13,811	30,333
	修正	1,875	3,315	5,190
	合計	18,397	17,126	35,523

　東京大学に比べ京都大学はかなり少ない数になっている。その要因として以下があげられる。
　作業端末の相違　――　Windows2000が発売されるかなり以前に事業計画を立てたため、その時点では簡体字対応（GB2312）を基本セットとしているOSとしては中文WindowsNTしか存在しなかった。そのためｉLiswaveGB版の作成を依頼し、2000年5月にはいち早くテスト入力を開始することができたわけだが、GBとJISの２台のクライアントを行き来しながらの作業とならざるを得なかった。東京大学では、WebUIPの完成を待って作業を開始したため大変に効率よく入力を進めることができたと思われる。
　担当者の作業時間数　――　文学部の中国語に堪能なできる大学院生を中心に作業を組んだため、総勢19人にふくれあがった。また１人あたりの勤務時間数もきちんと消化されなかったため年度末に集中するという事態をまねいた。
　ローカルへのデータ取り込み方法　――　当初NACSIS-CATへの入力だけの予定であったが、複本の処理なども考慮にいれ実行した。ケース1（NC登録のみ）でNC入力を行いデータ完成後に、一件づつ配置場所などのデータを追加しながらケース3でローカルへ取り込む作業は、ことのほか面倒で時間をとられた。
　書誌のチェック体制　――　書誌の水準を維持するため係員によって書誌のチェックを実施し、さらにピンインについては中国人留学生の目を経ることとした。

4.4　作業上の問題点
（1）入力規則の不備
　今回の「中国語資料の取扱い（案）」では、コーディングマニュアルを基本としながら、「日本目録規則1987年改訂版」に準拠し、例外的に中国語資料の特性を考慮しCHMARCからの流用入力に対応するため「中国文献編目規則」を適用する場合もあるとしている。
　そのため、取扱い（案）に従おうとすると却って記述困難になる例が頻出している。中国では1991年に国家標準規則として標題紙上の記述様式が決められたため、それ以降は比較的安定した出版がされるようになり書誌も作成しやすくなっている。しかし、それ以前1970年から1980年代前半はとくに注意が必要で、出版年、印刷年、印数、組版年など出版年の特定が難しいことが多い。

（2）修正の場合
　修正の作業は当初、字体の訂正とピンイン・ヨミの追加だけなので比較的簡単だと思われたが、実際にはこれまでに暫定的な方法で作成された書誌が大量に存在する。そのため同定が容易ではなくレコード調整の必要な書誌が多く、作業能率を低下させる原因となっている。
　「オンラインシステムニュースレター No．65」によると、「総合目録データベースに登録されているデータのうち、ISBN等による同定でCHINA-MARCのデータと入替が可能なものについて、入替えを行います」と予告されている。既存書誌11万件中の28％、約3万の書誌レコードがCHINA-MARCにも存在し、ISBNの付された比較的新しい時代のものでは、その割合はさらに60％にのぼる。何らかの工夫がされると、書誌の修正をする時にも大変に参考になると考えられる。「書誌の入替」は、問題があるとしても、マークに書誌ありフラグを立てる方法を検討しているとの事であるので、期待したい。

（3）システム移行期の問題
　京都大学のOPACでも現在のところ簡体字は「◆UCSコード◆」に置き換わってみえるため、ヨミによってしか同定ができない場合が多い。検索においては、漢字統合インデクスが適応されないため漢字形での検索ができず、ヨミでひくことになるがこれも漢音主義であって通常の日本語ヨミとは異なるため分かりにくく、さらにピンインはストップワードにひっかかると検索不能となってしまうなど、利用者にとって大変使いにくい状況が続いている。京都大学では2002年１月にリプレースを行い多言語対応の図書館システムになるが、それまでの間は、2001年から多言語表示が可能となったWebcat（英語版）との併用を利用者に呼びかけている。
　情報学研究所では「中国語資料を取り扱う図書館で、多言語対応クライアントを用意するまでの間」という条件付きでWebUIPの利用を公開した。これにより、その他のヨミフィールドにピンインが入ったため修正ができなかった図書館でも書誌の修正が可能になり、コーディングマニュアルに準拠した形での書誌の作成が標準となった。これ以上は情報源と異なる字体での書誌が作成されないものと期待したい。

5.　今後の展望
　中国書の場合は漢字での読み書きが容易なため、これまで日本語に翻字して記述することに、特に疑問ももたずにきた。技術的な文字コードの進化と、対応する目録データベースの構築という両輪がそろって、「転記の原則」を遵守して目録を作成することの意義が生かせるようになった。
　しかしそのためには言語別の専門職員の養成と確保がますます必要となってくるだろう。組織だった養成カリキュラムやそれを生かせる柔軟な人事のシステムがなければ能力を生かしたり継承したりすることもできない。図書館組織における人材の確保が目録の品質管理にとっても大変重要な課題となっている。
　最近になって京都大学でも東京大学が採用した国立情報学研究所開発の多言語対応WebUIP(UCSクライアント)を追加した。これはWindows2000搭載のブラウザを通じて、国立情報学研究所のWeb UIP Home Pageにアクセスすることで利用が可能となる。切り替えで日本文字も簡体字も呼び出せ大変に操作性がよい。区切り記号をあまり意識せず使えるこの方式は21世紀型の入力装置として今後の主流になっていくのではないかと思われる。
　目録システムの多言語対応で広がった地平を生かして、総合目録データベースの充実を期したい。

目次に戻る