国文学研究資料のデジタル化一その流通と活用_

安永尚志(国文学研究資料館)
yasunaga@nij1.ac.jp


1.はじめに
1,1講演の趣旨
人文科学とコンピュータという新しい領域の問題解決に向けての研究活動が,国内外において盛んである.欧米では,主要な文学作品のデジタル化はほとんど完了に近い.電子化辞書や各国語コーパスなどの実用化も進んでいる.さらに、例えば,シェークスピア研究などではコンピュータを活用した作者真贋判定などの研究も進んでいる.中国圏では,主要な作品のデジタル化が極めて顕著である.
一方,わが国においても,特定領域研究「人文科学とコンピュータ」などを契機に,人文科学へのコンピュータの活用が進んできている.しかし,欧米に比べると,デジタル化の速度は格段の差と言わざるを得ない状況にある.
日本文学研究へのコンピュータ利用も進んできている.とりわけ,1999年は極めて画期的な年であった.3種の源氏物語のデジタルテキスト等のCD-ROMの市販,および国文学研究資料館からの日本古典文学本文データベース(実験版)のインターネットによる試験公開(約600作品)などである.今後,益々重要な日本文学研究資料のデジタル化とその公開が,インターネット環境並びに電子出版環境において加速されよう.
しかし,我々に課せられる課題は多いし,大きい.例えば,1T革命の進行の中で,新しい日本文学研究の展開はあり得るのであろうか.不幸にして,未だ燃したる研究成果は得ていないように思われる.今後,日本文学研究がどのように情報技術を利用していけるか,あるいは参画することができるかについて考える必要がある.
本講演では,主.として国文学研究資料館などにおける研究事例を紹介しつつ,蓄積されてきている様々な情報資源を活用する文学研究とは何かについて,報告し,ご批評を得たい.さらに,これからのキーと思われるコラボレーションと電子資料館システムの展開についても報告する.
1.2コンピュータ利用の目的
例えば,古典和漢学の研究においても,研究成果を入手したり,成果物の確認を行うにはコンピュータを利用しなければならないという事態が起こり始めている[2].また,文学研究を進展させるためのコンピュータ利用の方法論および手法の研究も進展している.
日本文学研究においても,原本,テキスト,書誌,目録,索引などのデジタル化が進み,インターネットやCD-ROMで,容易に利用できるようになってきた.インターネットに接続可能なパソコンさえあれば,デジタル化された多様な学術情報を利用して研究を進め,検証し,あるいはプログ考トを構築することなども可能となってきた.

日本文学研究におけるコンピュータ利用の目的を整理してみる.
(1)研究課題の探索と調査研究
(2)研究論文(雑誌,図書)の探索と入手
(3)資料,材料(原本も含む)の探索と入手
(4)電子化原本(画像),テキスト(全文,索引)の探索と入手
(5)語彙並びに用例などの検索
(6)語彙素引,辞書(コーパス)の作成
(7)テキスト校訂(異本テキストの比較,差異の検出と検証)および解析
(8)研究成果の発表(インターネットでの情報発信)
(9)コラボレーションの推進(問題提起,討議,評価,検証)
などであろうか.従来には無かったあるいは考えられなかった新しい展開が始まっていると言えよう.基より,コンピュータ利用の目的は,大量の学術情報を網羅的に整理し,処理し,新たな知見を得ることである.
もう少し体系的にまとめてみれば,日本文学におけるコンピュータ利用は次のような3課題を考えることである[3].
(1)情報を探す(みつける)
(2)情報を処理する(ひもとく)
(3)情報を作る(つくろう)
(1)は,研究活動に必要な情報をどうやって探すかという課題である.(2)は,日本文学研究の立場からの情報とは何かという課題である.(3)は,日本文学研究における情報の処理の仕組みや,データの作り方を考える課題である.

2.国文学研究とコンピュータの課題
2.1国文学研究とは
文学は人の感性の言語による表出であるから,国文学は日本人の心の表現であり,日本語を育んだ土壌であると言える.すなわち,国文学研究は現代日本人の考え方と感じ方を育てた土壌を探る学問であると言える.国文学研究は文学作品を通じて,すなわち文字によるテキストを主体として,思潮,感性,心理を科学する.
テキストは,作者の思考や感情などが文字の形で具象化されたものであるから,研究者は書かれた文字を「ヨム」ことによって,作者の思考や感情を再構築しようとする.「ヨム」こととは,読む,詠む,訓むなどの意味である.換言すれば,文学作品を鑑賞し,評論し,その作品を通しての作者の考え方を知ることである.
元来,国文学にとってコンピュータは最も縁遠い存在と見られてきた.国文学者からみれば,「コンピュータに文学が分かるか」とか,「日本語のコンピュータが無い」などの理由である.そこで,文学研究にコンピュータは役立つかということの検証が必要である.例え,コンピュータは単に「ハサミとノリ」の役割であるとしても,答はYESと言えるであろうか.研究過程における膨大な資料から生成される大量多種多様なデータや情報の取扱いには,コンピュータは欠かせないに違いない.
2.2国文学情報の分析[4]
国文学研究の研究対象である資料は,文献資料および本文(ほんもん)資料である.文献資料には写本や刊本などの原本や写真資料があり,また翻刻され,印刷された活字本もある・本文章料は本文,語彙索引,用例索引などがある.また,研究論文の必要なことは言うまでもない.
文献[4]に,国文学債鞍の分析を行い,その種類と特質をまとめている.ここではその詳細は割愛するが,取扱うべき情報の質的な違いを区分するものとして,5レベルの区分をしている.すなわち,国文学情報は階層構造を持つと考えられ,これを階層モデルと呼んでいる.情報形態は,各レベルにおいてそれぞれ独自に表現され,文字だけではなく,数値(符号を含む),画像,音声などのマルチメディアによる表現である.
さらに,階層モデルに基礎を置き,作品をヨムためにはその作品の諸本の関連と研究の経緯を知る必要がある.諸本の伝来の系譜モデルが必要である.詳細は割愛する.
2.3国文学データベース[4]
国文学情報の階層モデルに基づく様々なデータベースが開発研究され,実用に供されてきている.原本やマイクロフィルム資料などの書誌目録,研究論文の目録などの基本的なデータベースは既に実用化されている.文献[4]に詳しいので割愛する.最近では,原本画像データベースや全文データベースの実用化が始まっている.
2.4文字セツト[6]
文字の問題がある.とくに,JIS外字の問題である.情報交換のための漢字は,JIS規格で定まっている.しかし,この枠外に必要な文字が数多く発生してきており,これをコンピュータで取り扱えなければ,国文学研究の推進はないと言い切る国文学者もいる.しかし,JIS外字を1組織体で努力して作成しても,その組織体の外への流通はほとんど不可能に近い.
2.5コンビュータヘの期待[8]
福田秀一氏による代表的な指摘を以下にまとめる.以下の課題はなかなか難しい.この指摘は,情報システムヘの要求と言うよりも,むしろ国文学におけるデータの作り方の問題のように思える.
(1)情報の即時利用
テキスト同定のための諸本の検討とそれに先立つ探索が必要で工冊子体目録ではデータ更新が望めない.文献資料目録データベースの最新性の維持と,即時性への対応が要求される.例えば,国書総目録[9]はすでに絶版であり,その補遺は古典籍総合目録[10]に引き継がれてはいるが,次の改訂版の出版は未定である.
(2)典拠コントロール
異名同書や同名異書などの典拠コントロールが望まれる.異名同書では,「更級日記」を「更科日記」,「十六夜日記」を「いさよひ日記」「不知育記」「不知夜記」などとする表記の違い程度はあまり問題はない.しかし,「吾妻問答」と「角田川」は同書であるが,これなどは目録作成に専門的知識が必要である.一方,同名異書は難しい問題がある.例えば「とはずがたり」には,国書総目録に17項目の異書があると指摘されている.
このことは著者の場合にも通じる.同名異人は,論文目録データベースの著者に多く,例えば「伊藤博」氏は正確に何人いるであろうか.
(3)キーワードの統制
例えば,論文目録データベースの場合は,使用される用語が学術用語として確立してないので,キーワードの統制は不可能である.概念は著者により,また読み手により異なり,キーワードの策定に苦労が多い.タイトルからの自動切り出しも行うが,用語が人により異なる.さらに,分類キーワードも持っていない.
(4)語彙認定
古典作品は分かち書きされていないので,不用意な語彙区切りは危険であるとの指摘がある.例えば,「無名草子」に「五月十日よひの程」とあり,この「よび」は古来「宵」と解釈されてきた.しかし,文脈上「余日」つまり「余り」とした方がよいと新説が最近出され,現在こちらの方が正しいとされているという例もある.
2.6課題の整理
国文学研究資料は,文字を主とするものであるが,写本はマルチメディア情報として,画像として表現される.あるいは,演能,浄瑠璃,歌舞伎などでは,テキストも必要であるが,その演じられることが重要であるから,動画であり,音曲,謡などが用いられる.
国文学研究資料はマルチメディアであり,これらの電子化と組織化が不可欠である.
一方,先に触れたように,国文学研究資料の解析により得られた階層モデルに基づき,国文学データベースが数多く構築され,実運用も進んできている.しかし,これらは個別対応のデータベースとして作られ,利用されている.文学のように思弁的な学問分野においては,様々な研究資料,情報の総合的で多角的な活用が必要とされる.複数の異質なデータベースを渡り歩いて,発見的知見が得られるような仕組みを必要とする.例えば,原本と活字本のテキストにおいて,文や字句などの直接的な比較が可能なシステムが必要である.
インターネット環境を基礎とした電子資料館システムの双方向活用が必要である.あるいはコラボレーションの推進が必要である.

3.展開と課題
最近の日本文学研究へのコンピュータ利用の展開について,主李成果を以下にあげる.
プロダクトとしてはデータベースである.インターネット型とパッケージ型に分かれる.
現在までの傾向では,データベースは作ることに主眼が置かれている.それを活用した研究への展開はこれからのようである[11].
データベースの提供はCD-ROMなどによる個人レベルでの提供が増えてきている.ホームページでの情報発信は増加しているが,研究にたる情報資源(例えば,校訂テキストなど)は少ない.むしろ,リンク集などに敬服に値する良いものがある[12].信頼度の高い全文データベース,貴重書などの原本画像データベースなどの提供は,やはり専門の研究機関などによることになろう[13].
良い研究用のデータベースの作成は,1研究者,1研究機関の枠内では限界がある.コラボレーションによる学際的な領域まで広がった専門的かつ総合的な情報基盤の整備が望まれる.すなわち,人,システム,ネットワーク,コンテンツの4カテゴリの総合化で捉えなければならないであろう.
3.1フルテキストデータベース
3.1.1源氏物語のフルテキストデータベース
1999年,源氏物語に関する3つの画期的なプロダクトが集中的に出版された.日本文学研究にとって重要なプロダクトである.
(1)伊井春樹他編:CD-ROM角川古典大観源氏物語,角川書店,1999
(2)村上征勝他編:CD-ROM勉誠出版源氏物語,勉誠出版,1999(遅れている)
(3)中村康夫他編;CD-ROM国文学研究資料館絵入源氏物語,岩波書店,1999
従来,源氏物語本文の電子化と流通は様々に展開されてきている.しかし,文学研究の観点からの評価はそれほど高いものではなかった.上記3点のCD-ROMは文学研究者の手を経たもので,研究者に活用されることを目標にした完成度の高いプロダクトと言える.
それぞれ代表的な写本系列の校訂テキストを中心に,諸本,校異,文法,事例,語彙等々の様々な関連する資料,情報に対応するデータベースを指向している[11].3つとも,それぞれに大きな特徴を有するが,詳細は割愛する.
3.1.2和歌集のフルテキストデータベース新編国歌大観は45万首のほとんど全ての和歌を網羅し,検索機能も多様である.正保版本による勅撰二十一代集は新たな校訂テキストである.これらによって,和歌の引用が極めて容易となった.
(1)角川書店編:CD-ROM新編国歌大観,1996
(2)中村康夫他編:CD-ROM国文学研究資料館二十一代集,岩波書店,1999
3.1.3グローバルな古典テキストのデータベース
岩波書店キリ行旧版「日本古典文学大系」金玉00巻のフルテキストデータベースである.
古典の代表的な作品約600の校訂テキストからなる.
(1)国文学研究資料館:日本古典文学本文データベース(実験版),1999,
http:〃www.nijl.ac.jp/
3.1.4課題
CD-ROMによる研究支援は画期的である.しかし,問題がない訳ではない.例えば,CD-ROMという限られたメデイア空間であること,プラットホームの限定,価格の問題,新たな電子出版という知的財産権の発生に伴う類似の研究の展開の困難性などが指摘されている.これらの閉じた情報資源の効果的な開かれた相互運用が望まれる.この解の方向としては,双方向運用可能な開かれた電子資料館システムが考えられる.
現在のところ,以上のプロダクトならではの(を活用した)日本文学研究の新しい展開,および新たな研究成果は得られていない.このようなデータベースを形成することは進んでいるものの,これによる文学研究の展開が今後の大きな課題と思われる.
3.2大量漢字の電子化
日本語処理にとって重要な要因は大量漢字の処理である.周知の通り,現在の日本語処理のための情報交換用符号として,JISが定められている.よく使われる文字集合として,JIS-X0202-1983があり,これは約6000文字である.現在,大きく4つの漢字処理が現れ[14],これからの展開は予測がつかない状況にある.JISを除いて,大量漢字処理では共通するものの,その目的,用途はかなり異なる.利用者には正しい情報を伝え,啓蒙し,かつ利用後の評価が真筆に行われなければならない.
(1)GT書体プロジェクト:東京大学約5万字
(2)e漢字プロジェクト:京都大学約9万字
(3)今昔文字鏡プロジェクト:学会など有志約9万字
(4)JIS規格:第3,第4水準約1万1千字
3.3情報国文学の展開
コンピュータが文学研究に役立つかという課題に本格的に挑戦する必要がある.文学研究過程をコンピュータ上にシミュレートし,新たな知見を得ることができるかどうかの研究が展開されている[51.研究過程を通じて生成される大量の多種多様の灰色情報を,再活用し,データベースに展開するシステム環境を提案し,具体的な文学テーマの推進への応用を試みている.
以下の研究例は,文学の問題を越え,国語学の問題としても興味深い.
藤原鎮男氏[15]は,連歌の使用語彙の頻度統計の分析から1語彙の頻度が指数分布をすることを発見し,また普遍性と個別性を持つものへの偏りのあることを発見されている.
この発見により,耳慣れた普遍性の言葉を多用することによって,連歌の基調が作られ,意味の限定した個別性の言葉から句の独自性,特色が作られることを実証された.
近藤みゆき,泰弘夫妻[16]は,平安和歌(古今和歌集など)を歌語を始めとする表現分析に適した形でデータベース化する方法を研究している.さらに,和歌表現,和歌語彙におけるジェンダー性の分析に取り組んでいる.その手法に和歌語彙のnグラム統計分析を用いている.nグラム統計は,手法としては簡単であるが,文字表記の統一性,掛詞処理,長い文字列の慣用表現や類句の抽出の容易性に効果的で,日本文学研究における強力なツールに成りうる.事実,nグラム統計による女性使用語彙の偏りの発見によるジェンダー研究への展開の足がかりを得ている..
その他,村上征勝氏による使用語彙,品詞などのクラスター分析によるテキストの真贋判定などへの応用研究がある.有名な源氏物語の宇治十帖の作者判別などの研究があるが,詳細は文献[17]などに譲る.
3.4コラボレーションの推進
インターネット環境におけるコラボレーションは,最も単純なシステム環境としては,電子メールとWWWの共有によるものである.例えば,テキスト校訂などを行う共同研究が考えられる.遠隔地の研究者や専門家などが共同して,データベースなどのプロダクトを作るという課題を,グループウェアとして,高度の情報交換を可能とし,随時に結果を共有ファイルに形成しつう,直ちにその評価を行い,より精緻な結果を生成することを考えている.
最終的な目標は,共同利用型の電子資料館システムの構築である.例えば,近接した分野(人文科学)の研究機関の持つ個々の特色ある情報資源のネットワークによる共有の実現である.具体的な実験が始まっている.ある概念で検索すれば,国立歴史民俗博物館データベースの歴史情報が,国際日本文化研究センターデータベースの文化比較情報が,国文学研究資料館データベースの本,テキスト等の文学情報が,研究者の机のパソコンに自動的に揃うことの実現である.
3.5電子資料館システムの展開
情報発信型と情報受信型の電子資料館システムが必要である.情報発信型は通常の電子図書館システムとして機能する.メタデータ,Z39.50プロトコルなどによる検索システムを装備し,例えば国文学研究資料館の多様なデータベースヘの共通アクセスを可能とする.ただし,上述のように共同利用機関のコラボレーションを指向する必要がある.
一方,情報受信型は次のようなシステムである.これは今までにない発想であるが,インターネットの発展を考慮すると,1人または1機関の力は限りがあるため,多くの人々のプロダクトを有効に活用し,場合によって再編し再発信するなども含め,新たな個人向きの情報空間を形成しようというものである.ダイナミックに変化する個人環境を柔軟に作り上げる個人環境向き電子資料館の構築である.必要な情報,データを世界中から瞬時にアクセスし,取得し,自分の知的空間を再編,作り上げていくシステムを目指すものである.言わば,個人の机が世界に向かって開かれた電子図書館として機能する.

4.あとがき
文学研究ヘコンピュータが役立つかという第一の課題は重要である.が,ここではむしろ文学研究の情報学的展開という第二の課題への挑戦を意識している.しかし,勉強不足のため重要な事例の研究に乏しく,かつ考察が浅いままに止まっている.
やはり,「コンピュータ活用は,人問の知的活動の延長にあるもので,旧来の手法やノウハウも,次世代への大きな種となって継承されるべきで,そこにこそ人間の文化的生活のあり方があると言える[21]とまとめるべきであろう.
サイバースペースにおける知的財産権が大きな関心を呼んでいる.インターネットの爆発的な普及,電子出版,DVDの出現など近年のデジタル化,ネットワーク化の進展は著しい.著作権の面から見たデジタル化の特徴はデジタル化自体は複製にすぎない.しかし,デジタル化により著作物の利用の仕方が多様になった.本稿ではこの問題については言及できなかった.
サイバースペース上には,同じ情報資源の異種,複製など(とりわけ,同一作品の異テキストなど)が大量に存在する.電子版写本の横溢がある.世界中にインターネット上に源氏物語のテキストはどのくらいあるであろうか.研究に値する資源を見極めることが極めて重要な研究者の資質条件となっている.一方,20世紀後半にして,どの分野においても文献数は激増し,その寿命は短くなり,極端にはWWW上の情報はその安定性,寿命,信頼性を保証することができない[18].
セキュリティの確保など,情報化の進展に伴って深刻な問題も発生している.このような社会的問題に対処するための方策を,国文学研究と言えども探求することが求められている.
なお,本稿は文献[19]から大半を抜き書きして作成した.
<参考文献>
[1]藤原鎮男:情報国文学の一路程,国文学とコンピュータシンポジウム(6),1994
[2]相田満他:シンポジウム「コンピュータの和漢学」,東洋文化,84,PP-59-71.2000
[3]安永尚志:文科系のための情報検索入門,平凡社,1996
[4]安永:国文学における情報の考察とデータベースの構築,情報知識学会誌,5.2,pp.1-15.1995
[5]安永:国文学研究とコンピュータ,勉誠出版,1998
[6]安永:国文学研究資料館におけるJIS外字文字作成の状況,人文学と情報処理,10,pp.26-34.1996
[7]村上学:エンドユーザの視点から,国文学とコンピュータシンポジウム(1),1989
[8]福田秀一:国文学における大量多種データ運用管理のための知識べ一スシステム,科研費報告書
#60810009.1988
[9]市古貞次他編:国書総目録,1-8,岩波書店,1970
[10]国文学研究資料館編:古典籍総合目録,第1巻?第3巻,岩波書店,1990
[11]伊藤鉄也:源氏物語受容環境の変革,「伊勢と源氏」臨川書店,PP.159-234, 2000
[12]例えば,後藤斉(東北大学):http:〃www.sa1.tohoku.ac.jp/~gothit/zinbun.htm1
日本文学研究所:http:〃koudan.com/link/1inkd.htm1
[13]例えば,京都大学電子図書館:http:〃ddb.libnet.kulib.kyoto-u.ac.jp/minds.htm1
[14]情報処理学会:次世代の漢字環境,全国大会(60)パネル討詩集,2000
[15]藤原鎮男:連歌の語彙にみる普遍性と個別性,国文学研究資料館紀要,22,PP.213-262.1996
[16]近藤みゆき:nグラム統計による和歌集の分析,人文科学とコンピュータ最終報告書,1998
[17]村上征勝:真贋の科学,朝倉書店,1995
[18]名和小太郎:変わりゆく情報基盤,関西大出版部,2∞0
[19]安永尚志:情報国文学について考える,情報知識学会第8回研究毅告会,PP.33-44,20∞