東京大学史料編纂所

HOME > 編纂・研究・公開 > 共同研究 > 歴史知識情報の正規化による古記録フルテキストデータベース高度化と記録語の解析研究

研究種目名 基盤研究(B)
研究課題名 歴史知識情報の正規化による古記録フルテキストデータベース高度化と記録語の解析研究(21320121)
研究期間 2009年度~2011年度
研究代表者 吉田 早苗
研究目的 古記録室では、史料集『大日本古記録』の刊行事業と並行して、収録テキストを古記録フルテキストデータベースとして公開を進めてきたが、近時の デジタル技術の飛躍的発展をうけ、さらなる高度化を実現すべき段階に至っている。具体的には、テキストの構造化・データの正規化による検索機能の向上、人名・地名・語彙に関わる歴史知識情報の収集・解析と利活用などである。本科研では、こうした状況をふまえて、既存データベースの高度化を実践するとともに、史料集の電算印刷化に即して、デジタル技術を用いた編 纂システムの開発を模索する。さらに本文テキスト生成に付随して、知識データの自動抽出・各種データベースの自動更新に向けた取り組みも展望するところである。またこれまで古記録室が組織的に収集を進めてきた古記録関連諸情報のデジタル化も促進し、統合的な情報活用を目指すところである。
研究実績の概要
  • 2011年度
  • 2010年度
  • 2009年度
【2011年度】
研究の実績については、基盤研究A「ネットワーク環境における前近代日本史史料の翻刻・編纂フレームワークの確立」(研究代表者・加藤友康・明治大学教授)が開発した「翻刻支援システム」を用いて、史料編纂所所蔵の『後龍翔院殿記』を素材に構造化テキストを生成した。古記録に適合するタグ形式のあり方を探るとともに、既存のフルテキストデータベースへの適応方法を検証したところである。また史料集刊行中の『後法成寺関白記』四を対象にTexデータを作成し、構造化テキストと比較対象を通じて、XMLからのデータ転換について検討を深めた。なおこのTex データについては、実際の編集・印刷に活用し、『大日本古記録』として既に公刊したところである。歴史知識情報については、2010年度に引き続き、公開促進費(データベース)「古記録フルテキストデータベース」によるデータ蓄積・公開をふまえつつ『大日本古記録』既刊分に付されている索引情報をデジタル化し(『民経記』)、構造化テキスト中の語彙タグとの共通化にむけた取り組みを行った。今後、史料編纂所情報処理システム全体のなかで、いかに有機的に連携させてゆくかが課題として浮かびあがってきたところである。なお電子化した索引データについては、「中世記録人名索引データベース」を介して公開し、既に利用に供している(『貞信公記』『九暦』『御堂関白記』『後二条師通記』『殿暦』『猪隈関白記』『岡屋関白記』『深心院関白記』)。古記録関連諸情報については、データ形式を「編年史料カードデータベース」に適合するよう変換したうえで、登録を進めており、条件が整ったものから順次公開することを予定している。
備考