東京大学史料編纂所

HOME > よくあるご質問

データベースにおける文字について

(2006/4暫定版)

東京大学史料編纂所がホームページから提供するデータベースでは、ユニコード(UTF-8)を使用しています。本データベースを利用に際しては、以下の外字・ゲタ字(〓)・異体字同定処理に関する原則をお読み下さい。(2006/4/17)


外字処理について

ここでの「外字」とは、ユニコード(UTF-8)にない文字のことです。現状では、2つの処理方式が混在しています。

東京大学多国語処理研究会の提供するGTフォント(12*12のGIFフォント)によってイメージ表示するもの。

この処理方式では、諸橋『大漢和辞典』(大修館書店)の漢字にふりあたえられた一連番号(大漢和コード)を入力し、それを利用してGTフォントを表示させています。
【注意】大漢和コードとGTフォントとの連繋がうまくいっていないものは、が表示される場合があります。
【参考】東京大学多国語処理研究会についてはこちらのホームページをご覧下さい。



ゲタ字〓を入力したもの。

諸橋『大漢和辞典』(大修館書店)外の漢字など、大漢和コードを与えることができないものは、ゲタ字〓を入力しています。
【注意】ただし、次の項目で説明するように、現在では、ユニコードフォントあるいはGTフォントで表示可能なものでも、ゲタ字〓が入力されているものがあります。

ゲタ字(〓)について

これは2つの場合が混在しています。

2000年以前の旧システム段階の時点で、入力されたデータで、Shift-JIS第1水準・第2水準にはない文字。

この場合、現在ならば、ユニコードフォントあるいはGTフォントで表示されるべきものが、ゲタ字(〓)で表示されます。



諸橋『大漢和辞典』(大修館書店)外の漢字。

諸橋『大漢和辞典』(大修館書店)外の漢字には、ユニコードにあるものと、ユニコード外のものがあります。つまりユニコードで表示されるべきものが、ゲタ字(〓)で表示される場合があります。

異体字同定処理について

ここでいう「異体字」とは、旧字と新字のように違う字体でも同じ字とみなされるものを指します。具体的には「旧」と「舊」などがあります。本システムには、異体字同定システムが備わっています。これにより、たとえば「国」でも「國」でも同じ検索結果が得られます。この異体字同定の対応関係は(別表)異体字表のとおりです。この異体字表は、次のような原則に基づきます。

異体字と認定する基準

〔基準1〕
JIS第1水準の範囲にある漢字は全て親字とし、この範囲内にある文字どうしは異体字の対応付けはしません。たとえば「崎」「埼」は共に親字とします。
〔基準2〕
JIS第1水準の文字とJIS第2水準の文字が対応する場合は、JIS第1水準の文字を親字とし、JIS第2水準の文字を異体字とします。JIS第1水準に複数の対応する文字があるなら、文字コードの値としてもっとも若い文字を親字とします。
〔基準3〕
JIS第2水準の文字どうしが対応する場合は、文字コードの値としてもっとも若い文字を親字とします。



親字と認定する基準

親字と認定する基準は、いわゆる新字・旧字ではありません。おおむねコード値の若い方を親字として採用しています。具体例はつぎのようになります。


親字(字の種類)
異体字

潅(新字)


冦(俗字)


鑽(正字)

なおこの中には、潅・灌のようにJISの基準でも(X0208 付属書1表3)文字形が交換可能としている異体字もあり、親字を特定する決定的な根拠がないのが現状です。