NACSIS-CATにおける正規化処理について

NACSIS-CATでは,以下のとおり,文字コードの正規化処理等を行っています。

原則
・大文字小文字のインデクスの正規化を行い,大文字・小文字いずれであっても検索を可能する。
・複数の要素によって構成されている文字であって,個別の要素と文字全体についてそれぞれ文字コードが割り当てられているものは正規化・包摂を行う。

・音標記号の付加された文字については,インデクスの正規化によって,音標記号の付加されない文字に揃え,いずれの文字においても検索を可能とする。

包摂処理

※一覧のファイルはフォントにより文字化けすることがあります。

①1対N包摂
 1文字から複数の文字(N文字)への包摂処理を行う
(例)U+FB01 fi → U+0066, U+0069 f i
   U+FB17 ﬗ → U+0574, U+056D մ խ

包摂処理の一覧(101 KB)


②文字単位包摂
a.英数字包摂
 英字,数字について,全角→半角の包摂処理を行う。

b.記号包摂
(例)U+FF1B ;→U+003B ;

包摂処理の一覧(26 KB)


c.漢字包摂
(例)U+7DA0 綠 → U+7DD1 緑

包摂処理の一覧(88 KB)


d.その他の1対1包摂
 a~cに含まれない1文字対1文字の包摂処理を行う。
 アラビア文字の数字は,その他の1対1包摂処理に含む

(例)U+1F71 ά → U+03AC ά
   U+0663 ٣ → U+0033 3 (アラビア文字の数字))

包摂処理の一覧(83 KB)


e.未使用文字包摂
 未使用文字をU+3013 〓 に包摂する。すなわち,未使用文字包摂定義に定義された文字はNACSIS-CATでは使用不可である。

包摂処理の一覧(27.5 KB)


③合成文字包摂
 文字+音標記号が独立した文字コードで入力されている場合に,合成文字に包摂する。
(例)U+0041,U+0300 A  ̀ →? U+00C0 À

包摂処理の一覧(259 KB)


④カタカナ包摂
1バイトのカタカナを2バイトのカタカナに包摂する。

 

フィールドごとの正規化処理等


⑤合成文字ローマ字化
 音標記号がついた文字をインデクス作成の際に,音標文字のつかない文字に変換してインデクス化する,等,インデクス化に際して,同一の文字としてインデクス化する文字を定義する。アラビア文字以外の各文字種固有の数字の定義はここに含む。     
(例)U+00C0 À →? U+0041 A

定義の一覧(311.5 KB)


⑥漢字統合
 NACSIS-CATでは,似た形や同じ意味の漢字の間で検索漏れがおこることを防ぐことを目的として漢字統合を行い,インデクスを作成している。
 詳細は,「漢字統合インデクス提供に関するガイドライン」を参照のこと。     
(例)齊 齋 斉 → インデクス作成の際は,「斎」 に統合する。


⑦ひらがなカタカナ化
 インデクス作成の際に,ひらがなはカタカナに変換する。


⑧大文字化
 ラテン文字,ギリシャ文字,キリル文字,アルメニア文字等において,インデクス作成の際に,小文字は大文字に変換する。これにより,アルファベットの大文字小文字を意識せずに検索することができる。

定義の一覧(109.5 KB)

 

その他


⑨翻字形の正規化
 NACSIS-CATでは,翻字形がアポストロフィ(U+0027)に似ている場合に検索に漏れがないように,正しい文字を従前どおりトルツメ処理したインデクスと正しい文字をアポストロフィに変換したインデクスを作成する。なお,U+02BC,U+02BBについても,同様の処理を行う。
(例)アラビア文字のアリフの翻字形(U+02BE)およびアインの翻字形(U+02BF)
   キリル文字の軟音符(ь)の翻字形(U+02B9)および硬音符(ъ)の翻字形(U+02BA)