目録システム利用マニュアル


[目次]
[前ページ] 付.C インデクス作成仕様
[索引]

付録.D 特殊文字・記号・ストップワード

 ここでは、目録システムにおいて特別な扱いをされる、以下の文字・記号について説明します。

 1.アラビア数字、及びローマ字(2バイトコード)

 2.EXC文字(2バイトコード)

 3.踊り文字(1バイトコード/2バイトコード)

 4.デリミタ(1バイトコード/2バイトコード)

 5.ストップワード

 1、2は、データの表示の際に特別な扱いをされる文字種です。

 1は、NVT2バイトコード文字ですが、他の2バイトコード文字とは異なり、NVT1バイトコード文字にも対応する文字が存在します。

 目録システムにおいては、1バイト/2バイトの違いにかかわらず両者は同一視され、目録情報の表示形としては1バイトコードのほうが採用されます。このため、これらの2バイトコード文字は、検索されたレコードのデータ中に現れることはありません。

ヒント

 2は、さまざまな言語で記述された文献の目録作業を行う際、表記どおりの記録を可能にするために設計された文字種です。これらの文字は、参加組織側システム、または端末によって表示方法が異なります(2バイトコードでありながら半角表示が可能な端末があります)。

 また、2〜5は、検索用インデクス作成の際、および入力された検索キーの変換の際に特別な扱いをされる文字種です。

 検索業務においては、これらの特殊文字・記号を含め、レコードのデータ中の文字列、または入力される検索キーの文字列が、「語」を構成するか否かが問題となります。

 アラビア数字、ローマ字、カタカナ、ひらがな、ロシア文字、ギリシャ文字、漢字、特殊アルファベット(を除く)、音標符号付ローマ字、二重音標符号付ローマ字および音標符号付特殊アルファベットは、単独(1文字)でも語を構成することができます。

 踊り文字は、単独で語を構成することはできませんが、語の構成要素にはなり得ます (ただし、「◆」を除き、語の先頭に位置することはありません)。

 デリミタは、語の構成要素になることはなく、語と語の区切りとして機能します。

 ストップワードは、検索インデクスから除外される語で、具体的には、欧米諸言語における前置詞、冠詞、接続詞のことです。

 以下の表に、目録システムにおいて使用される文字の種類を示します。

目録システム用文字セット

 単独で語を
構成できるもの
踊り文字デリミタ絵文字数
NVT1バイトコード
(JIS X 0201-1997)
   158
 アラビア数字(数字)10--10
ローマ字(ラテン文字)52--52
カタカナ(片仮名)55--55
記号-53641
NVT2バイトコード
(JIS X 0208-1997)
   6,877
 アラビア数字(数字)10*--10
ローマ字(ラテン文字)52*--52
カタカナ(片仮名)86--86
ひらがな(平仮名)83--83
ギリシャ文字48--48
(ギリシア文字)    
ロシア文字(キリール文字)66--66
漢字6,355--6,355
記号113+133+147
累計素片--3232
NVT2バイトコード
(EXC文字)
   691
 音標符号--2929
特殊アルファベット23-124
音標符号付ローマ字535--535
二重音標符号付ローマ字58--58
音標符号付特殊
アルファベット
39--39
制御文字--66
合計7,471182377,726

注)

■EXC文字

 EXC文字は、検索業務においては、対応するローマ字と同一の文字とみなされます(ただし、音標符号、および制御文字を除く)。 ファイル検索においては、EXC文字を入力しても、対応するローマ字を入力しても同様の結果が得られます。

 ただし、対応するローマ字の文字列がストップワードと同一となるような場合は、EXC文字をそのまま入力することによってのみファイル検索が可能です。

 また、特にEXC文字をデータ中に含むレコードだけを検索するためには、文字列検索において検索キーの特定化を行う必要があります。

■踊り文字

 ファイル検索において、語を構成する踊り文字はそのまま入力することによって、当該踊り文字を含む語を持つレコードが検索されます(ただし、長音記号、ダッシュ、ハイフン、負記号は正規化処理により除去されるので、それらの文字を含むとは限らない)。

 しかし、踊り文字はAKEY作成の際には除去されます。つまり、AKEY作成の際、データ中の踊り文字は「トルツメ」処理されます。このため、AKEYで検索する場合は、踊り文字を文字数の計算に含めないよう注意する必要があります(ただし、濁点、および半濁点は除去の対象外です)。

 以下の表に、踊り文字一覧を示します。

UCSコード表示形名称
0027'アポストロフィー
002D-ハイフンマイナス
2010ハイフン
2014ダッシュ
25C6黒菱形
3005繰返し記号
309B濁点
309C半濁点
309D平仮名繰返し記号
309E平仮名繰返し記号濁点
30FC長音記号
30FD片仮名繰返し記号
30FE片仮名繰返し記号濁点

■デリミタ

 ファイル検索においては、デリミタは検索の対象となりません。

 デリミタ(空白は除きます)をデータ中に含むレコードを検索するためには、文字列検索において検索キーの特定化を行う必要があります。

UCSコード表示形名称
0020 間隔、空白、スペース
0021!感嘆符
0022"引用符、ウムラウト
0023#番号記号、井げた、シャープ
0024$ドル記号
0025%パーセント
0026&アンパサンド
0028(始め小括弧、始め丸括弧
0029)終わり小括弧、終わり丸括弧
002A*星印、アスタリスク
002B+正記号、加算記号、プラス
002C,コンマ
002E.ピリオド
002F/斜線、スラント、スラッシュ
003A:コロン
003B;セミコロン
003C<不等号(より小さい)
003D=等号、イコール
003E>不等号(より大きい)
003F?疑問符
0040@単価記号、アットマーク
005B[始め大括弧、始め角括弧
005C\円記号
005D]終わり大括弧、終わり角括弧
005E^論理否定、アクサンシルコンフレックス
005F_アンダーライン
0060`アクセント、アクサングラーブ???
007B{始め中括弧
007C|縦線、ストローク
007D}終わり中括弧
00A1¡逆感嘆符
00A2¢セント記号
00A3£ポンド記号
00A4¤不特定通貨記号
00A5\円記号
00A6¦破断線
00A7§節記号
00A8¨ウムラウト、ダイエレシス
00AB非常に小さい
00AC¬否定
00B0°
00B1±加減算記号、プラスマイナス
00B4´アクサンテギュ
00B5μマイクロ
00B6段落記号
00BB非常に大きい
00BF¿逆疑問符
00D7×乗算記号、かける
00F7÷除算記号、わる
060C، ARABIC COMMA
061B؛ARABIC SEMICOLON
061F؟ARABIC QUESTION MARK
066A٪ARABIC PERCENT SIGN
066D٭ARABIC FIVE POINTED STAR
06D4۔ARABIC FULL STOP
0964DEVANIGARI DANDA
0965DEVANIGARI DOUBLE DANDA
09E4 (reserved)
09E5 (reserved)
0A64 (reserved)
0A65 (reserved)
0AE4 (reserved)
0AE5 (reserved)
0B64 (reserved)
0B65 (reserved)
0BE4 (reserved)
0BE5 (reserved)
0C64 (reserved)
0C65 (reserved)
0CE4 (reserved)
0CE5 (reserved)
0D64 (reserved)
0D65 (reserved)
0F0DTIBETAN MARK SHAD
0F0ETIBETAN MARK NYIS SHAD
0F0FTIBETAN MARK TSHEG SHAD
0F10TIBETAN MARK NYIS TSHEG SHAD
0F11TIBETAN MARK RIN CHEN SPUNGS SHAD
0F12TIBETAN MARK RGYA GRAM SHAD
104AMYANMAR SIGN LITTLE SECTION
1B5EBALINESE CARIK SIKI
1B5FBALINESE CARIK PAREREN
2016双柱
2018左シングル引用符
201C左ダブル引用符
2020ダガー
2021ダブルダガー
2025二点リーダ
2026三点リーダ
2030パーミル
203B米印
203Eオーバーライン
2103セ氏度記号
212Bオングストローム
2190左向矢印
2191上向矢印
2192右向矢印
2193下向矢印
21D2ならば(含意)
21D4同値
2200全ての(普通限定子)
2202デル、ラウンドディー
2203存在する(存在限定子)
2207ナブラ
2208属する
220B元として含む
221A根号、ルート
221D比例
221E無限大
2220
2227及び(合接)
2228又は(隣接)
2229共通集合
222A合併集合
222B積分記号
222C二重積分記号
2234ゆえに
2235なぜならば
223D相似
2252ほとんど等しい
2260等号否定
2261常に等しい、合同
2266より小さいか又は等しい
2267より大きいか又は等しい
226A始め二重山括弧
226B終わり二重山括弧
2282真部分集合
2283真部分集合を元として含む
2286部分集合
2287部分集合を元として含む
22A5垂直
2312
2500横細線素片
2501横太線素片
2502縦細線素片
2503縦太線素片
250C細線素片左上
250F太線素片左上
2510細線素片右上
2513太線素片右上
2514細線素片左下
2517太線素片左下
2518細線素片右下
251B太線素片右下
251C細線素片左
251D縦細線横太線素片左
2520縦太線横細線素片左
2523太線素片左
2524細線素片右
2525縦細線横太線素片右
2528縦太線横細線素片右
252B太線素片右
252C細線素片上
252F横太線縦細線素片上
2530横細線縦太線素片上
2533太線素片上
2534細線素片下
2537横太線縦細線素片下
2538横細線縦太線素片下
253B太線素片下
253C細線素片中央
253F縦太線横細線素片中央
2542横細線縦太線素片中央
254B太線素片中央
25A0黒四角
25A1四角
25B2黒三角
25B3三角
25BC逆黒三角
25BD逆三角
25C7菱形
25CB白丸
25CE二重丸
25CF黒丸
25EF合成用丸
2605黒星
2606白星
2640雌記号
2642雄記号
266A音符
266Dフラット
266Fシャープ
3001読点
3002句点
3003同じく記号
3006しめ
3008始め山括弧
3009終わり山括弧
300A始め二重山括弧
300B終わり二重山括弧
300C始めかぎ括弧
300D終わりかぎ括弧
300E始め二重かぎ括弧
300F終わり二重かぎ括弧
3010始めすみ付き括弧
3011終わりすみ付き括弧
3012郵便記号
3013げた記号
3014始め亀甲括弧
3015終わり亀甲括弧
301C波ダッシュ
30FB中点
4EDD同上記号
A876PHAGS-PA MARK SHAD
A877PHAGS-PA MARK DOUBLE SHAD
A8CESAURASHTRA DANDA
A8CFSAURASHTRA DOUBLE DANDA
AA5DCHAM PUNCTUATION DANDA
AA5ECHAM PUNCTUATION DOUBLE DANDA
AA5FCHAM PUNCTUATION TRIPLE DANDA
ABEBMEETEI MAYEK CHEIKHEI
10A56KHAROSHTHI PUNCTUATION DANDA
10A57KHAROSHTHI PUNCTUATION DOUBLE DANDA
11047BRAHMI DANDA
11048BRAHMI DOUBLE DANDA
110C0KAITHI DANDA
110C1KAITHI DOUBLE DANDA

■ストップワード

 ストップワードとは、検索用インデクスから除外される語のことで、欧米諸言語の前置詞、冠詞、接続詞等を指します。

 これらの語は、次の理由により、ストップワードに指定されています。

 以下の表に、ストップワード一覧を示します。

 本表は、目録システムにおいて、すべての言語に対して、大文字/小文字の別に関わらず適用されます。

 これらの語に音標符号が付いている場合は、ストップワードではありません。また、「FUR」及び「UBER」は、ストップワードではありません。

ADELIPOUR
ACDELLAILPRI
AFDELLEIMSI
ALDELLOINSUR
ALEDEMINSTE
ALSDENINTOTHE
AMDERIZTO
AMONGDESJAU
ANDETLAÜBER
ANDDILASUN
ANSDIELEUND
ASDINLESUNE
ATDOLOUPON
AUDULOSV
AUFDURCHMITVAN
AUFSDURCHSNAVE
AUSENACHVED
AUXEINOVON
AVEINEOCHVOOR
AVECEINEMODERWITH
BEFOREEINEROFY
BEIELOGZ
BEIMEMOMZA
BETWEENENONZU
BYENTREOPZUM
CONESOR ZUR
DAETOU
DANSETCOVER
DASFORPARA
DEFRAPER
DEGLIFÜRPO
DEIHETPOR

[ページの先頭]