PostgreSQL 7.3 Documentation
Prev	Chapter 7. 多言語対応	Next

7.2. マルチバイトサポート

著者: 石井達夫(<ishii@postgresql.org>)、最終更新日 2002-07-24。より詳しくは石井達夫の web サイトを参照して下さい。

マルチバイト（MB）サポートは PostgreSQL で EUC (拡張 Unix コード)、Unicode、および Mule 内部コードなどのマルチバイト文字セットを扱えるように意図されたものです。MBが使えると、正規表現（regexp）、LIKE、いくつかの関数でマルチバイト文字セットが使えます。initdb を使って PostgreSQL インストレーションを初期化する際にデフォルトの符号化システムが選択されます。この設定は createdb または SQL の CREATE DATABASE コマンドでデータベースを作成する際に上書きすることができます。したがって、データベースごとに異なった符号化システムによる複数のデータベースを持つことができます。MB は ISO-8859-1 のようなシングルバイト文字セットを処理できることに注意してください。

マルチバイトサポートは PostgreSQL バージョン 7.3 からデフォルトで使用できるようになっています。

7.2.1. サポートされる文字セット符号化方式

データベースの符号化方式として以下の符号化方式を使用することができます。

Table 7-1. 文字セット符号化方式

符号化	説明
`SQL_ASCII`	ASCII
`EUC_JP`	日本語 EUC
`EUC_CN`	中国語 EUC
`EUC_KR`	ハングル EUC
`JOHAB`	ハングル EUC (ハングルベース)
`EUC_TW`	台湾 EUC
`UNICODE`	Unicode (UTF-8)
`MULE_INTERNAL`	Mule 内部コード
`LATIN1`	ISO 8859-1 ECMA-94 Latin Alphabet No.1
`LATIN2`	ISO 8859-2 ECMA-94 Latin Alphabet No.2
`LATIN3`	ISO 8859-3 ECMA-94 Latin Alphabet No.3
`LATIN4`	ISO 8859-4 ECMA-94 Latin Alphabet No.4
`LATIN5`	ISO 8859-9 ECMA-128 Latin Alphabet No.5
`LATIN6`	ISO 8859-10 ECMA-144 Latin Alphabet No.6
`LATIN7`	ISO 8859-13 Latin Alphabet No.7
`LATIN8`	ISO 8859-14 Latin Alphabet No.8
`LATIN9`	ISO 8859-15 Latin Alphabet No.9
`LATIN10`	ISO 8859-16 ASRO SR 14111 Latin Alphabet No.10
`ISO-8859-5`	ECMA-113 Latin/Cyrillic
`ISO-8859-6`	ECMA-114 Latin/Arabic
`ISO-8859-7`	ECMA-118 Latin/Greek
`ISO-8859-8`	ECMA-121 Latin/Hebrew
`KOI8`	KOI8-R(U)
`WIN`	Windows CP1251
`ALT`	Windows CP866
`WIN1256`	Arabic Windows CP1256
`TCVN`	Vietnamese TCVN-5712 (Windows CP1258)
`WIN874`	Thai Windows CP874

Important: PostgreSQL 7.2 以前は LATIN5 が間違って ISO 8859-5 を意味していました。 LATIN5 は ISO 8859-9 です。 7.1 もしくはそれ以前で作成された LATIN5 によるデータベースをお持ちで 7.2 に移植したい場合はこの変更に特に気を配ってください。

Important: すべての API が上に一覧表とした符号化をサポートしているわけではありません。例えば PostgreSQL JDBC ドライバは MULE_INTERNAL、LATIN6、LATIN8、そして LATIN10 をサポートしません。

7.2.2. 符号化方式の設定

initdb で PostgreSQL のインストレーションのデフォルトの符号化方式を定義します。以下に例を示します。

$ initdb -E EUC_JP

これはデフォルトの符号化方式を EUC_JP (日本語拡張 Unix コード) に設定します。より長いオプションの文字列を入力するのがお好みなら -E の代わりに --encoding と書くこともできます。-E オプションも --encoding オプションも与えられない場合、SQL_ASCII が使われます。

異なる符号化方式のデータベースを作成することができます。

$ createdb -E EUC_KR korean

は EUC_KR 符号化方式で korean という名前のデータベースを作成します。SQL コマンドで同じことを行うには次のようにします。

CREATE DATABASE korean WITH ENCODING = 'EUC_KR';

データベースの符号化方式は pg_database システムカタログにある encoding column で表現されます。-l オプションか psql の \l コマンドで符号化方式を見ることができます。

$ psql -l
            List of databases
   Name        |  Owner  |   Encoding
---------------+---------+---------------
 euc_cn        | t-ishii | EUC_CN
 euc_jp        | t-ishii | EUC_JP
 euc_kr        | t-ishii | EUC_KR
 euc_tw        | t-ishii | EUC_TW
 mule_internal | t-ishii | MULE_INTERNAL
 regression    | t-ishii | SQL_ASCII
 template1     | t-ishii | EUC_JP
 test          | t-ishii | EUC_JP
 unicode       | t-ishii | UNICODE
(9 rows)  (訳注：オリジナルは Name 列 が Database となっていますが、7.2.1 での実際の結果にあわせてあります。)

7.2.3. サーバ・クライアント間の符号化方式自動変換

PostgreSQL にはいくつかの符号化方式に対してサーバとクライアントの間で自動的に符号化方式を変換する機能を提供しています。変換情報は pg_conversion システムカタログに格納されています。新しい変換を作成するには CREATE CONVERSION を使用します。PostgreSQL には定義済みの変換がいくつか用意されています。定義済みの変換は Table 7-2 にまとめてあります。

Table 7-2. クライアント/サーバ文字セット符号化方式

サーバの符号化方式	利用可能なクライアントの符号化方式
`SQL_ASCII`	`SQL_ASCII`、`UNICODE`、`MULE_INTERNAL`
`EUC_JP`	`EUC_JP`、`SJIS`、 `UNICODE`、 `MULE_INTERNAL`
`EUC_CN`	`EUC_CN`, `UNICODE`, `MULE_INTERNAL`
`EUC_KR`	`EUC_KR`, `UNICODE`, `MULE_INTERNAL`
`JOHAB`	`JOHAB`、`UNICODE`
`EUC_TW`	`EUC_TW`、`BIG5`、 `UNICODE`、 `MULE_INTERNAL`
`LATIN1`	`LATIN1`、`UNICODE`、 `MULE_INTERNAL`
`LATIN2`	`LATIN2`、`WIN1250`、 `UNICODE`、 `MULE_INTERNAL`
`LATIN3`	`LATIN3`、`UNICODE`、 `MULE_INTERNAL`
`LATIN4`	`LATIN4`、`UNICODE`、 `MULE_INTERNAL`
`LATIN5`	`LATIN5`、`UNICODE`
`LATIN6`	`LATIN6`、`UNICODE`、 `MULE_INTERNAL`
`LATIN7`	`LATIN7`、`UNICODE`、 `MULE_INTERNAL`
`LATIN8`	`LATIN8`、`UNICODE`、 `MULE_INTERNAL`
`LATIN9`	`LATIN9`、`UNICODE`、 `MULE_INTERNAL`
`LATIN10`	`LATIN10`、`UNICODE`、 `MULE_INTERNAL`
`ISO_8859_5`	`ISO_8859_5`、 `UNICODE`、 `MULE_INTERNAL`、 `WIN`、 `ALT`、 `KOI8`
`ISO_8859_6`	`ISO_8859_6`、 `UNICODE`
`ISO_8859_7`	`ISO_8859_7`、 `UNICODE`
`ISO_8859_8`	`ISO_8859_8`、 `UNICODE`
`UNICODE`	`EUC_JP`、`SJIS`、 `EUC_KR`、`UHC`、`JOHAB`、 `EUC_CN`、`GBK`、 `EUC_TW`、`BIG5`、 `LATIN1` から `LATIN10`、 `ISO_8859_5`、 `ISO_8859_6`、 `ISO_8859_7`、 `ISO_8859_8`、 `WIN`、`ALT`、 `KOI8`、 `WIN1256`、 `TCVN`、 `WIN874`、 `GB18030`、 `WIN1250`
`MULE_INTERNAL`	`EUC_JP`、`SJIS`、`EUC_KR`、`EUC_CN`、 `EUC_TW`、`BIG5`、`LATIN1` から `LATIN5`、 `WIN`、`ALT`、 `WIN1250`、 `BIG5`、`ISO_8859_5`、`KOI8`
`KOI8`	`ISO_8859_5`、`WIN`、 `ALT`、 `KOI8`、 `UNICODE`、 `MULE_INTERNAL`
`WIN`	`ISO_8859_5`、`WIN`、 `ALT`、 `KOI8`、 `UNICODE`、 `MULE_INTERNAL`
`ALT`	`ISO_8859_5`、`WIN`、 `ALT`、 `KOI8`、 `UNICODE`、 `MULE_INTERNAL`
`WIN1256`	`WIN1256`、 `UNICODE`
`TCVN`	`TCVN`、 `UNICODE`
`WIN874`	`WIN874`、 `UNICODE`

自動符号化方式を使用できるようにするためには、クライアントでどのような符号化方式を使用させたいかを PostgreSQL に伝えなければなりません。これを行うにはいくつかの方法があります。

psql で \encoding コマンドを使います。\encoding は実行中であってもクライアントの符号化方式を変更させます。例えば符号化方式を SJIS に変えたい場合は次のように入力します。
```
\encoding SJIS
```
libpq 関数を使う。\encoding は結果を得るために実際は PQsetClientEncoding() を呼び出しています。
```
int PQsetClientEncoding(PGconn *conn, const char *encoding)
```
ここで conn はサーバへの接続 encoding は使用したい符号化方式です。符号化方式の設定に成功すると 0 を返し失敗すると -1 を返します。この接続にたいする現在の符号化方式は次のようにして確認できます。
```
int PQclientEncoding(const PGconn *conn)
```
EUC_JP のような記号文字列ではなく符号化方式 ID を返すことに注意して下さい。符号化方式 ID を符号化方式の名称に変換するには次のようにします。
```
char *pg_encoding_to_char(int encoding_id)
```
SET CLIENT_ENCODING TO を使って。次の SQL コマンドでクライアントの符号化方式を設定できます。
```
SET CLIENT_ENCODING TO 'encoding';
```
SQL92 の構文 SET NAMES を同じ目的で使うこともできます。
```
SET NAMES 'encoding';
```
現在のクライアントの符号化方式を問い合わせるには次のようにします。
```
SHOW CLIENT_ENCODING;
```
デフォルトの符号化方式に戻すのには次のようにします。
```
RESET CLIENT_ENCODING;
```
PGCLIENTENCODING を使って。クライアントの環境で環境変数 PGCLIENTENCODING が定義されているとサーバと接続が確立した時点で自動的にクライアントの符号化方式が選択されます。(上で説明したそのほかのどんな方法でもその後書き換えできます。)
client_encoding 変数を使って。postgresql.conf の client_encoding 変数が設定されていると、サーバとの接続が確立した時点で自動的にクライアントの符号化方式が選択されます。(上で説明したそのほかのどんな方法でもその後書き換えできます。)

7.2.4. 翻訳が不可能な場合に起こること

サーバでは EUC_JP が、そしてクライアントでは LATIN1 が選択されていると仮定します。そうすると日本語文字のいくつかは LATIN1 に翻訳することができません。この場合 LATIN1 文字セットで表現できない文字は次のように変形します。

(HEXA DECIMAL)

7.2.5. 参照先

ここに記したものはさまざまな符号化方式システムを学習するためによい資料です。

ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf: セクション 3.2 に EUC_JP、EUC_CN、EUC_KR、EUC_TW の詳しい説明があります。
http://www.unicode.org/: Unicode 協会の Web サイトです。
RFC 2044: ここで UTF-8 が定義されています。

7.2.6. 歴史

Dec 7, 2000
	* Unicode と他のエンコード間の符号化方式翻訳の自動化を実装
	* この変更は 7.1 から

May 20, 2000
	* SJIS UDC（NEC による IBM 漢字）サポート（とくやえいじ氏の貢献による）
	* この変更は 7.0.1 から

Mar 22, 2000
	* libpq に関数 PQsetClientEncoding と PQclientEncoding を追加
	* ./configure --with-mb=EUC_JP の代わりに 
	  ./configure --enable-multibyte=EUC_JP を使うように変更
	* SQL_ASCII リグレッションテストケースを追加
	* SJIS ユーザー定義文字（UDC）をサポート
	* これらの変更は 7.0 から

July 11, 1999
	* WIN1250（Windows Czech）サポートをクライアントエンコードに追加
	 （Pavel Behal の貢献による）
	* コンパイラの警告について修正（にしやまともあき氏の貢献による）

Mar 23, 1999
	* KOI8（KOI8-R）、WIN（CP1251）、ALT（CP866）のサポート
	 （Oleg Broytmann によるテストに感謝）
	* MB とロケールに関する問題を修正

Jan 26, 1999
	* フロントエンド符号化方式に Big 5 サポートを追加
	 （Big5 を使うにはデータベースを EUC_TW で作成してください）
	* EUC_TW リグレッションテストケースを追加 
	  (Jonah Kuo <jonahkuo@mail.ttn.com.tw> の貢献による)

Dec 15, 1998
	* SQL_ASCII サポートに関するバグを修正

Nov 5, 1998
	* 6.4リリース。このバージョンから pg_database はデータベースの
	  符号化方式を表現する「encoding」列を持ちます。

Jul 22, 1998
	* 符号化方式の判定をコンパイル時から initdb/createdb に変更
	* COPY コマンド実行時の PGCLIENTENCODING をサポート
	* SQL92 の SET NAMES をサポート
	* LATIN2-5 をサポート
	* UNICODE リグレッションテストケースを追加
	* MB のテストスイートを追加
	* ソースファイルを整理

Jun 5, 1998
	* バックエンドとフロントエンドの符号化方式翻訳をサポート
	* SET CLIENT_ENCODING などの新しいコマンドを追加
	* LATIN1 文字セットをサポート
	* 8 bit 簡潔さの機能強化

April 21, 1998  いくつかの機能強化と修正
	* character_length()、position()、substring() で
	  マルチバイト文字を使用可能に
	* octet_length() を追加
	* configure に --with-mb を追加
	* 新しいEUC_KRのリグレッションテスト（Soonmyung Hong の貢献による)
	* EUC_JP のリグレッションテストケースを追加
	* System V の regress/regress.sh の問題を修正
	* toupper()、tolower() で 8 ビット文字を扱えるように修正

Mar 25, 1998  
	* PostgreSQL 6.3.1 に MB PL2 を導入

Mar 10, 1998 PL2 のリリース
	* EUC_JP、EUC_CN、MULE_INTERNAL のリグレッションテストを追加
	* 英語ドキュメント(このファイル)を追加
	* 8 ビットシングルバイト文字に関する問題を修正

Mar 1, 1998 PL1 のリリース

7.2.7. Windows/ODBC 上の WIN1250

ロケールサポートが有効となっている PostgreSQL では Windows クライアントプラットフォームでの WIN1250 文字セットが使用できます。

以下の項目に注意が必要です。

特定のシステムシステムロケールでの動作確認がされています。このテストは cs_CZ.iso8859-2 ロケールの Red Hat 6.0 と Slackware 3.6 で行われました。
決してサーバーのマルチバイトデータベース符号化方式を WIN1250 に設定しようとしてはいけません。Unix には WIN1250 ロケールが存在しないので常に LATIN2 を使用します。
WIN1250 符号化方式 Windows ODBC クライアントでのみ使用できます。文字はその時点で正しく表示されて再格納されるよう、変換されます。

Windows/ODBC 上の WIN1250

PostgreSQL をロケール動作可能とサーバサイド符号化方式を LATIN2 にしてコンパイルします。
インストレーションの設定を行います。環境変数にロケール変数を作成することを忘れてはいけません。たとえば次のようにします (ご使用の環境では異なるかもしれません)。
```
LC_ALL=cs_CZ.ISO8859-2
```
ロケールが設定された状態でサーバを稼働させなければなりません。
チェコ語を使ってみてください。そして問い合わせで並び替えをします。
Windows マシン上に PostgreSQL の ODBC ドライバをインストールします。
データソースを正しく設定します。つぎの行を Connect Settings フィールドにある ODBC コンフィギュレーションのダイアログボックスに加えます。
```
SET CLIENT_ENCODING = 'WIN1250';
```
こんどは ODBC の入った Windows からもう一度試します。

Prev	Home	Next
多言語対応	Up	シングルバイト文字セットの変換