wxWidgets: 文字列とUnicode正規化 [wxWidgets 3.0対応]

(2018.9) 新規作成.

wxWidgets 3.0 になって, 文字列が Unicode ベースになった。しかしながら、ビルドオプションを考慮しなければならず、微妙に面倒になっている.

`wxString` クラス

wxWidgets 3.0 の文字列は, Unicode "Code Point" (32bit) 単位ではない。"Code Unit" 単位で扱われる。

Unicode は "文字" が Code Point と一致していない。1文字が複数の Code Point になりうるし、逆もありうる.

https://www.unicode.org/reports/tr17/

最近では Unicode 異体字シーケンス (Ideographic Variation Sequence; IVS) が導入され、漢字も1 code point とは限らない。親字の後に Variation Selector (VS; 字形選択子) を続けて、字形を選択する. この符号列を Ideographic Variation Sequence という。

wxWidgets 3.0 では, ビルドオプションにより, 文字列の内部表現が UTF-32, UTF-16 または UTF-8 のいずれかになる。Windows では UTF-16, UNIX (Linux) では UTF-32 または UTF-8.

アプリケーション開発者は、ポータブルにするためには, 3つとも対応する必要がある。

UTF-16	一つの code point が, 1つまたは 2つの wchar (code unit) になる.
UTF-8	一つの code point (21bit) が 1-4 バイト (code unit) になる.

必要な場所では、次のようにして判定しなければならない。wchar_t の大きさは、WCHAR_MAX マクロで判定するのがもっともポータブルだろう。

wxUSE_UNICODE_WCHAR マクロは、定義される・未定義ではなく、1 or 0 なので、#if を使う。wxUSE_UNICODE_WCHAR マクロが 0 の場合, wxUSE_UNICODE_UTF8 マクロが有効になる (排他なので片方だけテストでOK)。

C++

[RAW]

// #ifdef ではなく #if で判定
#if wxUSE_UNICODE_WCHAR
// wxWidgets 文字列の要素は wchar_t で定義される。
// => 環境により, wchar_t = 2 の場合と = 4 の場合がある。地味に面倒.
#if WCHAR_MAX >= 0x10000L // <wchar.h>
// wchar_t = 4バイト
#else
// wchar_t = 2バイト (UTF-16)
#endif
#else
// wxWidgets 文字列の要素は char で定義される。
// バイト列 (UTF-8)
#endif

例

サンプルプログラムを書いてみる。

まず, バイト列から wxString インスタンスを作るには, FromUTF8() を使う.

C++

[RAW]

int main()
{
////////////////////////////////
// 文字列の生成
// - static FromUTF8(const char* s, [optional] size_t length)
// - wxString::wxString(const wchar_t* pwz, [optional] size_t length)
// U+1F681 HELICOPTER
wxString str = wxString::FromUTF8("ABCあいう漢字🚁");
// UTF-16 におけるサロゲートペアは、1 ではなく 2 になる。
printf("length = %d\n", str.length());
// begin() が返すのは wxString::iterator.
for(wxString::const_iterator p = str.begin(); p != str.end(); p++)
printf("%x ", *p);
printf("\n");
////////////////////////////////
// 検索
printf("%d\n", str.Find("BC")); // 見つかったとき: インデックス
printf("%d\n", str.Find(wxString::FromUTF8("漢")) ); // => 6
// 見つからないとき => -1
printf("%d\n", str.Find(wxString::FromUTF8("愛")) );

Unicode 文字列を扱う場合, データベースに格納する直前に正規化するのがセオリー. しかし, wxString は Unicode 特有の処理がほぼできないので、ICU と組み合わせる.

正規化はnormalize() 呼び出しだけなのに, 行ったり来たりが面倒。ヘルパー関数を作ったりするんだろう。

C++

[RAW]

////////////////////////////////
// Unicode正規化 => wxWidgets にはないので, ICU を利用
wxString str2 = wxString::FromUTF8("㎞㍻㍿");
std::string x; // DEBUG
#if wxUSE_UNICODE_WCHAR
#if WCHAR_MAX >= 0x10000L // <wchar.h>
// wchar_t* を引数にとるコンストラクタは, sizeof(wchar_t) == 2 のときのみ
// 定義される.
UnicodeString us = UnicodeString::fromUTF32( (UChar32*) str2.wc_str(),
str2.length() );
us.toUTF8String(x); printf("%s\n", x.c_str()); // DEBUG
#else
UnicodeString us(str2.wc_str());
#endif
#else
UnicodeString us = UnicodeString::fromUTF8(
static_cast<const char*>(str2.utf8_str()) );
#endif
UErrorCode err;
u_init(&err);
const icu::Normalizer2* norm = icu::Normalizer2::getNFKDInstance(err);
UnicodeString normalized = norm->normalize(us, err);
x = ""; // toUTF8String() は append する.
normalized.toUTF8String(x); printf("%s\n", x.c_str()); // DEBUG
// 書き戻す.
#if wxUSE_UNICODE_WCHAR
#if WCHAR_MAX >= 0x10000L // <wchar.h>
wxString n;
normalized.toUTF32( (UChar32*) static_cast<wchar_t*>(wxStringBuffer(n, 1000)),
normalized.length() + 1, err );
#else
wxString n = normalized.getBuffer();
#endif
#else
wxString n;
//normalized.toUTF8( wxStringBuffer(n, 1000) );
std::string nn;
normalized.toUTF8String(nn);
n = wxString::FromUTF8(nn.c_str());
#endif
for(wxString::const_iterator p = n.begin(); p != n.end(); p++)
printf("%x ", *p);
printf("\n");
return 0;
}

Makefile はこんな感じ.

CXX = gcc
CXXFLAGS = -Wall `wx-config --cflags` `pkg-config --cflags icu-uc icu-io`
LDFLAGS = `wx-config --libs` `pkg-config --libs icu-uc icu-io` -lstdc++

wx3-string: wx3-string.o

wx3-string.o: wx3-string.cc

wxWidgets: 文字列とUnicode正規化 [wxWidgets 3.0対応]

wxString クラス

例

`wxString` クラス