PHPでUnicodeを扱う方法


  1. Unicode文字列の長さを取得する方法:

Unicode文字列の長さを取得するには、mb_strlen()関数を使用します。この関数はマルチバイト文字列の長さを正確にカウントします。

$string = "こんにちは、世界!";
$length = mb_strlen($string, 'UTF-8');
echo "文字列の長さ: " . $length;

出力:

文字列の長さ: 9
  1. Unicode文字列を正規化する方法:

Unicode文字列を正規化するには、mb_normalize()関数を使用します。これにより、文字列内の結合文字や合成文字が正規化され、一貫性のある表現が得られます。

$string = "café";
$normalizedString = mb_normalize($string, 'NFC');
echo "正規化された文字列: " . $normalizedString;

出力:

正規化された文字列: café
  1. Unicodeエスケープシーケンスを使用する方法:

Unicodeエスケープシーケンスを使用すると、コード内でUnicode文字を表現することができます。\u{}を使用して、文字のコードポイントを指定します。

$unicodeChar = "\u{65E5}\u{672C}\u{8A9E}"; // 日本語のコードポイント
echo $unicodeChar;

出力:

日本語