Reguláris kifejezések (UTF-8)

Több projekt is van amin most dolgozom és UTF-8-as kódólást használunk, ezzel kapcsolatban szeretnék egy tapasztalatot megosztani.


A kifejezésbe ékezetes magyar karaktereket is kellet írnom és sehogy se akarta megenni a szövegeket, nem működött jól. Ellenőriztem a fejléceket, a fileok kódólását, már a locale beállításokat is babráltam. Aztán nagy nehezen eljutottam oda, hogy megnézem a preg_* függvények doksiját, pontosabban a minta módosítókat.

Itt aztán egyből (ahogy a lista végére értem) kiderült, hogy van megoldás, csak eddig rossz helyen tapogatóztam:

  • u (PCRE_UTF8)

Azaz az “u” kapcsolóval a megadott kifejezést UTF-8 alapján dolgozza fel és ez meg is oldotta a problémát.

Mondd el a véleményedet!