Reguláris kifejezések (UTF-8)
Több projekt is van amin most dolgozom és UTF-8-as kódólást használunk, ezzel kapcsolatban szeretnék egy tapasztalatot megosztani.
A kifejezésbe ékezetes magyar karaktereket is kellet írnom és sehogy se akarta megenni a szövegeket, nem működött jól. Ellenőriztem a fejléceket, a fileok kódólását, már a locale beállításokat is babráltam. Aztán nagy nehezen eljutottam oda, hogy megnézem a preg_* függvények doksiját, pontosabban a minta módosítókat.
Itt aztán egyből (ahogy a lista végére értem) kiderült, hogy van megoldás, csak eddig rossz helyen tapogatóztam:
- u (PCRE_UTF8)
Azaz az “u” kapcsolóval a megadott kifejezést UTF-8 alapján dolgozza fel és ez meg is oldotta a problémát.