utf8 суррогатная пара

Вопросы программирования и использования среды Lazarus.

Модератор: Модераторы

utf8 суррогатная пара

Сообщение alex208210 » 15.03.2015 21:05:31

Сталкивался кто-нибудь с проблемой поиска отсутсвия суррогатной пары у символа в строках utf8?
Как можно найти в строке не полный utf8 символ и удалить его?
alex208210
постоялец
 
Сообщения: 207
Зарегистрирован: 12.05.2010 13:16:51

Re: utf8 суррогатная пара

Сообщение Vapaamies » 15.03.2015 21:49:08

В правильно сформированном UTF-8 кодовые точки U+1xxxx должны кодироваться 4-байтными последовательностями без суррогатных пар. Не все реализации UTF-8 поддерживают эту возможность, как понимаю. Кодирование суррогатных пар как есть -- не UTF-8, а CESU-8, символы U+1xxxx занимают по 6 байт вместо 4-х.

4-байтный символ UTF-8 начинается с байта с $F в старших разрядах: StartingByte and $F8 = $F0.
Аватара пользователя
Vapaamies
постоялец
 
Сообщения: 292
Зарегистрирован: 24.07.2012 22:37:59
Откуда: Санкт-Петербург


Вернуться в Lazarus

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 240

Рейтинг@Mail.ru
cron