Как узнать количество символов в UTF8 массиве?(Си)

Question

Как узнать количество символов в UTF8 массиве?(Си)

Char arr[]={"Кириллица Latin"};
Я пользовался всегда UTF16 широкими символами, хочу перейти на UTF8.
В UTF8 количество Байт на символ различаются, поэтому количество Байт в массиве не соответствует количеству символов в массиве.
Есть ли простой способ узнать количество символов в UTF8 массиве?

И ещё как можно например сравнить элемент UTF8 массива с чем либо?
Например if(arr[0]==L'Я')
Так ведь не получится, потому что буква Я занимает 2 Байта.
Мне кажется или UTF8 очень неудобный?

Валентин Минский

288

15.02.2022

Похожие вопросы

Answer 1 · 2022-02-14 21:42:40

Есть разные подходы.
1. Выполнять обработку строк в UTF-16 или (лучше) в UTF-32. Если данные в UTF-8, они преобразуются в одну из этих кодировок. В UTF-16 один символ может кодироваться парой кодов. В UTF-32 такого нет.
2. Использовать специальные функции для работы с UTF-8, или самому написать соответствующий код. В этом случае русская буква - это не символ, а строка.
Для того чтоб пробежаться по строке, ты привык использовать инкремент индекса. При работе с UTF-8 последовательно определяют длину каждого символа, так перебирают символы строки.

Функция mblen возвращает длину символа в байтах
https://docs.microsoft.com/en-us/cpp/c-runtime-library/reference/mbclen-mblen-mblen-l
Пишут, что mblen может возвращать значение до 3. Это странно, поскольку в UTF-8 символ может кодироваться 4 байтами.

ВЖ

Виктор Животов

58 065

Лучший ответ

14.02.2022

Валентин Минский >>Функция mblen возвращает длину символа в байтах
Пишут что для mblen нужна setlocale, я её вставил тоже.
mblen получает в качестве параметра массив и возвращает количество Байт на 1 символ??
А если в массиве разные типы символов с разным количеством Байт на символ?

Н всё равно неправильно выводит количество Байт даже только для кириллицы у меня. Выводит 1 Байт для кириллицы. Неправильно. Должно быть 2 Байта на символ.
Кодировку и Байты я проверял.
Может что то не так делаю?

setlocale(LC_ALL, ".1251");
char arr[]={"Кириллица Latin"};
printf("%d\n", mblen(arr, 2));

Валентин Минский >>1. Выполнять обработку строк в UTF-16 или (лучше) в UTF-32.
Для этих типов куча своих аналогов функций и многие из них не кроссплатформенные.

Валентин Минский >>В UTF-32 такого нет.
32 бита насимвол слишком много

Валентин Минский >>При работе с UTF-8 последовательно определяют длину каждого символа, так перебирают символы строки.
Получается вместо этого if(arr[0]==L'Я') надо писать код на 100 строк?

Валентин Минский >>mblen возвращает длину одного символа (того, на начало которого указывает указатель)
Да, я догадался, но у меня 1 выводит на кириллицу.
А онлайн компилятор 2 Байта выводит https://onlinegdb.com/sFoG9WHUt
У меня UTF8 массив

Валентин Минский 208 154 Это UTF8 кодировка для символа К
У меня UTF8, я её выставлял

Валентин Минский >>Откуда это видно?
Например ко коду, который получается у символа К.
Только в UTF8 такой код у этого символа

Валентин Минский >>так тоже работает setlocale(LC_CTYPE, ".utf8");
В Visual Studio кодировка в utf8 переводится, а в других компиляторах видимо нет.

char*p=setlocale(LC_ALL, ".utf8");
printf("%s\n", p);

Валентин Минский Здесь пишут https://github.com/MicrosoftDocs/cpp-docs/issues/1469 что поддержка utf8 локали была введена в Visual Studio.
Значит видимо раньше этой поддержки не было. Может в других компиляторах её до сих пор и нет.
Пост 2019 года.

Валентин Минский Есть функция для побайтового копирования или конвертирования в широкие символы из utf8?
То есть из utf8 массива побайтово копировать указанное количество Байт.
Это бы сильно облегчило работу с utf8 массивом.

Валентин Минский Жаль это функция не кроссплатформенная, мне она тоже нравится.
Но всё же с ней не всё так хорошо. Если копируешь часть utf8 массива, а не весь, то может вывестись мусор в конце.

Валентин Минский >>Visual Studio (как текстовый редактор) уже давно поддерживает UTF-8.
https://docs.microsoft.com/ru-ru/cpp/c-runtime-library/reference/setlocale-wsetlocale?view=msvc-170
начиная с версии Windows 10 1803 (10.0.17134.0), универсальная среда выполнения C поддерживает использование кодовой страницы UTF-8. Это означает, что char строки, передаваемые в функции среды выполнения C, будут ждать строк в кодировке UTF-8. Чтобы включить режим UTF-8, используйте ".UTF8" в качестве кодовой страницы при использовании setlocale . например, setlocale(LC_ALL, ".UTF8") будет использовать текущую стандартную кодовую страницу ANSI Windows (ACP) для языкового стандарта и кодировку UTF-8 для кодовой страницы.

Answer 2 · 2022-02-14 22:07:33

https://pastebin.com/ewiGQP4i

Wladimir Knil

30 065

14.02.2022

Answer 3 · 2022-02-17 03:05:37

Можно сделать по-хитрому! Смотри как. Чтобы это что-либо было тоже в UTF-8! Можно заставить работать Студию в UTF-8, есть специальные настройки для редактора и компилятора. Компилер ресурсов тоже прекрасно работает с UTF-8, главное включить соответствующую опцию. (Про Линукс объяснять не буду, там UTF-8 из коробки.) Вот и всё. БААМ, и в программе и в тексте у тебя везде UTF-8, и тебе тогда нужно просто заюзать стандартную memcmp(). Единственная проблема: узнать длинну символа. Тебе нужно будет написать свою функцию для этого. (смотри Википедию) А на основе её, ещё функцию длины строки. И на 99% это покроет все варианты. За исключением лексики, таких, как: tolower(), toupper() и т. д. (Хотя, в десятке могли поддержку уже добавить, я не слежу за этим...)

AD

Admin Danikpro.com

26 551

17.02.2022