Зайлабидин Мурзакулов
Зайлабидин Мурзакулов

Сколько символов можно закодировать, используя UNICODE? (информатика)

Сл
Слава

вообще - 65536... потому что юникод двухбайтный

АП
Алексей Плотников

В UTF-16 можно отобразить -----1 112 064 символов,

это число и было выбрано в качестве окончательной величины кодового пространства Юникода.

Вот из Википедии

Поскольку в UTF-16 можно отобразить только 220+216−2048 (1 112 064) символов, то это число и было выбрано в качестве окончательной величины кодового пространства Юникода.

Вот статья

Было признано необходимым создание единой «широкой» кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные.

Таким образом, первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65 536). Отсюда происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+04F0). При этом в Юникоде планировалось кодировать не все существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в «области пользовательских символов» (private use area), которая первоначально занимала коды U+D800…U+F8FF. Чтобы использовать Юникод также и в качестве промежуточного звена при преобразовании разных кодировок друг в друга, в него включили все символы, представленные во всех наиболее известных кодировках.

В дальнейшем, однако, было принято решение кодировать все символы и в связи с этим значительно расширить кодовую область. Одновременно с этим, коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа, которые в компьютере могут представляться множеством разных способов (см. Способы представления) .

Поскольку в ряде компьютерных систем (например, Windows NT[10]) фиксированные 16-битные символы уже использовались в качестве кодировки по умолчанию, было решено все наиболее важные знаки кодировать только в пределах первых 65 536 позиций (так называемая англ. basic multilingual plane, BMP). Остальное пространство используется для «дополнительных символов» (англ. supplementary characters): систем письма вымерших языков или очень редко используемых китайских иероглифов, математических и музыкальных символов.

Для совместимости со старыми 16-битными системами была изобретена система UTF-16, где первые 65 536 позиций, за исключением позиций из интервала U+D800…U+DFFF, отображаются непосредственно как 16-битные числа, а остальные представляются в виде «суррогатных пар» (первый элемент пары из области U+D800…U+DBFF, второй элемент пары из области U+DC00…U+DFFF). Для суррогатных пар была использована часть кодового пространства (2048 позиций) , ранее отведённого для «символов для частного использования» .

Поскольку в UTF-16 можно отобразить только 220+216−2048 (1 112 064) символов, то это число и было выбрано в качестве окончательной величины кодового пространства Юникода.

Хотя кодовая область Юникода была расширена за пределы 216 уже в версии 2.0, первые символы в «верхней» области были размещены только в версии 3.1.

Роль этой кодировки в веб-секторе постоянно растёт, на начало 2010 доля веб-сайтов, использующих Юникод, составила около 50 %.
------------------------------------------------------------------------------

В UTF-16 можно отобразить 1 112 064 символов,

это число и было выбрано в качестве окончательной величины кодового пространства Юникода.

Вячеслав Шишкин
Вячеслав Шишкин

65536 символов теоретический максимум. Там система хитрая. 1-ый байт номер таблицы, 2-ой номер символа

Похожие вопросы
Сколько весит 1 символ в Unicode
Сколько различных символов, закодированных байтами, содержится в сообщении: 1101001100011100110100110001110001010111
Сколько различных символов можно закодировать
Как закодировать с помощью ASCII любую фразу об информатике или информации? Любую
Каждый символ в UNICODE закодирован двух байтовым словом.
сколько различных символов можно закодировать используя код морзе длиной не менее 4 и более 5
Сколько бит нужно для кодирования 1 текстового символа по Unicode?
FASM. Замена символов в строке, используя подпрограммы.
.Каждый символ в Unicode закодирован двухбайтным словом.
Помогите закодировать стихотворение Пушкина "Туча" с помощью кодировочной таблицы unicode