Что такое "кодировка" и как ее изменить, чтобы текст не выглядел иероглифами?

Question

Прочее компьютерное

Что такое "кодировка" и как ее изменить, чтобы текст не выглядел иероглифами?

Азат Иматаев

849

14.01.2016

Похожие вопросы

Answer 1 · 2016-01-13 12:38:05

.

ПЗ

Павел Заноза

152

Лучший ответ

13.01.2016

Answer 2 · 2011-01-13 14:00:39

У вас, как я понял ситуация, когда вы получили электронное письмо или Word документ, но не можете его прочитать - вместо текста идут какие-то кракозябры? То же самое случается и в интернете - открываете страницу, а разобрать ничего не возможно. Причем, подобное происходит именно с русским текстом, с английским такие проблемы маловероятны. Причина проблем - открытие файла в неверной кодировке.

Для начала немного посчитаем. Помните, что такое бит? Это минимальный носитель информации, ноль или один. А байт содержит восемь битов. Сколько может быть комбинаций из нулей и единиц длины 8? Ответ - 2*2*2*2*2*2*2*2=256. Именно столько значений может принимать один байт. Иногда еще байт называют символом - потому что как раз для кодировки символа и стали использовать один байт. Даже меньше, изначально была придумана кодировка ASCII, которая использовала 7 битов - в первые 128 значений можно было вольготно разместить английский алфавит в обоих регистрах, диакритические знаки, цифры и набор спец-символов. И эта кодировка действительно стала универсальной, поэтому англоязычные пользователи крайне редко могут испытывать проблемы с кодировкой.

Перейдем к кириллице. Для нее стали использовать вторую половину кодовой таблицы - символы 129-256. Однако так сложилось, что различные кодировки были изобретены независимо - одни изобретатели располагали буквы, стремясь к соответствию расположения на пишущих машинках, другие - к тому, чтобы одинаково выглядящие кириллические и латинские буквы находились на расстоянии в 128 (что приводило к тому, что даже программы, не умевшие работать со второй половиной таблицы, более-менее читаемо отображали русский текст) . Были и другие идеи; появление Windows также принесло свою кодировку. Но главное, такая кодировка принципиально не могла стать универсальной, так как если латиница была нужна везде (хотя бы для командной строки) , то кириллица была лишь одним из национальных алфавитов.

У единой, потенциально универсальной кодировки, существует название: Unicode, и придумана она была уже давно, в 1991 году. В Юникоде используется 6 байтов для отображения символа. Однако, на практике этого оказывается слишком много, кроме того нужно было подумать о совместимости с уже имеющимися однобайтовыми текстами на английском, поэтому у Юникода существуют так называемые "представления", способы записи, самым распространенным из которых является UTF-8.

UTF-8 устроена следующим образом: символ, относящийся к таблице ASCII (первые 128, см. выше) так и записывается одним байтом. Остальные символы записываются последовательностями байтов длины от 2 до 6, первые биты которых зарезервированы (чтобы избежать путаницы с ASCII-символами) . Для русского языка получается, что кодировка становится двубайтовой, при этом глобальное утверждение, что UTF-8 это двубайтовая кодировка категорически неверно!

Теперь - как изменить. Самое простое, если формат файла *txt - заходим в блокнот в режиме просмотра, выбираем "Опции", а там есть варианты. Скорее всего исходная кодировка DOS. меняем на Юникод UTF-8

Что касается Word'а, то может он неправильно определил стандарт кодирования текста в файле. Чтобы Word использовал нужный стандарт кодирования, делем следующее: меню Сервис — Параметры — Общие, ставим флажок "Подтверждать преобразование при открытии",закрываем, снова открываем кодированный файл. В поле "Преобразование файла" выбераем "Кодированный текст". В окне преобразования файлов выбераем вариант "Другая кодировка", затем в списке указываем требуемый стандарт кодирования. Чтобы узнать, как преобразит выбранная кодировка данный текст, можно просмотреть в "Просмотре". Если просмотр не видно на экране — нажимаем кнопку "Показать".

УДАЧИ!! ! :-))

Тема ;)

10 348

13.01.2011