Прочее компьютерное
Что такое "кодировка" и как ее изменить, чтобы текст не выглядел иероглифами?
.
У вас, как я понял ситуация, когда вы получили электронное письмо или Word документ, но не можете его прочитать - вместо текста идут какие-то кракозябры? То же самое случается и в интернете - открываете страницу, а разобрать ничего не возможно. Причем, подобное происходит именно с русским текстом, с английским такие проблемы маловероятны. Причина проблем - открытие файла в неверной кодировке.
Для начала немного посчитаем. Помните, что такое бит? Это минимальный носитель информации, ноль или один. А байт содержит восемь битов. Сколько может быть комбинаций из нулей и единиц длины 8? Ответ - 2*2*2*2*2*2*2*2=256. Именно столько значений может принимать один байт. Иногда еще байт называют символом - потому что как раз для кодировки символа и стали использовать один байт. Даже меньше, изначально была придумана кодировка ASCII, которая использовала 7 битов - в первые 128 значений можно было вольготно разместить английский алфавит в обоих регистрах, диакритические знаки, цифры и набор спец-символов. И эта кодировка действительно стала универсальной, поэтому англоязычные пользователи крайне редко могут испытывать проблемы с кодировкой.
Перейдем к кириллице. Для нее стали использовать вторую половину кодовой таблицы - символы 129-256. Однако так сложилось, что различные кодировки были изобретены независимо - одни изобретатели располагали буквы, стремясь к соответствию расположения на пишущих машинках, другие - к тому, чтобы одинаково выглядящие кириллические и латинские буквы находились на расстоянии в 128 (что приводило к тому, что даже программы, не умевшие работать со второй половиной таблицы, более-менее читаемо отображали русский текст) . Были и другие идеи; появление Windows также принесло свою кодировку. Но главное, такая кодировка принципиально не могла стать универсальной, так как если латиница была нужна везде (хотя бы для командной строки) , то кириллица была лишь одним из национальных алфавитов.
У единой, потенциально универсальной кодировки, существует название: Unicode, и придумана она была уже давно, в 1991 году. В Юникоде используется 6 байтов для отображения символа. Однако, на практике этого оказывается слишком много, кроме того нужно было подумать о совместимости с уже имеющимися однобайтовыми текстами на английском, поэтому у Юникода существуют так называемые "представления", способы записи, самым распространенным из которых является UTF-8.
UTF-8 устроена следующим образом: символ, относящийся к таблице ASCII (первые 128, см. выше) так и записывается одним байтом. Остальные символы записываются последовательностями байтов длины от 2 до 6, первые биты которых зарезервированы (чтобы избежать путаницы с ASCII-символами) . Для русского языка получается, что кодировка становится двубайтовой, при этом глобальное утверждение, что UTF-8 это двубайтовая кодировка категорически неверно!
Теперь - как изменить. Самое простое, если формат файла *txt - заходим в блокнот в режиме просмотра, выбираем "Опции", а там есть варианты. Скорее всего исходная кодировка DOS. меняем на Юникод UTF-8
Что касается Word'а, то может он неправильно определил стандарт кодирования текста в файле. Чтобы Word использовал нужный стандарт кодирования, делем следующее: меню Сервис — Параметры — Общие, ставим флажок "Подтверждать преобразование при открытии",закрываем, снова открываем кодированный файл. В поле "Преобразование файла" выбераем "Кодированный текст". В окне преобразования файлов выбераем вариант "Другая кодировка", затем в списке указываем требуемый стандарт кодирования. Чтобы узнать, как преобразит выбранная кодировка данный текст, можно просмотреть в "Просмотре". Если просмотр не видно на экране — нажимаем кнопку "Показать".
УДАЧИ!! ! :-))
Для начала немного посчитаем. Помните, что такое бит? Это минимальный носитель информации, ноль или один. А байт содержит восемь битов. Сколько может быть комбинаций из нулей и единиц длины 8? Ответ - 2*2*2*2*2*2*2*2=256. Именно столько значений может принимать один байт. Иногда еще байт называют символом - потому что как раз для кодировки символа и стали использовать один байт. Даже меньше, изначально была придумана кодировка ASCII, которая использовала 7 битов - в первые 128 значений можно было вольготно разместить английский алфавит в обоих регистрах, диакритические знаки, цифры и набор спец-символов. И эта кодировка действительно стала универсальной, поэтому англоязычные пользователи крайне редко могут испытывать проблемы с кодировкой.
Перейдем к кириллице. Для нее стали использовать вторую половину кодовой таблицы - символы 129-256. Однако так сложилось, что различные кодировки были изобретены независимо - одни изобретатели располагали буквы, стремясь к соответствию расположения на пишущих машинках, другие - к тому, чтобы одинаково выглядящие кириллические и латинские буквы находились на расстоянии в 128 (что приводило к тому, что даже программы, не умевшие работать со второй половиной таблицы, более-менее читаемо отображали русский текст) . Были и другие идеи; появление Windows также принесло свою кодировку. Но главное, такая кодировка принципиально не могла стать универсальной, так как если латиница была нужна везде (хотя бы для командной строки) , то кириллица была лишь одним из национальных алфавитов.
У единой, потенциально универсальной кодировки, существует название: Unicode, и придумана она была уже давно, в 1991 году. В Юникоде используется 6 байтов для отображения символа. Однако, на практике этого оказывается слишком много, кроме того нужно было подумать о совместимости с уже имеющимися однобайтовыми текстами на английском, поэтому у Юникода существуют так называемые "представления", способы записи, самым распространенным из которых является UTF-8.
UTF-8 устроена следующим образом: символ, относящийся к таблице ASCII (первые 128, см. выше) так и записывается одним байтом. Остальные символы записываются последовательностями байтов длины от 2 до 6, первые биты которых зарезервированы (чтобы избежать путаницы с ASCII-символами) . Для русского языка получается, что кодировка становится двубайтовой, при этом глобальное утверждение, что UTF-8 это двубайтовая кодировка категорически неверно!
Теперь - как изменить. Самое простое, если формат файла *txt - заходим в блокнот в режиме просмотра, выбираем "Опции", а там есть варианты. Скорее всего исходная кодировка DOS. меняем на Юникод UTF-8
Что касается Word'а, то может он неправильно определил стандарт кодирования текста в файле. Чтобы Word использовал нужный стандарт кодирования, делем следующее: меню Сервис — Параметры — Общие, ставим флажок "Подтверждать преобразование при открытии",закрываем, снова открываем кодированный файл. В поле "Преобразование файла" выбераем "Кодированный текст". В окне преобразования файлов выбераем вариант "Другая кодировка", затем в списке указываем требуемый стандарт кодирования. Чтобы узнать, как преобразит выбранная кодировка данный текст, можно просмотреть в "Просмотре". Если просмотр не видно на экране — нажимаем кнопку "Показать".
УДАЧИ!! ! :-))
Похожие вопросы
- Как бороться с вирусом - Вирус Красные Иероглифы?
- Как конвертировать mp3 тэги в кодировку Unicdoe?
- как можно из файла .pdf скопировать текст? копирую а когда вставляю получаются одни иероглифы?
- Какая это кодировка?
- Как переименовать несколько файлов в кодировку UTF8?
- Как мне расшифровать кодировку:
- Доброго времени суток! Помогите узнать кодировку. Внутри.
- Ребята срочно помогите. На почту документ пришёл не могу прочитать, кодировка. Текс внутри. В норм. вид
- Какая программа кодировки видио на ваш взгляд самая лучшая?? ? Пишите названия программ и почему она самая лучшая...
- у меня вместо программ устанавливаются текстовые документы. я так понял что крякнутая кодировка. и так со всеми