Модификация алгоритма кодирования Шеннона-Фано...

Question

Вот такой вот вопросик хочу задать. 
Есть многим известный алгоритм кодирования Шеннона-Фано. На выходе получается таблица в которой каждый из символов закодирован каким-то своим набором бит. Подчёркиваю что каждый. А это значит, что 1. А можно ли в этом методе кодировать например по 2 символа или по 0,5 символа. Т. е. на выходе получить таблицу с кодами сразу для лексемы длиною 2 символа. 
Ну и кончено же будет ли от этого прирост сжатия при кодировании? 
Например: 
В стандартном методе Шеннона-Фано 
А - 10 
И - 01 
В - 101 
и т. д. 
 
Можно ли так, и будет ли увеличение степени сжатия?? ? 
ИА - 101 
ШР - 0101 
и т. д.

Ну вот например.. . Символ состоит из 8 бит. Если кодировать по 4 бита.

Viktor Lebedev. · Accepted Answer

Без проблем, моделируйте! Только на двухсимвольный вариант кодирования у Вас будет больше шансов того, что такие комбинации будут более равновероятны. А это как раз то, чего не любит данный алгоритм. Этот алгоритм тем успешнее сжимает информацию, чем больше разница в частости появления символов. 
А вот про 0,5 символа поподробнее! Это то что пока непонятно, что Вы имеете ввиду! 
 
Вобще-то алгоритм Шеннона-Фано учитывает объём алфавита и соответственно это отражается при кодировании. Например, если у Вас алфавит из двух символов, то для кодирования символа достаточно 1 бита. Другое дело, если Вы выбираете из ASCII некоторые символы, то тогда Вам надо где-то хранить соответствия между Вашим алфавитом и ASCII. Для больших файлов это не так обременительно, но для маленьких будет сильно заметно