Большая техническая энциклопедия
2 3 6
A N P Q R S U
А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я
ВА ВВ ВЕ ВЗ ВИ ВК ВЛ ВН ВО ВП ВР ВС ВТ ВУ ВХ ВЫ ВЮ ВЯ

Вероятность - буква

 
Вероятности букв, не участвовавших в объединении, и полученная суммарная вероятность снова располагаются в порядке убывания вероятностей в дополнительном столбце, а две последние объединяются. Процесс продолжается до тех пор, пока не получим единственную вспомогательную букву с вероятностью, равной единице.
Вектору или точке Q симплекса соответствуют также вероятности букв на выходе.
Наибольший эффект сжатия получается в случае, когда вероятности букв представляют собой целочисленные отрицательные степени двойки. Среднее число символов на букву в этом случае точно равно энтропии.
Это значит, что для каждого выхода берется сумма вероятностей букв на входе, из которых этот выход может быть достигнут. Входные вероятности выбираются так, чтобы получить минимум наибольшей из этих сумм, и Re, равно взятому со знаком минус логарифму этой минимаксной суммы. Отсюда можно увидеть, что R 0, за исключением того случая, когда любой выход является недостижимым по крайней мере из одного входа.
Так как буквы статистически не связаны, вероятности блоков определяются как произведение вероятностей составляющих букв.
Для дискретного канала без памяти с переходными вероятностями pt ( /) и вероятностями входных букв Pt следующие три утверждения являются эквивалентными.
Полученные результаты позволяют сделать вывод о том, что избыточность, а следовательно, и неравномерность распределения вероятностей букв источника А2 - латинского алфавита - больше, чем у источника А1 - русского алфавита.
Продолжая антиэнтропийный процесс дальше, мы, в конечном счете, придем к ситуации, отвечающей предельно большой дифференциации вероятностей букв - когда одна из букв ( например, буква А) имеет вероятность 1, а все остальные буквы имеют нулевую вероятность.
Чтобы доказать это, допустим, что пропускная способность канала с переходными вероятностями rt ( j) достигается, когда вероятности букв на входе равны Рг.
Из теорелия II следует, что асимптотически оптимальное взаимно однозначное кодирование блоками растущей длины существует и в том случае, когда распределение вероятностей букв исходного алфавита заранее не известно.
Эти формулы можно получить непосредственной подстановкой в формулы для RIZ и Rz или же, заметив, что при передаче по направлению 1 - 2 канал действует подобно стирающему каналу, а по направлению 2 - 1 ведет себя как двоичный канал без шума при неравных вероятностях входных букв.
Источник имеет алфавит из 4 букв. Вероятности букв и два возможных множества двоичных кодовых слов для источника приведены ниже.
Максимальная энтропия ( равная L In D) такой последовательности достигается при распределении для каждой буквы, независимом от соседних букв и при равновероятном распределении по всему алфавиту. Но вероятности букв однозначно определяются вероятностями сообщений и выбором кода.
Ансамбль кодов определен следующим образом. Множество вероятностей букв вместе с этими переходными вероятностями задает меру Q ( Z) в пространстве воспроизведенных слов.

При некотором уменьшении Н ниже одного бита на букву мы перейдем от литературных текстов к текстам специализированным, понятным лишь для соответствующих специалистов. Возрастание степени дифференциации вероятностей букв в этих текстах связано с увеличением частоты применения каких-то определенных слов и словосочетаний, словесных штампов. При этом уменьшается степень вариативности языка за счет снижения степени его образности и эмоциональности. Текст становится более информационным, более строгим, более упорядоченным. И в то же время ( правильнее сказать: по той же причине) он становится более непонятным для непосвященных ( иначе говоря, недостаточно информированных) потребителей этого текста.
При известном k - м столбике строится ( k 1) - й столбик по тому же принципу, что и предыдущий, с той лишь разницей, что буквы, отмеченные в предыдущем столбике двоичными символами, в последующем столбике отсутствуют. В новом столбике их представляет одна составная буква со значением вероятности, равным сумме вероятностей слагаемых букв.
Теперь мы получим для оценки, указанной в теореме 1, другое выражение, которое сравнительно легко может быть вычислено по известным параметрам канала. Предположим сначала, что приписанные словам в теореме 1 вероятности Р ( и) равняются произведению вероятностей букв, составляющих эти слова.
В § 3.4 явно указываем универсальный код для монотонных источников. Они порождают конечное множество букв, вероятности появления которых упорядочены одинаковым для всех источников образом. Если вероятности букв неизвестны, но известно, какая из двух букв более вероятна, то речь идет о монотонном источнике. Именно такова ситуация при построении определителей ( ключей) растений и животных. Вероятности неизвестны, но известно, какой вид более многочисленный.
Сравнивая AfpaBH с Мъ М2, Мъ, М4, мы поневоле приходим к выводу, что неравномерный код более экономный, нежели равномерный. Однако вопрос о степени экономности кода определяется отнюдь не только общим числом М двоичных цифр в кодовой цепочке. Иными словами, надо учитывать, насколько часто используются те или иные буквы. Это, однако, зависит от вероятностей букв. Вполне может оказаться, что более экономен код на рис. 1, в чем мы как раз и убедимся в следующем параграфе.
На все эти вопросы есть фактические ответы, и все же людская интуиция и догадки в общем ведут к ошибкам. Например, большинство людей, когда их спрашивают о появлении буквы К, говорят, что чаще она встречается в начале слова, чем на третьей позиции, что противоречит действительности. Почему люди неверно оценивают эти события. Согласно Тверски и Канеману, люди при ответе на этот вопрос пытаются сначала генерировать слова, начинающиеся с К, а затем слова, где К стоит на третьем месте. Если вы попробуете сделать это сами, вы поймете, почему люди неверно отвечают на этот вопрос. Причина переоценки частотности начальных букв кроется в том, что слова с первой буквой К более доступны, чем слова с К на третьем месте. Оценка вероятности букв основывается на обобщении, сделанном на очень ограниченном наборе слов, доступных в результате генерации.
 
Loading
на заглавную 10 самыхСловариО сайтеОбратная связь к началу страницы

© 2008 - 2014
словарь online
словарь
одноклассники
XHTML | CSS
Лицензиар ngpedia.ru
1.8.11