Его оценки избыточности нашего языка возникали, как уклончиво писал Шеннон, из «конкретных результатов, полученных в области криптографии». Оставленный им намек – свидетельство того, что его значительный труд в области криптографии, статья «Теория связи в секретных системах», в 1948 году был все еще засекречен. Тем не менее другими источниками Шеннон мог оперировать относительно свободно. Одним из них было творчество Рэймонда Чандлера.
Однажды вечером Шеннон взял толстую книгу с детективными рассказами Чандлера «Возмездие Нун-стрит» и пролистал ее, как он часто делал в то время, выбрав произвольный отрывок. Он разложил по буквам весь отрывок, а его помощница должна была угадывать, какой будет следующая буква, пока не назовет правильную. К тому моменту, когда они добрались до «А S-M-A-L–L O-B-L-O-N-G R-E-A-D-l-N-G L-A-M-P O-N Т-Н-Е D», она смогла с абсолютной точностью угадать следующие три буквы: E-S-K.
Целью этого процесса была вовсе не тренировка предсказательных способностей его помощницы, тем самым Шеннон хотел доказать, что любой человек, читающий книгу на английском, станет таким же «провидцем», зная, каким правилам подчиняется то или иное предложение. К тому моменту, когда помощница дошла до буквы D, она уже поняла смысл. E-S-K – это формальность. И если бы правила нашего языка предоставляли нам свободу замолчать, как только смысл становился понятным, то буквы D было бы достаточно. Но избыточность на этом не заканчивалась. За фразой, начинающейся с «а small oblong reading lamp on the», почти наверняка последует одна или две буквы: D или первая названная буква Т. В языке с нулевой избыточностью шансы помощницы угадать, что последует дальше, были бы всего 1 к 26.
А потому следующая буква была бы максимально информативна. Но в нашем языке ее шансы составляли бы, скорее, 1 к 2, а буква несла бы гораздо меньше информации. В Оксфордском словаре английского языка представлено 228 132 слова. Из всего этого двадцатитомного кладезя лексикографии два слова стали наиболее вероятными после того, как Шеннон произнес по буквам короткую фразу: это слова «desk», «table». Как только Рэймонд Чандлер добрался до «the», он загнал себя в угол. Но мы все загоняем себя в угол, когда пишем, говорим или поем.
Понимая избыточность нашего языка, мы можем сознательно оперировать ею, подобно тому, как инженеры прошлых веков учились работать с паровыми двигателями.
Да, конечно, люди экспериментировали с избыточностью языка методом проб и ошибок на протяжении многих веков. Мы урезаем избыточность, когда прибегаем к стенографии, когда даем друг другу прозвища, когда придумываем особый жаргон, чтобы сжать значение фразы (вместо «левой стороны судна» короткое слово «порт»). Мы добавляем избыточности, когда говорим «буква В, как Виктор», чтобы нас услышали и поняли, вместо того чтобы кружить вокруг да около. Но именно Шеннон показал концептуальное единство, скрытое за всеми этими действиями, и не только.
У истоков зарождения информационной эпохи, когда провода и микросхемы были отброшены и когда был расчленен поток из 0 и 1, мы обнаруживаем две фундаментальные теоремы связи, предложенные Шенноном. Они представляют собой два способа, с помощью которых мы можем управлять избыточностью: уменьшая и увеличивая ее.
Для начала зададимся вопросом, с какой скоростью мы можем отправить сообщение? Шеннон показал, что это зависит от того, сколько избыточности мы можем выжать из него. Наиболее действенное сообщение фактически будет напоминать цепочку произвольного текста: каждый новый символ будет максимально информативен, а значит, максимально непредсказуем. Ни один символ не появится бесцельно. Конечно, в сообщениях, которые мы посылаем друг другу – либо с помощью телеграфной связи, либо посредством телевещания. – символы постоянно растрачиваются впустую. Поэтому скорость общения по выбранному каналу связи зависит от того, как мы кодируем сообщения, насколько компактно «упаковываем» их перед «отгрузкой».
Это было одно из преимуществ физического представления об информации – бит стал в один ряд с метрами и граммами.
Первая теорема Шеннона доказывает, что существует точка максимальной компактности для каждого исходящего сообщения. Мы достигаем пределов связи, когда каждый символ сообщает нам что-то новое. И так как теперь у нас есть четкое мерило информации – бит, – мы также знаем, как сильно можно ужать сообщение, прежде чем оно достигнет точки идеальной сингулярности. Это было одно из преимуществ физического представления об информации – бит стал в один ряд с метрами и граммами. Это было доказательством того, что эффективность нашей связи зависит не только от свойств нашего способа общения, от толщины провода или частотного диапазона радиосигнала, но от чего-то более измеряемого, что присутствует в самом сообщении.