В прошлой главе мы пришли к выводу, что так называемые структурные гены, кодирующие аминокислотные последовательности белков — это лишь, если угодно, корни слов, но не сами слова и тем более не осмысленные предложения. Тем самым вопрос о «лищней» ДНК в значительной мере снимается. Если же мы учтем, что в передаче информации по каналу с высоким уровнем шума код должен быть помехоустойчивым, становится ясной та непонятная щедрость природы, с которой она наделила ДНК наши клеточные ядра. Это не исключает возможности существования в геноме своего рода реликтовых последовательностей, не несущих в настоящее время определенной функции («гены на пенсии или в творческом отпуске»). Но доля их в геноме не может быть значительной, они не должны мешать генам активным, ибо довлеет дневи злоба его.
На уровне построения фенотипа (клеток, тканей, органов) также существуют структуры, для организма в данный период эволюции бесполезные (рудиментарные органы вроде зачаточных тазовых костей у китов и удавов, мышцы, двигающие ушной раковиной у человека, человеческий аппендикс и многое другое).
Аналогичная картина наблюдается и в мемофондах. Мы знаем лишние буквы в алфавите и слова в языках, рудименты старых технологий, обычаев и идеологий. Простой пример: раньше обшлага камзолов отворачивались и пристегивались на пуговицы. Теперь этого нет, но на рукавах каждого пиджака с упорством, достойным лучшего применения, пришивают по три пуговицы. Не столь уж безобидный рудимент, хотя бы для нашей страны. Сколько пиджаков в РФ, статистика не знает, как не знает и числа стульев. Допустим, что каждый гражданин мужского пола имеет хотя бы один пиджак (140 млн.). Это соответствует 840 млн. пуговиц, которые ничего не пристегивают. Без малого миллиард, а ведь это пример безобиднейшего реликта. Несравненно больше вреда «пуговицы на обшлагах» приносят не в технологиях, а в самых консервативных областях мемофондов — обычаях, обрядах, идеологиях. Но об этом у нас еще будет время поговорить.
Сейчас рассмотрим несколько иной аспект проблемы. Существуют ли какие-нибудь связи в последовательности нуклео-тидов — в нуклеотидном «тексте»? И опять начнем с аналогии — рассмотрим лингвистические тексты.
Как вы помните, энтропия на символ русского текста около 5 бит, но при условии, что все буквы одинаково вероятны. Такой текст можно получить, если 32 буквы кириллицы (без различения букв е и ё, ь и ъ, как на телеграфе) написать на бумажках, а затем вытаскивать их из урны, записывать вытянутый символ и возвращать бумажку обратно. Сначала я хотел сделать это сам, но потом решил воспользоваться моделью Р. Л. Добрушина (его примеры цитируются в ряде книг). Вот какая фраза у него получилась:
Как видите, получилось нечто такое, что нельзя и выговорить. Именно такой текст и содержит 5 бит/символ, он наиболее информативен, потому что вероятность появления каждого последующего знака определяется только случаем и всегда равна 1/32. Но мы-то знаем, что в русском тексте разные буквы встречаются с разной частотой. Чаще всего встречается буква «о» (частота 0,090.), но это только в письменной речи. В устной, в московском говоре, где безударное «о» выговаривается как «а» («с Масквы, с пасада, с калашнава ряда»), положение другое[4]. В других языках в фаворитах ходят другие буквы. Вспомните «Золотого жука» Эдгара По — там герой уверенно принимает наиболее часто встречающийся в тексте знак за букву «е». На пергаменте был английский текст, но и в испанском и во французском языке, которыми также пользовались пираты Карибского моря, «е» — чаще всего встречающаяся буква.
Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») — за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:
Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» — редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо — пожалуйста.
Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать — «рвя и жгя».
Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:
Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:
В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:
Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.
А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной — белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка — инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.
Вероятность встречи в любом месте одного из четырех символов, слагающих последовательность гена, или одного из двадцати символов, слагающих белок, была пропорциональна только процентному содержанию этого символа в тексте и не зависела от соседних. То есть, генетический текст оказывался построенным согласно модели 2 Добрушина.
Гены — дети случая. С какой-то стороны это меня огорчило. Я надеялся, что системы корреляций, паче чаяния они в нуклеотидных текстах окажутся, будут разными в разных геномах. А это принесло бы пользу новой отрасли систематики — геносистематике, развивающейся на наших глазах. Хороший пример из анализа лингвистических текстов. По-видимому, древнейшая или хотя бы одна из древнейших письменностей Европы — слоговое письмо А догреческого населения острова Крит — пока еще не расшифрована. Мы можем ее читать, но не понимаем языка. Однако мы знаем, что построен он был наподобие японского или полинезийского, в которых гласные и согласные строго чередуются. Греки-ахейцы, взявшие Трою, переняли это письмо и стали писать на нем по-гречески (линейное письмо В). Вряд ли это было удобно: название города Кносс читалось как Ко-но-со, имя богини любви Афродиты — А-по-ро-ти-та, медь (халкос) — ка-ко и так далее. Ведь греческий язык — индоевропейский, в нем согласные могут стоять рядом. В результате новая волна греков-дорийцев, затопившая Элладу, полностью это письмо забыла, и греки были неграмотными, пока не создали свой алфавит на основе финикийского слогового. Но мы теперь знаем, что предшественники греков, пеласги, индоевропейцами, скорее всего, не были. Есть, правда, и другие мнения на этот счет. Интереснейшие соображения о древних, тысячи лет назад отзвучавших языках и давным-давно сошедших с арены истории народах можно высказать, анализируя сочетания символов в письме А.
4
Добавлю, что 32 символа недостаточны для полного понимания текста, нужны еще и знаки препинания, кроме пробела. Напомню хрестоматийный пример: «Казнить нельзя помиловать». На телеграфе используют сокращения зпт, тчк.