Изменить стиль страницы

Частотные словари позволили обнаружить целый ряд количественных закономерностей в лексическом составе языка. Первые 1500 слов частотного словаря для любого языка составляют примерно 80 % всех словоупотреблений. Причём 12 самых частотных слов – артикли и предлоги – из 20 тыс. слов (словарь Эсту) составляют примерно 40 % всех словоупотреблений. По Г. Йоссельсону, в русском языке наречия, предлоги, союзы, частицы составляют 13,9 % всего текста. Сделан общий вывод, что первые 50 слов охватывают грамматический словарь любого языка.

Нет сомнения, что частотные словари окажутся мощным инструментом теоретического и практического языкознания. Они могут дать корректные в научном смысле выводы о структуре общенародной лексики и количественном соотношении её различных пластов, помогут решить проблему языковой нормы и строго определить понятие функционального стиля.

Характерно, что математические методы обладают следующими возможностями:

– делают точными суждения, основанные на количественно-частотных соображениях;

– указывают на такие обстоятельства функционирования языка или диалекта, которые иными способами не обнаруживаются;

– позволяют глубже и всесторонне понять причины и результаты языковой эволюции, длительность эволюционных процессов и их хронологию, и даже прогнозировать будущее языковое развитие;

– расширяют сферу прикладного использования языкознания [Русинов 1983: 42].

Количественная методика стала более эффективной с появлением вычислительной техники.

Определение авторства с помощью формально-количественных и статистических методов стимулировало поиск и выявление характерных структур авторского языка. На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения авторства» (М., 1994).

Два специалиста исследовали несколько простых параметров авторского стиля и на базе большого количества произведений писателей XVIII–XX вв. статистически доказали, что доля всех служебных слов в данном прозаическом произведении является авторским инвариантом [Фоменко В.П., Фоменко Т.Г. 1996]. Д.В. Хмелев, опираясь на модель цепей А.А. Маркова, предложил методику определения авторства, основанную на том, что по произведениям автора, которые достоверно им созданы, вычисляется матрица переходных частот употреблений пар букв. Затем такие матрицы строятся для каждого из авторов, «подозреваемых» в написании анонимного текста, и для каждого автора оценивается вероятность того, что именно он написал анонимный фрагмент текста. В результате автором анонимного текста полагается тот, у которого вычисленная оценка вероятности больше [Хмелев 2000].

В многолетний спор по поводу того, кто является истинным автором романа «Тихий Дон», в свое время включились скандинавские ученые, норвежско-шведский коллектив под руководством Г. Хьетсо. Они взяли тексты, бесспорно принадлежащие М. Шолохову, и тексты донского писателя Ф. Крюкова, которому приписывалось авторство великого романа, и проанализировали их, выявляя особенности писательской манеры каждого. Учёные сравнили длину предложений, распределения длины предложений по количеству слов, распределение частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов в начале предложений, лексические спектры, повторяемость словарного запаса по богатству. Естественно, сделать это оказалось возможным только с помощью мощной вычислительной техники. Математическая статистика при контрольной выборке на ЭВМ 12 тыс. фраз при 164 637 словах представлена в 250 таблицах, формулах и графиках [Книжное обозрение. – 1999. № 18–19. С. 6]. Вывод однозначен: из двух претендентов на авторство «Тихого Дона» Крюков явно обладает наименьшим правом. «…Применение математической статистики позволяет нам исключить возможность того, что роман написан Крюковым, тогда как авторство Шолохова исключить невозможно». Найденная сравнительно недавно рукопись великого романа (885 рукописных страниц, 605 из которых написаны рукой самого Шолохова, а 285 страниц – женой писателя и её сестрой) окончательно утвердила авторство М.А. Шолохова и правоту скандинавских ученых [Наука и жизнь. 2000. № 1. С. 24–25].

В Эдинбурге (Англия) разработан аналитический метод, основывающийся на учёте зависимости частоты употребляемого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающихся сумм». С его помощью установлено, что каждому человеку свойствен прочно укоренившийся, неизменный стиль, который не поддаётся имитации. Например, стиль Т. Харди в «Руке Этельберты» (1876) убедительно совпадает со стилем «Джуда Неизвестного». Анализ показал, что авторы приобретают и сохраняют постоянный стиль, как бы ни сложилась их жизнь. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после того, как знаменитый английский писатель перенёс три инсульта, один из которых лишил его речи и нарушил двигательные способности. Метод выявляет в тексте инородные вставки, обнаруживает попытки подделать авторский стиль. Английская писательница Джейн Остин не окончила повесть «Сандиция», которая обрывается на семьдесят третьем предложении одиннадцатой главы. Повесть была дописана другой писательницей. При чтении невозможно определить, где заканчивается текст Д. Остин, а метод позволяет точно найти инородную часть повести [За рубежом. 1990. № 44. С. 20–21].

Тот факт, что объём активного лексикона Шекспира составляет от 15 до 24 тыс. слов и что количество новых слов, введенных в язык Шекспиром, превышает 3200 единиц, свидетельствует в пользу тех, кто считает, что Шекспир – это псевдоним, под которым творил не один человек. У Ф. Бэкона, которому некоторые приписывают авторство пьес и сонетов Шекспира, лексикон составлял 9—10 тыс. слов (у современного англичанина с высшим образованием словарный запас включает 4 тыс. лексем) [Знание – сила. 2000. № 2. С. 109].

Специалисты говорят о безусловной возможности и целесообразности постановки на ЭВМ исследований по любой лингвистической теме. Реальная перспектива – глобальная информатизация языкознания – от сбора данных до выхода научных трудов из печати [Хант 1993; Использование ЭВМ 1990].

Использование количественных методик в языкознании не означает, что наука о языке стала одной из математических дисциплин. Устойчиво мнение о том, что язык как целое не является подходящим объектом для эффективной математической обработки. Как заметил А.Ф. Лосев, в языке нет никакой однородности и никакого постоянства. Родительных падежей столько же, сколько и тех контекстов, в которых они встречаются; и отношений между членами предложений фактически столько же, сколько и самих предложений. Математика же имеет дело с сущностями устойчивыми [Лосев 1983], даже с омертвевшими, как полагал философ и культуролог О. Шпенглер. «Становление «не имеет отношения к числу». Только безжизненное можно сосчитать, измерить, разложить. Чистое становление, жизнь не имеет границ в этом смысле. Оно лежит вне границ области причины и действия, закона и меры»; «Средством для понимания мертвых форм служит математический закон» [Шпенглер 1993: 35, 112]. Математик М. Клайн заметил, что количественное описание может дать о богатом и разнообразном опыте не более полное представление, чем рост человека о человеке, а специалист в области вычислительной математики Р. Хэммингтон говаривал, что цель расчетов – понимание, а не числа. Всё более популярной становится мысль о том, что в науке островки рациональных рассуждений соединены мостами иррациональных озарений. Отмечается тенденция к «дематематизации» физики, к превращению её (как и химии) в качественную физику, которая в отличие от классической физики, опирающейся на изощренный математический аппарат, стремится отразить в своих понятиях интуицию исследователя-практика, достигающего необходимых результатов без излишних вычислений, опираясь на один только здравый смысл (Из доклада акад. Д.А. Поспелова. См.: [Философские науки. 1995. № 2–4. С. 233]).