Изменить стиль страницы

Крупнейший теоретик языка Е.Д. Поливанов, говоря о точках соприкосновения между математикой и лингвистикой, особо выделял следующее: а) анализ кимографических кривых; б) диалектологическая статистика; в) приложение теории вероятностей к определению относительной вероятности этимологий – как достоверных, так и гипотетических и, наконец, фантастических [Поливанов 1968].

Связь языкознания с математикой не была односторонней. Используя методы математики, лингвистика в свою очередь питала математику плодотворными идеями. Наблюдения известного математика А.А. Маркова (1856–1922) над текстом «Евгения Онегина» (распределение доли гласных и согласных среди первых 20 ООО букв – «испытания, связанные в цепь») привели к открытию знаменитых «марковских цепей», обогативших теорию вероятностей и математическую статистику. Примером использования лингвистических знаний в математике служит создание математической лингвистики [Гладкий, Мельчук 1969].

Для описания и исследования лингвистических фактов привлекаются различные разделы математики: алгебра, теория множеств, математическая логика, теория информации, теория вероятностей и математическая статистика. В силу этого математическая лингвистика стала развиваться в нескольких направлениях – алгебраическая лингвистика, комбинаторная лингвистика, которая опирается на разделы «неколичественной» математики (теория множеств, математическая логика, теория алгоритмов), и квантитативная лингвистика, которая изучает лингвистические явления с помощью «количественной» математики (математическая статистика, теория вероятностей, теория информации и др.).

Квантитативная лингвистика отличается от математической лингвистики большим вниманием к языковой специфике, которая стоит за количественными отношениями. Главная её задача – поиск связи между количественными и качественными сторонами языка: между употребительностью и возрастом слов, длиной слова и его употребительностью, полисемией и употребительностью; делается попытка выявить объективный критерий таких лингвистических категорий, как продуктивность классов слов, однородность и регулярность отношений между единицами словаря [Арапов 1988].

Пока наиболее перспективным представляется исследование сущностных характеристик языка при помощи аппарата теории вероятностей и математической статистики – квантитативная лингвистика. Собственно говоря, связь математики с языкознанием началась с попыток установить статистические свойства речи, поскольку языку присущи объективные количественные характеристики. Благодаря вероятностной природе языковой структуры, она легко поддается изучению математическим аппаратом теории вероятностей и математической статистики. Основа тому – регулярность, упорядоченность языковых явлений. Уже существует большая специальная литература, отразившая результаты применения статистических методик в исследовании различных ярусов языковой системы.

Статистически исследуется фонетика, закладываются основы статистического изучения морфемного состава слова и морфологических категорий. В частности, установлена связь между числом фонем и средней длиной морфемы, стало известно, что количество фонем отражается на качестве морфем и слов, а количество морфем на качестве слов. Интересна попытка количественно выразить степень силы управления. Намечается статистическая классификация синтаксических конструкций, обследуются закономерности связи размера предложения с характером текста. Выявлено, что с XI до XX в. вероятность использования предлогов увеличилась с 0,096 (XI–XIII вв.) до 0,123 (XX в.), а союзов уменьшилась с 0,126 (XI–XIII вв.) до 0,085 (XX в.) [Русинов 1983: 37]. Количественной интерпретации подвергается даже такая «качественная» сторона языка, как семантика. Особенно эффективны статистические подсчеты в стилистике. Количественными параметрами обладают такие явления, как ритм и рифма. С применением статистики увеличивается надежность типологических разысканий. С помощью статистических методов устанавливается мера генетической близости между славянскими языками, сохраняемой, по данным праславянской лексики, каждым из них [Журавлев 1994].

С помощью формально-количественных методов изучается авторский идиостиль, под которым В.П. Григорьев понимает взаимосвязь между языковыми средствами и особенностями творческой позиции писателя, его взгляда на мир, на окружающую действительность [Баранов 1998: 121]. Замечено, например, что частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия». В первом романе значительно чаще встречается частица разве, значение которой предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В «Белой гвардии» чаще используется частица неужели, которая указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, почему оно имеет место. Исследователь видит пассивное «изумление», «удивление» автора в «Белой гвардии» и активное восприятие в «Мастере и Маргарите» [Баранов 1998: 121]. Сопоставляя более разговорное по крайней мере с книжным по меньшей мере в художественных текстах Ф.М. Достоевского, А.Н. Баранов гипертрофированную частотность по крайней мере объясняет творческой позицией Достоевского, осознающего всю сложность и противоречивость окружающего мира. Книжное по меньшей мере, будучи более точным и определенным, требует определенности и в суждениях о мире [Баранов 1998: 134].

Шире всего количественные методики используются при описании лексического уровня языковой системы. Лингвисты убеждены, что лексемный ярус системен, но его системность особого рода. В лексике целостность и устойчивость системы сочетается с автономностью частей (подсистем). В ней заметна массовость и случайность и одновременно господствует необходимость. Всё это характерно для вероятностных систем. Известен вывод Б.Н. Головина: «Язык вероятностен, речь частотна». Квантитативная лингвистика возможна потому, что для речи характерна относительная стабильность частот отдельных элементов или групп элементов и устойчивое распределение элементов, выражающее наличие внутренней упорядоченности в системе. Единицами и уровнями квантитативного анализа являются словоформы, лексема и словоупотребление [Тулдава 1987].

Практическим результатом статистического изучения лексики являются частотные словари, отличающиеся от обычных лингвистических (толковых, орфографических и других) тем, что словарные единицы располагаются в них не только в алфавитном порядке, но и в порядке убывающей частотности. В первом случае это будет алфавитный частотный словарь, а во втором – ранговый частотный словарь. Частотные словари характеризуются следующими параметрами: объём текста (число словоупотреблений), объём словаря словоформ, объём словаря лексем.

Первым частотным словарём был словарь Кединга (1898). За девяносто лет XX столетия было составлено несколько сот частотных словарей и частотных списков для нескольких десятков языков. Первым частотным словарём русского языка был словарь Г. Йоссельсона (США, Детройт, 1953). В нашей стране первый частотный словарь русского языка был составлен Э. Штейнфельд (1963). Интересны материалы к частотному словарю языка Пушкина (1963). В 1977 г. вышел в свет «Частотный словарь русского языка» под редакцией Л.Н. Засориной. Создавался он на основе выборки в один миллион словоупотреблений из четырёх жанров (художественная проза, драматургия, научная публицистика, газетно-журнальные материалы). В нём около 40 тыс. слов. Самое частотное слово – предлог в (во) далее идут служебные слова и местоимения (и, не, на, я, быть, что, он, с, а, как, это). Самое частотное существительное – год.

В 90-х гг. XX в. в Швеции вышел в свет «Частотный словарь современного русского языка» (Уппсала, 1993).

Идея частотных словарей возникла из практической потребности решения ряда вопросов: 1) создание рациональной методики изучения родного и иностранного языков; 2) усовершенствование различных кодовых систем; 3) выявление специфики разных стилей литературных памятников или языка отдельных авторов. Вслед за частотными списками слов появляются словари, отражающие частоты морфем и грамматических форм.