гауссовых распределений. Эти распределения подчиняются другим законам больших чисел. Первый из них принято называть

«законом Ципфа», а сами такого рода распределения иногда называют «ципфовскими».

Закон Ципфа (Зипфа) (часто называемый также законом

Ципфа-Бредфорда-Парето) — закон обратностепенного распределения, впервые был сформулирован как эмпирическая закономерность распределения частоты слов естественного языка.

Если все слова языка (или просто достаточно длинного текста)

упорядочить по убыванию частоты их использования, то частота

n-го слова в таком списке окажется приблизительно обратно

пропорциональной его порядковому номеру n (так называемому

рангу этого слова). Например, второе по используемости слово

встречается примерно в два раза реже, чем первое, третье – в три

раза реже, чем первое, и т. д. При этом длина слова тем меньше,

чем меньше его порядковый номер. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер данного слова в частотном списке. Потому

произведение номера слова на его частоту есть константа.

204

Впервые на существование такого рода закономерностей

еще в начале прошлого века обратил внимание француз Эсту,

разрабатывая систему стенографии на научной основе, но его

работа осталась незамеченной. Сегодня закон Ципфа – «гиперболический негауссов закон распределения Ципфа-БредфордаПарето», основанный на фрактальной структуре распределения

ресурса по объему, широко используется для ценозов любого

вида (био-, социо-, техно-, информценозов). Сформулировано

значительное число гиперболических распределений − распределения (или законы) Ципфа, Парето, Лотки, Уиллиса, Бредфорда и др. Их общая черта – резкая асимметричность (в отличие от «гауссовых»), а главная особенность – выраженность одной и той же по сути математической формулой, в которой

варьирует только показатель степени (формула может записываться в двух видах – частотном и ранговом).

Таким образом, невозрастающую последовательность р1, р2, ...,

pk (∑ki = 1 pi = 1) частот употребления слов из словаря объема k

в некотором тексте (выборке) называют ранговым распределением для данного текста. При этом номер i слова в словаре, упорядоченном по невозрастанию частоты употребления, называют

рангом этого слова. Если Fi − количество употреблений слова

ранга i (i-гo слова), N − общее количество словоупотреблений в

тексте, то pi = Fi/N. Текст (разбиение) удовлетворяет закону Ципфа, если его ранговое распределение описывается зависимостью

pi = A/i; ∑ki = 1; pi = 1; i = 1,…, k. Величина А определяется как A =

p1 ≈ 1/ln(k). При равенстве pi = Fi/N отсюда следует N = Fi ln(k).

В распределении Ципфа величины pi и k жестко взаимосвязаны. Обычно задаются какой-нибудь одной из этих величин, а другую вычисляют. При этом распределение Ципфа будет зависеть от

того, какая величина, рi или k, определена по реальному тексту.

Выбрать эталонное распределение с учетом одновременно двух

наблюденных величин − pi и k позволяет формула Мандельброта,

включающая формулу для распределения Ципфа в качестве частного случая: Pi = A/(i+B), ∑ki = 1, pi = 1, i = 1,…, k. Коэффициенты A

и В здесь могут быть выражены через pi и k с помощью двух равенств: A/(1+B) = p1; ∑ki = 1 A/(i+B) ≈ Aln((k+B)/(1+B)) = 1.

Говоря о распределении Ципфа или Мандельброта, нередко

принимают во внимание условие, согласно которому наименее

205

употребительное слово встречается в тексте один раз (минимальный по объему класс содержит один элемент): Fk = l, pk =

1/N. При выполнении этого условия для текста, удовлетворяющего закону Ципфа, F1 = k и A = p1 = 1/ln(F1) = 1/ln(k), N = kln(k)

= F/ln(F1), а для текста, удовлетворяющего закону Мандельброта, A = 1/ln(F1), B = (k-1)/(F1-1)-1, N = (k-1)/(F1-1)F1ln(F1).

Реальные тексты и разбиения, однако, довольно редко

удовлетворяют закону Ципфа в точности. При этом хорошо согласуются с этим законом тексты и классификационные схемы,

отвечающие нашему представлению о целостности и системности, а случайные выборки описываются им значительно хуже22.

Например, закон Эсту – Ципфа – Мандельброта применим для

законченных форм произведений; и наоборот, он почти никогда

не описывает произвольные выборки (отрывки текста, части

произведений искусства). А вообще закон Ципфа является некой

идеальной моделью, реализующейся только при наличии ряда

идеальных условий. Отклонения от него происходят за счёт всегда существующих в реальном мире естественных отклонений

от модельных условий.

Гиперболические распределения хорошо известны в исследованиях систем различного класса. В любой совокупности существуют сравнительно немногочисленные компоненты, обладающие, так сказать, «высоким статусом» (частотой, распространённостью, доходом, стоимостью, потреблением электроэнергии и т. п.), и значительно больше компонентов с низким

статусом, причём по мере понижения статуса число разных

компонентов с этим статусом увеличивается. Для описания таких совокупностей используется гиперболическая зависимость.

Например, исследования канадских океанологов показали, что

для совокупности морских обитателей − «от бактерий планктона

до китов» − применима гипербола23. Применялась она и для таких разных распределений, как книг в библиотеках по числу запросов читателей; учёных по числу их публикаций; городов любой страны по числу жителей; населения по доходам и состоя22

Ю.А. Шрейдер, А.А. Шаров. Системы и модели. − М., 1982; Ю.К. Орлов.

Невидимая гармония // Число и мысль. Вып. 3. – М., 1980.− С. 70-106.

23

R.W. Sheldon, A. Prakash, W.H. Sulcliffe. Limnology and Oceanography, 1972,

v. 17, N 3, p. 327.

206

ниям; числа землетрясений по мощности очага и поверхностной

балльности; сортов трав по занимаемой площади; фирм по числу работников; частиц вулканического пепла по их массе; частиц мелких космических тел (от пылинок до крупных метеоритов), выпадающих на Землю. Вполне естественной выглядит

также попытка применить такого рода закономерность и для тех

или иных совокупностей технических объектов.

Само понятие ценоза взято из биологии (биоценоз), где оно

обозначает совокупность биологических организмов, сосуществующих в определенных рамках. В биологических системах

развитие вида, популяционные взаимодействия осуществляются, будучи детерминированными определенными закономерностями. Но взаимодействие видов (популяций), сосуществующих

на некотором, тем или иным образом ограниченном жизненном

пространстве (ценоз), складывается уже в результате других закономерностей, возникающих в данной совокупности как результат взаимодействия между ее составляющими в определенных «внешних» условиях, т. е. в определенной среде существования, и зависящих как от нее, так и от составляющих ценоза.

Такую же, складывающуюся объективно, независимо от роли

отдельных устройств техническую совокупность можно по аналогии с биоценозом назвать техноценозом.

Технический объект (техническое устройство) – это искусственно созданное для выполнения заданной обществом определенной функции материальное образование. Но любое техническое устройство (технический объект, техническое изделие,

технический предмет и т. п.) − не просто «самостоятельно

функционирующая единица». Ни одно устройство не функционирует полностью «самостоятельно», только в определенной их