Изменить стиль страницы

Предположим, в данном гипотетическом эксперименте, я на самом деле сделал две ошибки. Мы хотим знать, насколько хорош мой результат среди многообразия всех возможных результатов угадывания. То, что мы должны знать — это сколько возможных способов выбора столь же хороши, или лучше, чем моя двадцатка. Число столь же хороших, как мой результат — 190. Число лучших, чем мой результат — 20 (одна ошибка) плюс 1 (без ошибок). Поэтому общее число столь же хороших или лучших, чем мой результатов — 211. Важно добавить способы оценивания лучшие, чем моя фактическая двадцатка, потому что они, в сущности, принадлежат к petwhac, наряду со 190 способами, столь же хорошими как мой.

Мы должны сравнить 211 с общим количеством способов, которыми эти 20 рукописей могли быть распределены с помощью подбрасывания монеты. Это нетрудно подсчитать. Первая рукопись могла принадлежать мальчику или девочке: есть два варианта. Вторая рукопись также могла принадлежать мальчику или девочке. Таким образом, на каждый из этих двух вариантов для первой рукописи было по два варианта для второй. Это 2 x 2 = 4 варианта для первых двух рукописей. Вариантов для первых трех рукописей 2 x 2 x 2 = 8. И возможных способов распределить все 20 рукописей — 2 × 2 × 2… 20 раз, или 2 в 20 степени. Это довольно большое число, 1 048 576.

Итак, среди всех возможных способов предположить пол, доля раскладок, столь же хороших, или лучше, чем мой фактический результат, будет 211 разделенное на 1 048 576, что составляет приблизительно 0.0002, или 0.02 процента. Иными словами, если бы 10 000 человек сортировали рукописи, исключительно бросая монету, можно было бы ожидать, что лишь два из них достигли бы результата, столь же хорошего, как я. Это означает, что мой результат производит довольно большое впечатление, и, если бы я достиг такого, то это было бы убедительным доказательством, что мальчики и девочки систематически отличаются по почерку. Позвольте мне повторить, что все это гипотетически. Насколько я знаю, у меня нет такой способности определять пол по почерку. Я должен также добавить, что, даже если бы были убедительные доказательства различия полов в почерке, это ничего не говорило бы о том, является ли это различие врожденным или приобретенным. Доказательства, по крайней мере если бы они были получены из эксперимента, вроде только что описанного, одинаково согласовывались бы с идеей, что девочек систематически учат почерку, отличному от мальчиков — возможно, более «изысканному» и менее «напористому».

Мы только что выполнили то, что технически называют проверкой статистической значимости. Мы исходили из основных принципов, что сделало это довольно утомительным. Практически, исследователи могут пользоваться таблицами вероятностей и распределений, которые были предварительно рассчитаны. Поэтому мы не должны буквально записывать все возможные способы, которыми события могли произойти. Но базовая теория, основание, на котором были рассчитаны таблицы, зависит, в основном, от той же фундаментальной процедуры. Возьмите события, которые могли иметь место, и запустите их многократно случайным образом. Посмотрите на фактический способ, которым событие произошло, и оцените, насколько он экстремален среди многообразия всех возможных способов, которыми оно могло быть запущено.

Обратите внимание, что проверка статистической значимости ничего не доказывает окончательно. Она не может исключить везение в качестве генератора результата, который мы наблюдаем. Лучшее, что она может сделать — это поставить наблюдаемый результат на ровне с определенной степенью везения. В нашем отдельном гипотетическом примере, это равное положение — два из 10 000 случайных угадывателей. Когда мы говорим, что эффект статистически достоверен, мы должны всегда указывать так называемое p-значение. Это вероятность, что чисто случайный процесс произвел бы к результат, по крайней мере столь же впечатляющий как фактический результат. P-значение 2 к 10 000 довольно впечатляюще, но тем не менеее возможно, чтобы при этом не было никакой настоящей закономерности. Красота выполнения надлежащей статистической проверки состоит в том, что мы узнаем, насколько вероятно, что в данном случае нет никакой подлинной закономерности.

Обычно ученые позволяют себе поддаться влиянию p-значения 1 к 100, или даже столь высоким как 1 к 20: намного менее впечатляющему, чем 2 к 10 000. Р-значение, которое вы принимаете, зависит от того насколько важным является результат, и от того, какое решение может за этим последовать. Если все, что вы стараетесь решить — это стоит ли повторять эксперимент с большей выборкой, p-значение 0.05, или 1 к 20, вполне приемлемо. Даже при том, что есть 1 шанс из 20, что ваш интересный результат произошел как-нибудь случайно, не многое поставлено на карту: ошибка обойдется не дорого. Если решение — вопрос жизни и смерти, как при некоторых медицинских исследованиях, следует искать намного более низкое p-значение, чем 1 к 20. То же самое верно для экспериментов, имеющих целью продемонстрировать очень спорные результаты, вроде телепатии или «паранормального» воздействия.

Как мы вкратце выяснили в связи с фингерпринтингом ДНК, статистики отличают ложноположительные от ложноотрицательных ошибок, иногда называемые ошибками типа 1 и типа 2 соответственно[10]. Ошибка типа 2, или ложноотрицательная — это необнаружение эффекта, когда тот действительно есть. Ошибка типа 1, или ложноположительная, напротив — заключение, что действительно что-то имеет место, когда на самом деле нет ничего, кроме случайности. P-значение — мера вероятности, что вы сделали ошибку типа 1. Статистическое суждение означает удержание среднего курса между двумя видами ошибки. Есть ошибка типа 3, при котором ваш разум полностью заходит в тупик всякий раз, когда вы стараетесь вспомнить, какой из типов 1, а какой 2. Я до сих пор подсматриваю это, после долгих лет использования. Поэтому там, где это имеет значение, я буду применять более легко запоминаемые названия, ложноположительный и ложноотрицательный. Я также, между прочим, часто делаю ошибки в арифметике. Практически мне нечего и мечтать о выполнении статистической проверки, начиная с основных принципов, как я сделал для гипотетического случая почерка. Я бы предпочел всегда искать в таблице, которую кто-то еще — желательно компьютер — рассчитал.

Суеверные голуби Скиннера делали ложноположительные ошибки. Не было фактически никакой системы, которая действительно связывала бы их действия с выдачами вознаграждающего механизма. Но они вели себя, как будто обнаружили такую закономерность. Один голубь «думал» (или вел себя, как будто думал), что отступая влево, он заставлял механизм выдавать вознаграждение. Другой «думал», что засовывание ее головы в угол имело тот же полезный эффект. Оба делали ложноположительные ошибки. Ложноотрицательную ошибку делал бы в коробке Скиннера голубь, который вовсе не замечал бы, что клевание ключа приносит пищу, если включен красный свет, но что клевание при включенном синем свете наказывается выключением механизма на десять минут. Есть настоящая закономерность, ожидающая, когда ее обнаружат, в маленьком мире данной коробки Скиннера, но наш гипотетический голубь ее не обнаружил. Он клюет без разбора при любом свете, и поэтому получает вознаграждение реже, чем мог бы.

Ложноположительную ошибку совершает фермер, который думает, что жертвоприношение богам приносит долгожданный дождь. Фактически, я предполагаю (хотя я не исследовал вопрос экспериментально), что нет такой закономерности, но он не обнаруживает этого и упорствует в принесении своих бесполезных и разорительных жертв. Ложноотрицательную ошибку совершает фермер, который не замечает, что есть закономерность, связывающая удобрение поля навозом с последующей урожайностью этого поля. Хорошие фермеры лавируют промежуточным путем между ошибками типа 1 и типа 2.

Я утверждаю, что все животные, в большей или меньшей степени, ведут себя как интуитивные статистики, выбирая промежуточный курс между ошибками типа 1 и типа 2. Естественный отбор штрафует и ошибки типа 1, и ошибки типа 2, но штрафы не симметричны, и, без сомнения, варьируют в зависимости от различных образов жизни видов. Гусеница-сучок так похожа на ветку, на которой она сидит, что мы не сомневаемся, что естественный отбор придал ей форму, напоминающую ветки. Многие гусеницы погибли, чтобы произвести этот красивый результат. Они погибли, потому что недостаточно напоминали ветку. Птицы, или другие хищники, распознали их. Даже некоторые очень хорошие имитаторы веток, должно быть, были выявлены. Как еще естественный отбор продвигал эволюцию к высшей степени совершенства, которую мы видим? Но, в равной мере, птицы, должно быть, много раз не замечали гусениц, потому что те напоминали ветки, в некоторых случаях лишь слегка. Любое животное-добыча, как бы хорошо оно ни маскировалось, может быть обнаружено хищниками при идеальных условиях наблюдения. В равной мере, любое животное-добыча, как бы плохо оно ни маскировалось, может быть пропущено хищниками при плохих условиях наблюдения. Условия наблюдения могут изменяться в зависимости от угла (хищник может обнаружить хорошо замаскированное животное, глядя прямо на него, но не заметит плохо замаскированное видимое им краем глазу). Они могут изменяться в зависимости от интенсивности освещения (добыча может быть пропущена в сумерках, тогда как была бы замечена в полдень). Они могут изменяться с расстоянием (добыча, которая была бы замечена с шести дюймов, может быть пропущена с расстояния 100 ярдов).

вернуться

10

В русских терминах математической статистики — Ошибки первого и второго рода (прим. верст.)