Что же устанавливается при сопоставлении результатов по двум половинкам теста (способ расщепления)? Более всего оснований считать, что так устанавливается надежность самого теста как диагностического инструмента. Несомненно, что следует считать надежным только тот тест, который состоит из однородных и притом равно трудных задач. Оценка успешности работы испытуемых выводится из общего числа правильно выполненных ими заданий. Если тест отвечает своему назначению как диагностический инструмент, то можно полагать, что в любой из произвольно выбранных его половинок испытуемый должен правильно выполнить примерно одинаковое число задач. Правильность этого предположения исследователь проверяет, вычисляя коэффициент корреляции между результатами, показанными испытуемыми по двум половинкам теста.
А сравнение результатов, показанных испытуемыми при первом и втором, повторном, тестировании имеет совсем другой смысл. Оно говорит о том, насколько устойчиво, стабильно то свойство психики (функция, умение, способность и пр.), для диагностирования которого был применен тест. Оставим пока открытым вопрос о том, чем объясняется устойчивость или изменчивость диагностируемого свойства. Важно, что коэффициент корреляции, вычисляемый в этом случае, указывает на степень стабильности диагностируемого свойства. Об этом будет свидетельствовать сохранение каждым испытуемым своего порядкового места в выборке (в рангах или в сигмальных единицах) при первом и повторном применении теста через определенный промежуток времени.
В такой интерпретации ясно обнаруживается, что разные способы установления надежности относятся по существу к разным объектам. При вычислении коэффициента между результатами, показанными в каждой из двух половинок теста, устанавливается надежность самого теста, при вычислении того же коэффициента между результатами первого и второго испытания устанавливается стабильность диагностируемого свойства.
Весьма возможно, что невысокая надежность теста самого по себе (способ сравнивания половинок) окажет неблагоприятное воздействие и на результаты как первого, так и повторного испытаний. Поэтому следует заранее позаботиться о том, чтобы такое воздействие было устранено или сведено к минимуму. Для этого нужно соблюдать естественную очередность установления надежности: сначала нужно проверить надежность теста, добиться путем устранения ненадежных задач надлежащего его качества, как измерительного инструмента, а затем переходить к установлению надежности диагностируемого свойства.
Что же касается способов установления надежности теста, заключающихся в сопоставлении двух параллельных или эквивалентных форм-вариантов, то выводы из таких сопоставлений скорее можно понять как аргумент в пользу психологической значимости единого принципа, положенного исследователем в основу создания того и другого варианта теста. Принцип проверяется путем сравнения результатов успешности испытуемых, выполнявших две подготовленные исследователем формы или два варианта теста. С точки зрения применения теста эти способы естественнее всего толковать как изучение возможности взаимозаменяемости вариантов теста. Но сколько-нибудь убедительного ответа на вопрос о надежности каждого из вариантов эти способы, по-видимому, не могут дать. О неопределенности выводов, получаемых при сопоставлении двух форм или вариантов теста для установления надежности, пишут и авторы «Стандартных требований…» (Standards for Educational and Psychological Test, 1974). Поэтому, по крайней мере до тех пор, пока не будет предложено новых толкований этих способов, применение их для установления надежности представляется необоснованным.
Выше было сказано, что способ разделения теста на две половины позволяет охарактеризовать надежность самого теста как диагностического инструмента, а способ повторного тестирования дает материал для суждения о надежности (или стабильности) исследуемого свойства психики. Употребление слов «надежность теста и надежность свойства психики» не должно маскировать важнейшей специфической черты психологических тестов – их результаты, итоги работы испытуемых всегда являются продуктом взаимодействия испытуемого (со всеми присущими ему к моменту испытания особенностями) и ситуации психологического испытания. Здесь испытуемому представляется тест с его конкретной наполненностью: словами, рисунками, заданиями, требующими логико-перцептивных действий, от выполнения которых зависит успешность его работы. Надежность теста и надежность (стабильность) диагностируемого психического свойства не существуют «вообще», они всегда выступают как продукт контакта конкретной ситуации испытания с конкретными выборками и совокупностями испытуемых. На первый взгляд высказанные суждения кажутся ненужной тривиальностью – каждому ясно, что никак по-другому получить сведения о надежности нельзя. Однако следует принять во внимание специфические, укоренившиеся у неосведомленных людей мнения о тестах, чтобы согласиться с тем, что дополнительные разъяснения по этому пункту не окажутся лишними.
...
Вот один, далеко не охватывающий всей сложности ситуации пример: испытуемому предлагается вычеркивать из четырех слов одно, то, которое «не подходит к трем остальным», – это задание из теста на классификацию. Тест исследует простую операцию логического обобщения: нужно найти такой ярко выраженный функциональный признак, который присущ трем объектам и отсутствует у четвертого. Даны слова: репа, капуста, морковь, свекла. Ученик четвертого класса одной из московских школ при выполнении теста вычеркнул слово «свекла»; при опросе мальчик объяснил, что первые три овоща можно есть сырыми, а свеклу – только вареной. Впрочем, он не был твердо уверен в правильности такого решения. Хотя задание было выполнено, но собственное решение осталось у испытуемого сомнительным, и возможно, что при повторном тестировании он выбрал бы другое решение. У ребят того же возраста, проживающих в сельской местности, задание, напротив, не вызывало ни малейших сомнений: тотчас по прочтении вычеркивалось слово «капуста» по ясному для них признаку: остальные три овоща – «корешки».
Как известно, опрос испытуемых после выполнения теста обычно не практикуется – в том и состоит удобство тестирования, что за короткое время – порядка одного часа или немногим более – можно получить некую информацию о психологическом признаке, свойственном целой группе испытуемых. Нет и ясных методических правил – как использовать данные такого опроса.
Поэтому исследователь, как правило, не узнает, чем руководствовался испытуемый, который пришел к этому, а не к иному решению, выполняя тест. Только обратившись к процедурам, которые предшествуют выходу теста в свет, исследователь при изучении результатов применения теста в городских и сельских школах мог бы обратить внимание на то, что есть задачи, которые снижают надежность теста в одних случаях (в городских условиях) и не снижают в других.
В свое время Б. Саймон (1958), анализировавший применение интеллектуальных тестов в английской школе, обратил внимание на то, что авторы включают в свои тесты задания, состоящие из непонятных для некоторых испытуемых слов. Он с полной ясностью показал, что слова, вошедшие в словарь ребенка одного социального слоя, могут быть неизвестны и непонятны ребенку из другого социального слоя. Тесты, о которых писал Саймон, были рассчитаны на английского ребенка из обеспеченных слоев населения, с достаточно высоким уровнем образования окружающих его людей. Все, что пишет данный специалист, – абсолютно верно. Но дело не только в этом: дело и в том, насколько эти функциональные признаки освоены испытуемыми в их повседневной жизни и практике.
Если бы исследователь опросил испытуемых, известно ли им, что такое свекла, капуста и т. д., то можно утверждать, что не нашлось бы испытуемых, которые этих овощей бы не знали (речь идет, положим, об испытуемых, проживающих на большей части территории СССР, жители Африки, возможно, о подобных овощах не знают).