zaeto.ru

Купер К. I индивидуальные различия/Пер, с англ. Т. М. Марютиной под ред. И. В. Равич-Щербо

Другое
Экономика
Финансы
Маркетинг
Астрономия
География
Туризм
Биология
История
Информатика
Культура
Математика
Физика
Философия
Химия
Банк
Право
Военное дело
Бухгалтерия
Журналистика
Спорт
Психология
Литература
Музыка
Медицина
добавить свой файл
 

 
страница 1 ... страница 28 страница 29 страница 30 страница 31 страница 32 страница 33


Старайтесь избегать утверждений, сформулированных в отрица­тельной форме, таких, как: «Мне не нравятся студенты»: «да/?/нет», поскольку выбор ответа «нет» требует от испытуемого интерпрета­ции двойного отрицания.

Старайтесь избегать вопросов, касающихся частоты и количе­ства, вместо этого обращайтесь не к общим вариантам поведе­ния, а к конкретным. Вместо того чтобы спрашивать: «Вы много читаете?», задавайте вопрос: «Сколько книг вы прочитали ради удовольствия в прошлом месяце?» или еще лучше вопрос: «Пере­числите книги, которые вы прочитали ради удовольствия в про­шлом месяце» (последний может уменьшить социально желатель­ные ответы).

Убедитесь, что ни одно из слов не допускает двойного толко­вания. Например, в один личностный опросник был включен воп­рос: «Получаете ли вы удовольствие от веселых вечеринок?», хотя слово «веселый» («gay») по-английски может означать индивиду­ума с гомосексуальной ориентацией.

Попытайтесь добиться того, чтобы около 50% заданий по каж­дому аспекту опросника были построены таким образом, чтобы

ответ «да/совершенно-'Согласен» соответствовал высокой оценке по черте, а другие 50% соответствовали бы низкой оценке по чер­те. Например, если на утверждение «Обычно я засыпаю ночью сразу же, как только выключается свет» следует ответ: «Совершенно не согласен», это оценивается как указание на тревожность.

Если вы должны спросить о чем-то социально нежелательном, рассмотрите возможность формулировки утверждения как бы с точки зрения другого человека, например: «Некоторые люди мо­гут описывать меня как скупого», а не «вы скупой?».

И наконец, целесообразно иметь такой текст инструкции, что-.бы она призывала респондентов давать первый ответ, который естественным образом приходит в голову, а не искать скрытые значения.

Общие принцип анализа заданий

Закончив набросок теста, необходимо обеспечить, чтобы все задания измеряли один и тот же конструкт, прежде чем прово­дить проверку надежности и валидности теста. Чтобы сделать это, тест следует предъявить большой выборке людей (п > 200), сход­ных по своим характеристикам с индивидуумами, которые будут в конечном счете тестироваться при помощи этого теста. Напри­мер, если тест будет использоваться для отбора окончивших обу­чение соискателей в определенную организацию, было бы целе­сообразно испытать этот тест на студентах, а не на 16-летних школьниках общеобразовательной школы (из-за разной академи­ческой подготовки) или пенсионерах (из-за различия в возрасте). Ответы затем обрабатываются, и для каждого индивидуума вы­числяется общий балл.

Следующая стадия заключается в том, чтобы проанализиро­вать средние показатели и стандартные отклонения по каждому из заданий. В тесте способностей (где правильный ответ вознаг­раждается одним баллом, а за неправильный не дают ничего) средняя оценка указывает на степень трудности каждого задания. Средний показатель 0,95 будет означать, что 95% выборки дали правильные ответы на задания. В случае личностных тестов сред­няя оценка показывает степень, с которой индивидуумы склон­ны соглашаться или не соглашаться с утверждениями. В соответ-

ствии с общим эмпирическим правилом было бы нежелательно иметь слишком много очень легких или очень трудных заданий в тесте. Таким образом, если более чем 10% заданий имеют средние показатели выше 0,8 или ниже 0,2, будет резонным обдумать воз­можность удаления некоторых заданий.

Задание для самопроверки 18.1

Почему нецелесообразно иметь слишком много очень легких или очень трудных заданий в тесте?

Величина стандартного отклонения по каждому заданию пока­зывает размах индивидуальных различий, обнаруженных среди от­ветов испытуемых на это задание. Например, если задание имеет стандартное отклонение, равное 0, значит, все ответили одним и тем же образом и, следовательно, оно явно не фиксирует индиви­дуальные различия любого рода и должно быть удалено из шкалы. (Когда задания обрабатываются при помощи дихотомической шка­лы, такой, как «правильно/неправильно», стандартное отклоне­ние прямо связано со средним значением, что читатели, изучав­шие биномиальную теорему, могли бы подтвердить самостоятель­но. Этот этап вычисления должен быть в таких случаях пропущен.)

Хотя проверка средних и стандартных отклонений оценок — необходимый первый шаг, она не может обнаружить, какие воп­росы в тесте имеют плохое содержание. Например, представим себе, что одно задание в личностном тесте использовало язык, который оказался слишком трудным для понимания испытуемыми, побуж­дая всех их просто угадывать ответ. На другое задание могла отри­цательно влиять «социальная желательность». Мы приведем четы­ре метода анализа задания для выявления тех из них, которые по той или иной причине просто не измеряют то же самое, что изме­ряют другие задания теста.

При использовании любого из описанных ниже четырех мето­дов элиминации заданий из теста важно стараться обеспечить, чтобы тест сохранял приблизительно равное число заданий по каж­дому из его аспектов (как описано выше). Предположим, напри­мер, что учитель начал с подготовки пяти заданий по каждому из семи видов математических действий: письменному делению в стол­бик, письменному умножению в столбик, геометрии/тригономет­рии, решению систем уравнений, нахождению корней квадрат­ных из уравнений, дифференцированию и интегрированию. После

этого анализ заданий позволит исключить из 35 заданий слишком легкие, слишком трудные или задания, которые просто не рабо­тают, но было бы явной неудачей, если бы анализ привел к ис­ключению всех заданий на письменное деление в столбик и всех заданий на умножение в столбик, поскольку учитель считает, что это два важных компонента математических достижений учащихся. Анализ заданий — это искусство в такой же степени, как и наука, и при удалении заданий важно гарантировать, что по каждому из аспектов останется приблизительно равное их число.

Конструирование тестов по критериальному принципу

Предположим, что нас попросили сконструировать тест для отбора авиационных штурманов. Задача состоит в том, чтобы раз­работать тест, по общему показателю которого можно было бы предсказать окончательные оценки штурманов после курса обуче­ния и который, следовательно, мог бы быть использован для вы­явления соискателей с прогнозом плохой успеваемости. Не имея четкого представления о том, какие характеристики личности и способностей могут соответствовать такому применению, мы мо­жем собрать большой опросник, состоящий из 600 заданий, из­меряющих, как мы надеемся, все основные способности и лич­ностные черты, которые можно оценить. Но какие из них в дей­ствительности предсказывают успешность работы штурмана?

Представим себе, что предварительный вариант шкалы предъя­вили нескольким сотням стажеров. Наиболее очевидный способ выделения хороших (т.е. прогностичных) заданий теста состоит в том, чтобы валидизировать каждое задание непосредственно по отношению к некоторому критерию. Например, предположим, что в конце обучения каждый стажер-штурман получает отметку от О до 100, указывающую на общий уровень успешности в обучении штурманскому делу. Конечно, процесс анализа заданий будет про­сто включать корреляции оценок стажеров по каждому из зада­ний теста с их оценками, полученными в курсе обучения, т.е. с критерием успешности обучения. Задания, имеющие значимые кор­реляции, могут рассматриваться как способные предсказать этот критерий, а те, которые не в состоянии это сделать, будут удале­ны из теста.

Эта процедура, известная как критериальный принцип, была использована для конструирования нескольких хорошо известных шкал, включая Миннесотский многофакторный личностный оп­росник (MMPI и MMPI-2, Hathaway, McKinley, 1967; Graham, 1990) и Калифорнийский психологический опросник (Gough, 1975), шкалы которого могут предположительно выделять различ­ные клинические группы. Не используйте этот метод анализа за­дания. Как напоминает нам Нанелли (Nunnally, 1978), он имеет несколько значительных недостатков.

Во-первых, существует высокая вероятность того, что он про­дуцирует шкалы, имеющие очень низкую надежность, т.е. шкалы, задания которых измеряют разные характеристики. Например, пред­положим, что успех в обучении штурманскому делу зависит от математических способностей, способностей к механике, простран­ственных способностей, низкого нейротицизма и экстраверсии. Если бы критериальный принцип был применен к большой выборке заданий, он привел бы к созданию шкалы, которая измеряла бы смесь всех этих характеристик. Во-вторых, при отборе заданий ред­ко можно выделить для использования единственный критерий. Например, рассмотрим мою должность, которая включает чтение лекций по индивидуальным различиям и психодиагностике, ис­следовательскую работу, написание и редактирование книг, на­писание исследовательских статей, ведение практических занятий и семинаров, администрирование (например, планирование кур­сов), проверку курсовых и экзаменационных работ, координацию некоторых видов деятельности лаборатории, руководство аспиран­тами и множество других видов деятельности. По какому принци­пу следует выбрать ту из них, которая может служить критерием успешности моей профессиональной деятельности? Если их ка­ким-нибудь образом усреднить, то сколько научных работ или сколько программ по учебным курсам будут эквивалентны одной книге? Если используется один критерий, то будет выделен один специфический набор прогностических заданий, если выбран дру­гой критерий, есть вероятность, что выделится совершенно дру­гая выборка заданий. Третья позиция в несколько большей степе­ни связана со статистикой. Для того чтобы отобрать «лучшее» зада­ние по критериальному принципу, ответы на определенные задания коррелируют с критериями. Если тест состоит приблизительно из 400 заданий (как MMPI), тогда вычисляется 400 корреляций. Не вникая в детали, укажем: если вычисляется большое число корре-

ляций, мы должны ожидать, что несколько корреляций будут за­метно выше, чем их подлинные (популяционные) значения. Дру­гими словами, некоторые задания, отобранные нами с помощью этой процедуры, вряд ли будут работать на других группах соиска­телей. Наконец, эта процедура не дает нам реального понимания того, почему работает тест, — она совершенно лишена теоретичес­ких оснований. Без понимания того, какие психологические кон­структы измеряются с помощью «полезных» заданий, невозмож­но сказать, будет ли этот тест полезен при других случаях приме­нения (например, при отборе пилотов или авиадиспетчеров), и становится очень сложным «наладить» тест, если он внезапно пре­кращает предсказывать успешность. По всем этим причинам не следует руководствоваться критериальным принципом.

Конструирование тестов с помощью факторного анализа заданий

Одни психологи, например, Кэттелл, отстаивают целесооб­разность использования факторного анализа при конструирова­нии тестов, а другие (например, Nunnally, 1978) наряду с этим выделяют некоторые проблемы, возникающие в связи с этим под­ходом. В соответствии с ним корреляции между полученными оцен­ками по каждому заданию подвергаются факторному анализу, и фактор (или факторы) идентифицируется на основе факторных весов, как описано в главах 14 и 15. Объединяя вместе набор зада­ний для измерения одного определенного конструкта, мы, разу­меется, надеемся, что появится только один фактор и что все пе­ременные будут иметь по нему большие нагрузки. На практике может выделиться больше чем один фактор, и некоторые переменные могут не иметь нагрузок выше 0,4 по любому фактору. Этот метод конструирования шкал просто предусматривает выделение и со­хранение тех заданий, которые имеют существенные нарузки по главному фактору (факторам).

При проведении анализа заданий любым методом важно конт­ролировать, чтобы по каждому аспекту теста элиминировалось примерно равное число заданий. Как покажет следующий пример, анализ заданий — это в такой же степени искусство, как и наука. Представим себе, что математический тест из 35 заданий, описан­ный выше, был подвергнут факторному анализу и выделился только

один фактор. Предположим также, что анализ показал, что три из пяти заданий, измеряющих письменное деление в столбик, име­ли нагрузки выше 0,4, так же как три из пяти заданий по каждой из следующих тем: умножение в столбик, геометрия/тригономет­рия, решение систем уравнений и нахождение квадратных кор­ней из уравнений. Однако представим теперь, что только одно из заданий на дифференцирование и все пять заданий на интегриро­вание имели нагрузки выше 0,4. Слепое применение критерия, предусматривающего сохранение заданий с «факторными нагруз­ками выше 0,4», приведет к созданию теста с различным числом заданий по каждой теме. Было бы целесообразнее проверить, нет ли среди заданий на дифференцирование таких, которые имели бы факторные нагрузки лишь ненамного ниже, чем 0,4, и, если таковые имеются, включить два из них в тест и изъять два задания на интегрирование с самыми низкими нагрузками. Этот прием обеспечит тест с 21 заданием, имеющим равное число заданий по каждой теме.

После этого необходимо будет провести эксперименты для проверки того, что эти задания действительно измеряют черту, которую предполагается измерить. Другими словами, должна быть установлена их валидность, как обсуждается в главе 13.

Проблемы возникают при разработке шкал способностей, ко­торые предназначаются для использования с очень жесткими временными лимитами. Поскольку некоторые соискатели могут и не пройти тест до конца, очень сложно установить, почему это произошло: потому, что задания трудны, или потому, что человек не успел, т.е. степень трудности смешивается со скоростью ответов соискателей. На стадии разработки лучше предъявлять тест без ог­раничения времени и устанавливать временные лимиты лишь при подготовке окончательного варианта.

Конструирование тестов

с помощью теории сложности заданий

Предположим, что теория сложности заданий применяется к набору заданий теста, как описано в главе 16. Используемая про­грамма будет выбирать параметры задания, которые лучше всего характеризуют, каким образом вероятность правильного ответа на определенное задание зависит от уровня способностей индивиду-

ума, измеряемых заданиями теста. Что если одно задание измеряет нечто, очень отличающееся от того, что измеряют другие задания? Например, предположим, что 24 задания оценивают способности в области механики, в то время как одно измеряет словарный за­пас (легкое задание, написанное таким вычурным языком, что вряд ли кто-либо понимает, чего от него хотят). На что могут быть похожи параметры задания такого типа?

Вероятность «преодоления» словарного задания не будет, ско­рее всего, существенно зависеть от уровня способностей человека в области механики. В конце концов мы знаем, что существует два совершенно отличных фактора способностей. Следовательно, пред­ставляется вероятным, что ХКЗ будет совершенно плоской, почти горизонтальной. Это имеет место в случае, когда задание имеет низкий уровень дискриминации. Таким образом, если при изуче­нии характеристических кривых находятся задания такого типа, может быть, стоит проверить содержание задания. Стоит также проверить, насколько полно одна из моделей, имеющихся в тео­рии сложности заданий, соответствует конкретному заданию. Если задание имеет высокую «остаточную дисперсию» (т.е. вариатив­ность, которую нельзя объяснить тремя параметрами задания), это нередко дает основание полагать, что данное задание измеряет что-то весьма отличное от других и что следует рассмотреть воз­можность его изъятия из шкалы, хотя процедура изъятия заданий, которые не соответствуют модели, в определенной степени дис­куссионна: некоторые будут утверждать, что вместо этого следует использовать более утонченную модель теории сложности заданий. Хемблтон и Сваминатан (Hambleton, Swaminathan, 1985) пред­ставляют весьма детальное обсуждение этих проблем.

Однако теория сложности заданий допускает, что набор зада­ний измеряет один определенный конструкт, и поэтому обычно на практике, прежде чем начать требующий много времени ана­лиз, основанный на теории заданий, проводят быстрый фактор­ный анализ, чтобы проверить, действительно ли выявляется толь­ко один фактор. Кажется целесообразным на этой стадии изъять «инородные» (т.е. имеющие низкие нагрузки) задания. Если тео­рию сложности заданий применять по отношению к набору зада­ний, измеряющих несколько различных факторов, то целостная процедура распадется на части, поскольку ни одно из них не соот­ветствует модели достаточно хорошо, а оценки параметров могут выглядеть крайне странно, если компьютерная программа вообще

сможет выдать решение. Таким образом, если решено выбирать задания с использованием теории заданий и весь анализ продви­гается плохо, может быть, стоит проверить, являются ли задания истинно монометричными. Основными недостатками теории слож­ности заданий являются, конечно, ее теоретическая сложность и необходимость использования специализировнных компьютерных программ.

Классический анализ заданий

Мы оставили наиболее простую методику анализа заданий на­последок. Вспомните, что высокая надежность обычно рассматри­вается как великолепная характеристика теста, следовательно, кажется целесообразным попытаться оценить степень, с которой каждое задание теста коррелирует с подлинными оценками инди­видуумов, т.е. с теми оценками, которые, как вы помните, каж­дый индивидуум мог бы получить, если бы ему предъявили все задания, которые потенциально могли бы быть созданы для изме­рения данной области. Если мы тем или иным способом выделим задания, каждое из которых имеет существенные корреляции с подлинной оценкой, при сложении оценок индивидуумов по этим заданиям общие показатели по тесту обязаны дать существенную корреляцию с подлинной оценкой. Это, разумеется, другой спо­соб утверждать, что тест имеет высокую внутреннюю согласован­ность или надежность. Таким образом, если можно выделить зада­ния, которые обнаруживают существенные корреляции с подлин­ной оценкой, можно также выбрать те задания, которые будут обеспечивать высоконадежный тест.

Проблема состоит в том, что мы никогда не можем получить подлинные оценки индивидуумов. Однако существует один фраг­мент данных, который, как может быть показано, приближается к ним, а именно общая оценка индивидуумов по всем заданиям теста. Поэтому классический анализ заданий просто предусматри­вает корреляции общего показателя по тесту с оценками по каж­дому из отдельных заданий. Рассмотрим, например, данные из табл. 18.1, которые представляют ответы шести испытуемых на тест из пяти заданий (где правильный ответ оценивался 1, а непра­вильный 0) и общую оценку каждого испытуемого по этому тесту.

Таблица 18.1

Гипотетические данные для анализа заданий



Задание 1

Задание 2

Задание

3


Задание 4

Задание

5'


Общая

оценка


Испытуемый 1

1

0

1

1

1

4

Испытуемый 2

0

1

1

1

0

3

Испытуемый 3

0

0

1

0

0

1

Испытуемый 4

0

0

1

0

0

1

Испытуемый 5

0

1

0

1

1

3

Испытуемый 6

1

0

1

1

0

3

г с общей

0,63

0,32

-0,20

0,95

0,63



оценкой













г с общей

0,11

0,22

-0,48

0,87

0,50



оценкой/коррек-













тированный













Строка «г с общей оценкой» — это просто корреляции ответов на каждое задание теста с общей оценкой по тесту. Чтобы понять, как они вычислялись, можете проверить одну или две из них.

Корреляции между каждым заданием и общей оценкой настоль­ко тесны, насколько мы можем приблизиться к оценке корреля­ции между каждым заданием и подлинной оценкой, следователь­но, кажется разумным изъять те задания, которые имеют неболь­шие корреляции с общей оценкой, еще раз тщательно проверив, что каждый аспект черты измеряется определенным заданием, и убедившись, что оставшиеся задания приблизительно поровну распределены по каждому из аспектов. Поэтому, хотя процедура анализа заданий включает удаление тех из них, которые имеют низкую корреляцию с общей оценкой на каждой стадии, это да­леко не всегда будет самое низкокоррелирующее задание.

Существует одна явная проблема, возникающая при корреля­ции заданий с общей оценкой. Она состоит в том, что каждое задание вносит свой вклад в общую оценку, и, значит, мы в изве­стной мере коррелируем его с самим собой. Чтобы обойти эту слож­ность, мы обычно основываем анализ заданий на «скорригиро-ванных корреляциях "задание х общая оценка"» или же на «от­корректированных по Гилфорду корреляциях "задание х общая

оценка"». В данном примере задание 1 будут коррелировать с сум­мой заданий 2, 3, 4 и 5, задание 2 будут коррелировать с суммой заданий 1, 3, 4 и 5 и т.д. Были предложены и другие методы для вычисления таких поправок, но они имеют психометрические про­блемы (Cooper, 1983).

Каждый раз, когда задание изымается, следует подсчитывать надежность теста (альфа). По мере того как убираются задания, имеющие низкие корреляции с общей оценкой, величина альфа будет расти. Если изымается все больше и больше заданий, вели­чина альфа в конце концов начнет падать, поскольку она зависит как от средней корреляции между заданиями, так и от числа зада­ний в тесте. Конечно, устранение «плохих» заданий увеличивает среднюю корреляцию между оставшимися заданиями, но это так­же делает тест короче. Задания последовательно удаляются (на ос­нове анализа их скорригированных корреляций в парах «задание х х общая оценка» и аспектов теста, с которыми они связаны по своему происхождению) до тех пор, пока тест не станет корот­ким, хорошо сбалансированным и высоконадежным.

Одна весьма неприятная особенность этого способа анализа состоит в том, что невозможно просто посмотреть на таблицу скор­ригированных корреляций заданий и общей оценки и исходя из этого точно решить, какие задания следует изъять. Это происходит потому, что общая оценка каждого человека будет неизбежно ме­няться каждый раз, когда удаляется задание. Следовательно, ре­шив, какое задание изымать, необходимо заново пересчитывать общие оценки, все корреляции оставшихся заданий с общей оцен­кой и на каждой стадии пересчитывать коэффициент альфа. Мягко говоря, это утомительно. Однако я написал компьютерную про­грамму на языке Бейсик (внесена в список в работе: Kline, 1986), которая осуществляет такой анализ автоматически. Модернизиро­ванную версию для компьютеров системы Эппл Макинтош мож­но найти с помощью моей страницы в Интернете, сервер Школы психологии в Королевском университете Белфаста (http:// www.psych.qub.ac.uk). С другой стороны, этот анализ может быть относительно свободно выполнен с помощью имеющейся в SPSS процедуры установления надежности.

Задание для самопроверки 18.2

(а) Что может факторный анализ, взятый изолированно, обнаружить в структуре теста?

(б) Почему в классическом анализе заданий необходимо после уда­ления задания заново пересчитывать все корреляции между каждым заданием и общей оценкой?

(в) Назовите четыре проблемы, связанные с конструированием тес­тов с помощью критериального принципа.

Следующие шаги

Когда анализ заданий закончен, задача того, кто конструирует тест, все еще далека от завершения. Инструкции (и возможно, бланки для ответов) должны быть отточенными. Примеры заданий должны быть разработаны и проверены; затем переработанный (бо­лее короткий и скорее всего более надежный) тест предъявляется другой выборке, состоящей приблизительно из 200 человек, для повторной проверки его надежности и факторной структуры. На этой стадии следует также установить его валидность (например, путем конструктной валидизации, как описано в главе 13). В случае тестов способностей должен быть отмечен объем времени, кото­рый требуется испытуемым для выполнения теста, и должно быть принято решение, какие временные ограничения (если они пре­дусмотрены) следует установить. В руководстве по применению теста следует представить результаты этих анализов, инструкции по предъявлению теста, схему обработки и как можно больше дока­зательств того, что тест надежен и валиден. •

Резюме

В этой главе дано представление о нескольких основополагающих принципах написания заданий как для тестов способностей, так и для личностных тестов. Анализ заданий предлагается рассматри­вать как процедуру для выделения и изъятия заданий, которые оказываются несоответствующими и которые снижают надежность и/или валидность теста. Обсуждены четыре метода проведения анализа заданий: критериальный подход, факторный анализ, тео­рия сложности заданий и классический анализ заданий. Существен­ные проблемы были выделены в широко распространенной мето­дике критериального подхода; теория сложности заданий требует специализированных компьютерных программ; поэтому для со-



здания коротких; надежных и потенциально валидных шкал реко­мендуются факторный анализ и классический анализ заданий.

Предложения

по дополнительному чтению

Книга Галликсена (Gulliksen, 1986) представляет обязательное чте­ние для любого, кто заинтересован в оценке способностей и достижений в обучении. Книга Клайна Руководство по конструированию теста (Kline, 1986) содержит множество хороших практических советов по поводу це­лостного процесса разработки и валидизации теста, так же как и книги Моше и Зейднера (Moshe, Zeidner, 1995), а также Спектора (Spector, 1992). Ссылки на специфические методы анализа ответов на задания теста можно найти в главах 14, 15 и 16.

Ответы на задания по самопроверке


18.1. Если тест содержит много очень легких или очень трудных зада­ний, вы не получите четких различий между индивидуумами в выборке. Черта, которую тест предположительно измеряет, ве­роятно, нормально распределена (т.е. частотная диаграмма имеет колоколообразную форму). Если ваш тест включает много труд­ных заданий, он выявит тонкие различия между высокоспособ­ными участниками (которых в выборке относительно мало). Если он включает много очень легких заданий, тест выявит тонкие отличия между участниками с низким уровнем способностей (но таких тоже окажется немного). Обычно у вас есть необходимость провести дифференциацию подавляющего большинства инди­видуумов в выборке, и это подразумевает, что у вас имеется много заданий, которые хорошо устанавливают различия в диа­пазоне от р = 0,2 до р = 0,8, поскольку это именно те задания, которые позволяют видеть различия между большинством ис­пытуемых в выборке.

18.2. (а) Факторный анализ может показать, сколько отдельных конст­руктов измеряется с помощью набора заданий; другие методы исходит из допущений, что измеряется только один конструкт. Иногда набор заданий может измерять две весьма высококор­релирующих, но различных способности, например, флюидный и кристаллический интеллекты, и действительно, Кэттелл (Cattell, 1971) утверждает, что эти два фактора обнаруживаются, когда используется факторный анализ для исследования тестов, скон­струированных с помощью классического анализа заданий.

(б) Каждый раз, когда удаляется задание, общая оценка каждого испытуемого меняется, и поэтому корреляции всех других зада­ний с общей оценкой также изменятся.

(в) Тест-будет иметь очень низкую (возможно, равную нулю) на­дежность, так как почти определенно будет измерять сочетание черт. Произвольный выбор критерия для измерения будет силь­но влиять на задания, которые образуют тест. Поскольку между заданиями теста и критерием вычисляется очень много корре­ляций, некоторые из них могут оказаться значимыми чисто слу­чайно. Аналогично этому, часть заданий, которые следуегвклю-чить, не будут включены. Он также практически не имеет теоре­тических оснований: сконструировав тест, мы не имеем реального понимания того, почему он работает и что он измеряет.


19

ИЗМЕРЕНИЕ

НАСТРОЕНИЯ

И МОТИВАЦИИ

Общая картина

Поскольку главы 13, 14, 15, 16 и 18 были посвящены оценке стабильных черт (таких, как общие способности или экстравер­сия), до сих пор не упоминалась оценка состояний — настроения и мотивации. Эта оценка оказывается значительно более сложной, чем, по-видимому, считает большинство создателей тестов, по­этому необходимо рассмотреть основные вопросы измерений, преж­де чем продолжать обсуждение теорий настроения и мотивации, описанных в главе 10.

Главы, рекомендуемые

для предварительного чтения

11, 14 и 15.

Эта глава всецело посвящена измерению состояний, В отличие от черт, состояния не являются стабильными, устойчивыми ха­рактеристиками индивидуумов — такими, например, как экстра­версия и вербальные способности. Напротив, состояния в высшей степени непостоянны, меняются от часа к часу или от минуты к минуте. Более полное обсуждение подлинной природы состояний дается в главе 10, но существенный момент, который надо иметь в виду, заключается в том, что они изменяются по интенсивности.

Выделяются два основных класса состояний: состояния настро­ения и мотивационные состояния. Настроения — это хорошо зна­комые подъемы эмоций, которые мы ощущаем утром перед эк-

заменом, или любуясь прекрасным закатом, при просмотре вол­нующего зрелища на сцене или экране или после посещения важ­ного матча, который наша команда выиграла. Некоторые теорети­ки проводят различия между настроениями и эмоциями, но, как я указывал в другой работе, это опасная практика (Cooper, 1997). Второй основной класс состояний — мотивационные состояния — внутренние ощущения, которые побуждают нас есть, когда мы голодны, проводить часы, занимаясь благотворительной деятель­ностью, выполняя бескорыстную, добровольную работу, тратить время и деньги в поисках партнера и т.д. В этой главе рассматрива­ется, как можно оценивать указанные два типа состояний и опре­делять шкалы, которые целенаправленно их измеряют.

Должно быть показано, что шкалы, измеряющие настроения, точно так же как и шкалы, измеряющие черты, являются надеж­ными и валидными. Как можно оценить надежность шкалы на­строения? Качество, которое совершенно определенно не должно обнаружиться, — это высокая временная стабильность (ретестовая надежность). Поскольку настроение меняется в течение времени, а черты остаются неизменными, в том случае, если обнаруживает­ся, что индивидуумы имеют высокосходные оценки в двух ситуа­циях, это дает серьезные основания считать, что шкала измеряет какую-либо черту, а не состояние. Однако можно вычислить на­дежность шкалы состояний по внутренней согласованности, и как должно быть понятно из главы 13, — это в любом случае теорети­чески более полезное измерение надежности. Таким образом, на­дежность шкаЯ настроения может быть установлена измерением их внутренней согласованности, так же как и для шкал, измеряю­щих черты.

Оценка валидности шкал, измеряющих настроение, несколько более проблематична, поскольку состояния (по определению) длятся только короткий период и чувствительны к средовым вли­яниям; необходимо измерять настроение (или мотивацию) и оце­нивать его по поведенческому критерию почти в одно и то же время. Не будет большого смысла в том, чтобы измерять настрое­ние (один раз) в понедельник, а затем коррелировать эти оценки с данными критерия, полученными в пятницу, поскольку уровень настроения/мотивации будет почти наверняка другим.

Конструктную валидность шкалы настроений можно было бы, разумеется, оценить, коррелируя оценки однократно измеренных настроения и мотивации с показателями по другим критериям,

29 - 989


таким, как сексуальное поведение, тревога (ранжируемая экспер­том) и т.д. Однако с этим подходом связана проблема, поскольку можно спутать настроение (или мотивацию) с личностью. Напри­мер, предположим, что выборка включает индивидуумов, кото­рые всегда тревожны (т.е. имеют высокий уровень выраженности черты тревожности или нейротицизма). Любые значимые корреля­ции между тревогой, определяемой по самооценке (опросники настроений), и тревогой, по оценке эксперта, могут просто дока­зывать, что утверждения опросника измеряют личностную трево­гу. То же самое справедливо и для секса. Некоторые люди всегда склонны проявлять повышенный интерес к сексу, поэтому опрос­ники могут уловить черту вместо состояния.

По этой причине более продуктивным будет провести лонги-тюдное исследование и посмотреть, как настроение и мотиваци-онное состояние варьируют по отношению к собственному базис­ному уровню каждого индивидуума. Например, оценки по опрос­никам состояния и определенные поведенческие критерии (или ранги) можно получить у одного человека во многих ситуациях, по ним вычислить корреляции, чтобы определить, имеет ли чело­век склонность выглядеть более тревожным приблизительно в то же время, когда опросник показывает, что он и чувствует наи­большую тревогу, не слишком обращая внимание на привычный уровень его тревожности как черты.

Можно также установить валидность по содержанию для шкал настроения, поскольку некоторые настроения имеют клиническую окраску — тревога, депрессия и т.д. Например, трудно было бы ут­верждать, что шкала настроения, которая устанавливает симптомы депрессии в DSM-IV, не была бы валидна. Однако подобный подход значительно более труден для мотивационных состояний.

Несколько сложнее установить прогностическую валидность шкал, измеряющих настроение или мотивацию, так как прогноз предполагает оценку будущего поведения, в то время как по своей природе настроение и мотивы преходящи. Оценки индивидуумов по шкалам, которые измеряют мотивацию и настроение, вряд ли будут в состоянии предсказывать стабильные аспекты будущего по­ведения, такие, как профессиональный успех или физическое здоровье. Любые исследования прогностической валидности долж­ны выполняться в течение нескольких минут (или в лучшем случае часов), но не месяцев или лет, и об этом говорится в нескольких публикациях.

При просмотре любых публикаций Института Бьюроса обна­руживается, что было разработано весьма озадачивающее количе­ство разнообразных тестов, особенно для оценки настроения. Не­которые из них предназначены для оценки отдельных настроений (например, Опросник тревожности как черты и состояния и Кон­трольный список прилагательных для оценки депрессии), в то же время такие опросники, как Профиль состояния настроения (POMS) (Lorr, McNair, 1988), Контрольный список прилагатель­ных для оценки настроения (HMACL-4) (Howarth, 1988), Опрос­ник восьми состояний (8SQ) (Curran, Cattell, 1976), Шкала диф­ференциальных эмоций (DES-III) (Izard etal, 1982), Контрольный список прилагательных для оценки настроения, по Новлису (Nowlis, Nowlis, 1956), Контрольный список прилагательных для оценки настроений (UWIST) (Matthews et al, 1990) и Шкала на­строения, по Клайду (Clyde, 1963), претендуют на измерение не-которого числа отдельных состояний настроения. Как обсуждалось в главе 10, существуют надежные доказательства того, что все эти мультишкальные тесты измеряют два обобщенных показателя на­строения, известных как позитивный и негативный аффекты (Zevon, Tellegen, 1982; Watson, Tellegen, 1985; Lorr, Wunderlich, 1988; Watson et al, 1988; McConville, Cooper, 1992). Эти шкалы очень широко используются, особенно POMS, привлекающая к себе всеобщий интерес в области психологии спорта.

Четыре проблемы в измерении настроения

Большинство упоминавшихся выше шкал были сконструиро­ваны путем предъявления наборов прилагательных группам доб­ровольных испытуемых, к которым обращались с просьбой про-ранжировать, насколько точно каждое из них характеризовало их чувства или поведение в данный момент, а не то, как они обычно себя чувствуют или действуют. Сторонники такого под­хода к конструированию шкалы настроения считают, что это до­статочная гарантия того, что шкала измеряет состояние, а не чер­ту личности.

29*


Однако почти с каждой из шкал, упоминавшихся выше, воз­никают проблемы. Во-первых, как правило, совершенно не ясно, как и почему отбирались именно данные прилагательные для вклю­чения в каждую шкалу. Нет гарантий того, что это случайная вы­борка прилагательных, потенциально описывающих настроение, — замечание, сделанное, в частности, Ховартом (Howarth, 1988). Во-вторых, не делается попыток изъять синонимы: многие из этих шкал могут иметь высокую надежность просто потому, что все прилагательные, содержащиеся в них, означают совершенно одни и те же состояния. Если кто-либо утверждает, что чувствует себя «взволнованным», он обязан также сказать, что он чувствует себя «обеспокоенным», поскольку эти два слова означают одно и то же. Вы можете вспомнить, что, когда мы изучали, как факторный анализ используется для обнаружения основных характеристик спо­собностей и личности, ключевым требованием было, чтобы фак­торный анализ выделял, по существу, не ожидаемые корреляции между группами переменных. Например, если мы подвергаем фак­торному анализу ответы на вопросы, касающиеся раннего про­буждения, чувства депрессии, изменения в привычках питания, степени когнитивных нарушений, изменений сексуальной актив­ности и т.д., мы должны обнаружить факторные нагрузки по всем этим переменным, поскольку все они могут быть симптомами деп­рессии («исходная черта»). Однако, с точки зрения логики, они совсем не обязаны группироваться вместе. Например, не суще­ствует физиологической, семантической или психологической при­чины, по которой раннее пробуждение должно быть связано с изменениями в привычках питания. Обнаружение того факта, что группа заданий неожиданно варьирует совместно, это именно то, что позволяет нам предположить присутствие некоторой исход­ной черты. Нам не следует (благоразумно) искать проявления ка­кой-либо исходной черты там, где задания должны формировать фактор просто потому, что они синонимичны, но это не останав­ливает большинство теоретиков от такого рода действий.

В-третьих, этот метод конструирования шкал настроений (фак­торизация корреляций между заданиями на основе однократного предъявления теста большой группе людей) представляет собой совершенно такой же прием, который использовался при нахож­дении личностных черт. Поэтому можем ли мы когда-либо вообще быть уверены в том, что эти шкалы измеряют состояния настрое­ния? Наивное предположение, что измеряется «состояние», толь-


страница 1 ... страница 28 страница 29 страница 30 страница 31 страница 32 страница 33


Смотрите также:





<< предыдущая страница         следующая страница >>

скачать файл




 



 

 
 

 

 
   E-mail:
   © zaeto.ru, 2020