Обгрунтування тестiв
Завантажити презентаціюПрезентація по слайдам:
Питання до лекції 1. Надійність тесту. Методи визначення надійності тесту. Метод повторного тестування. Метод тестування паралельною формою тесту. Метод ділення тесту на частини. 2. Контроль валідностї тесту. Види валідності. Валідність за змістом Конструктна валідність Валідність за критерієм. Класифікація критеріїв валідності. 3. Соціально-демографїчний склад ї обсяг вибірки для валідації. 4. Величина коефіцієнтів валїдкості.
В якості найважливішого інструменту, що застосовується для виміру психічних явищ використовується психологічний тест. Від кожного вимірювального інструменту вимагається, щоб він був якомога більш точним, щоб результати виміру були якомога ближче до істинної величини признаку і, отже, щоб погрішність виміру була мінімальною. В сучасній психометрії в якості основних характеристик придатності тесту як вимірювального інструменту прийнято вважати його надійність та валідність.
1. Надійність тесту Надійність - це характеристика точності тесту як вимірювального інструменту, стійкості його до дії перешкод. Надійність тесту визначається, як правило, по закінченню процедури аналізу задач і складання остаточної форми тесту. При визначенні надійності тесту основним являється метод повторного тестування (ретестування) . Окрім нього застосовуються ще два методи: метод тестування паралельною формою тесту і метод ділення тесту на частини.
1. Метод повторного тестування (ретестування) Повторні виміри, які проводяться відразу, як правило, виконуються швидше і з меншим числом помилок, чим в перший раз. Тому надійність тесту перевіряється на групі досліджуваних, що виконують тест два рази через певний (можливо більший) проміжок часу. Метод повторного тестування найчастіше знаходить застосування при контролі надійності швидкісних тестів і опитувальників. Слід уникати ретестування при контролі надійності тестів інтелекту і тестів досягнень.
Найбільш простий засіб знаходження коефіцієнта надійності полягає в розрахунку коефіцієнта повної кореляції (по Пірсону) між результатами першого і другого тестування у групи досліджуваних. Цією формулою можна користуватися в вигляді: де: X - оцінки першого тестування; У - оцінки другого тестування; N - число досліджуваних
Величина коефіцієнта надійності визначається величиною зміни оцінок досліджуваних в результаті вторинного тестування у порівнянні з первинним. Зміна оцінок залежить як від індивідуальних особливостей досліджуваних (зміна стану, різна швидкість навчання рішенню тестових задач тощо), так і від зовнішніх чинників (зміна умов проведення тесту - приміщення, освітленість, шумів, розміщення досліджуваних, зміни експериментатора тощо). Звичайно проміжок часу між першим і другим тестуванням встановлюється від декількох днів до декількох місяців. Зниження коефіцієнта надійності зі збільшенням часу ретестування говорить про функціональну нестійкість тесту.
В числі умов, що впливають на величину коефіцієнта надійності, слід вказати: запам'ятовування змісту задач і засобів їхнього рішення; цікавість і оригінальність задач; невелике число задач; невеликий час між першим і другим проведенням тесту Коли має місце хоча б одна з перерахованих умов, від методу ретестування слід відмовитись.
2. Метод тестування паралельною формою тесту Багато тестів і опитувальників мають дві і більше паралельні (схожі) форми, спрямовані на вимір однієї і тієї же психологічної характеристики (наприклад, опитувальник Р. Кеттела). Добре складені форми тесту можуть взаємо замінювати одна одну. Коефіцієнт надійності при використанні методу тестування паралельною формою тесту визначається так: вибірка досліджуваних в випадковому порядку ділиться на дві приблизно рівні групи; одній групі пропонується форма А тесту, а іншій групі - форма В; через декілька днів, але не більше ніж через тиждень, проводиться друге тестування, причому форма В пропонується першій групі, а форма А - другій. Розрахунок коефіцієнту надійності проводиться за допомогою формули, описаної вище.
3. Метод ділення тесту на частини Цей метод застосовують якщо повторне тестування небажано (при тестах досягнень, інтелектуальних або творчих тестах) і існує тільки одна форма тесту. При цьому дослідники виходять з того, що якщо розподіл оцінок досліджуваних за виконання цілого тесту підкоряється нормальному закону, то й розподіл оцінок за виконання випадковим образом вибраних груп задач тесту теж будуть близькі до нормального. При використанні методу ділення тесту на дві частині (рівні або приблизно з точністю до однієї задачі), треба добитися рівноцінності цих частин.
Досвідченим шляхом встановлено декілька засобів ділення тесту на дві рівноцінні частини: ділення задач тесту за принципом "парний-непарний"; ділення задач тесту на основі однакових коефіцієнтів (індексів) трудності і дискримінації; ділення задач в тестах швидкості на дві частині в відповідності з часом рішення кожної частини.
Алгоритм обчислення коефіцієнта надійності при діленні задач тесту на парні і непарні має такий вид: Поділити задачі на дві групи - непарні (1, 3, 5 тощо) і парні (2. 4, 6 тощо). Обчислити суми оцінок успішності рішення задач (балів за відповіді на питання) по непарним і парним задачам окремо для кожного досліджуваного, Обчислити коефіцієнт повної кореляції між двома рядами оцінок, отриманими по вибірці. Описаний засіб ділення задач на дві частини може бути використаний тільки для тестів досягнень, в яких, припускається, що всі досліджувані дадуть відповіді на всі задачі, не пропускаючи жодної.
Збільшенню надійності тесту сприяє стандартизація умов проведення тестування: всім досліджуваним даються однакова інструкція, система завдань, час, однаково приписуються бали за однакові результати тощо.
2. Контроль валідності тесту Тест є валідним в випадку, якщо він адекватно вимірює ту психологічну характеристику (уміння, стан тощо), для оцінки якої він розроблений. Таким чином, під валідностю тесту звичайно розуміється його обґрунтованість, дієвість, адекватність, діагностичність. Ведучою проблемою, що стоїть перед розробниками тесту, є контроль валідності тесту або валідація. Валідація - це процес обґрунтування придатності тесту як психодіагностичного інструменту.
І. Валідність за змістом - встановлюється експертами для діяльності, близької або співпадаючої з реальною. Питання і задачі тесту беруться з реальної діяльності – найчастіше з навчальної або професійної. Експерти оцінюють ці задачі по шкалі близькості до реальних задач, що виникають перед людиною в процесі навчання або роботи. Наприклад: - рівень розвитку рахувальних навиків перевіряється за допомогою арифметичних задач на усну лічбу, - рівень розвитку токарних вмінь - за допомогою тестового тренажера, що імітує роботу частин токарного верстату.
Усі тести досягнень і тести професійної успішності є більш-менш вдалими імітаторами реальних приладів, з якими працює людина, задач, що вона вирішує, умов і ситуацій, в яких їй потрібно працювати, Всі вони вимагають від людини актуалізації тих загальних або приватних знань, навиків і вмінь, якими вона володіє на час тестування.
ІІ. Конструктна валідність - визначається в тих випадках, коли подання про психічний феномен, що вимірюється існує тільки в свідомості дослідника. Риси характеру і темпераменту, здібності і інтелект відносяться до числа таких феноменів (конструктів). Дослідник, розробник може лише будувати гіпотезу про існування того або іншого психологічного конструкту, про форми і характер його прояву. Оскільки прояви конструктів в поведінці, діяльності людини різноманітні і неоднозначно вказують на той або інший конструкт, процедура встановлення конструктної валідності менш визначена, ніж при встановленні валідності за змістом і за критерієм.
Наприклад, якщо припустити правомірність існування такої характеристики особистості, як екстраверсія, то в якості поведінкових проявів цієї характеристики (конструкту) можна розглядати такі об'єктивні реакції, як інтенсивність міміки і жестикуляції, число слів в одиницю часу, число соціальних контактів протягом дня і багато інших. Кожний з цих об'єктивних показників поведінки дає певну, хоча і не вичерпну інформацію про екстраверсію людини, але навіть в сукупності вони не є адекватними індикаторами цієї характеристики. В зв'язку з цим конструктна валіднісль тесту на екстраверсію визначається на основі статистичного зіставлення результатів цього тесту як з даними інших методик, за допомогою яких оцінюється ця характеристика, так і з об'єктивними поведінковими реакціями людини або групи людей.
ІІІ. Валідність за критерієм - часто називають емпіричною валідністю. Це основний вид валідності, що застосовується в психодиагнjcтичній практиці. Валідація тесту за критерієм полягає в порівнянні результатів, отриманих досліджваними за рішення тесту з їхніми даними по критерію. Критерій валідності тесту - це ознака його обґрунтованості, правомірності його застосування як психометричного інструменту.
В якості критерію валідності на практиці звичайно виступають: 1) соціально-демографічні і біографічні дані (стаж, освіта, вступ або не вступ з навчальний заклад, прийняття на роботу або звільнення з ро боти); 2) виробничі, наукові або навчальні показники ефективності діяльності (дані випуску продукції, число публікацій, винаходів, оцінки академічної успішності); 3) експертні оцінки вираженості рис особистості, ділових якостей, успішності роботи або навчання; 4) результати виконання стандартизованих методик тощо.
Класифікація критеріїв валідності Існує декілька підстав для класифікації критеріїв валідності: за об'єктивностю за метричностю за складом За широтою охоплення психічного явища суб'єктивні об'єктивні якісні кількісні поодинокі складені широкі вузькі
1.Найважливішою характеристикою критерію валідності є його об'єктивність. Об'єктивність критерію валідності полягає в його незалежності від суб'єктивних думок, оцінок тощо. (В якості таких можуть бути використані результати роботи і їхні зміни в часі, наявність або відсутність захворювання, ознаки тощо). Для різних видів тесту використовуються свої критерії об'єктивності: більш жорсткі, однозначні, зв'язані з продуктивністю конкретної діяльності - в тестах професійній успішності і тестах досягнень; менш жорсткі, неоднозначні - в особистісних тестах і опитувальниках, в тестах на оцінку творчого мислення тощо.
Суб'єктивні критерії валїдності - до їхнього числа відносяться оцінки, судження, заключення про об'єкт (предмет, процес, людину, групу) зроблені одним експертом (фахівцем, вчителем, керівником, психологом). В цьому випадку застосовується метод індивідуальної оцінки. Експерт оцінює об'єкт на основі запропонованої йому шкали оцінки (оціночної шкали). Практичний досвід показує, що кращими шкалами оцінки є 5 – 7 – 9 - балні шкали. Більш дробові шкали, тобто шкали з більшим числом оціночних категорій, як правило, не призводять до більш диференційованої оцінки досліджуваних.
Об'єктивізація критерію валідності досягається збільшенням числа експертів. Застосовуються чотири засоби (методи) експертної оцінки: засіб колективної оцінки; засіб середньозваженої оцінки; засіб ранжування; засіб парного порівняння.
При використанні засобу колективної оцінки чисельність експертів варіюється, як правило., від 2 до 5 чоловік. Вони спільно оцінюють об'єкт (процес, результат, людину, групу) за допомогою шкали оцінки. Необхідною умовою колективної оцінки є вироблення загальної (часто компромісної) думки, видавання єдиної оцінки. При цьому оцінка залежить від особливостей особистості експертів (домінантності, конфліктності тощо).
Значно частіше для отримання оцінок по критеріям використовують засіб середньозваженої оцінки. У відповідності з цим засобом кожний досліджуваний оцінюється по заздалегідь встановленій шкалі декількома експертами. При цьому оцінки, що поставлені досліджуваному одним експертом невідомі іншим експертам. Після цього оцінки різних експертів усереднюються. Встановлено, що усереднена оцінка є більш надійною, ніж оцінки, отримані іншими описаними засобами.
Коли вибірка досліджуваних мала (до ЗО чол.), для отримання оцінок по критерію можна застосовувати засіб ранжування. Суть засобу в тому, що групі експертів (незалежно один від одного) пропонують розподілити (упорядкувати, розмістити) усіх членів вибірки в відповідності з деякою ознакою. Усереднене рангове місце може слугувати критерієм для валідації. Якщо вибірка досліджуваних занадто велика, що не дозволяє експерту сприймати її водночас і, отже, впевнено проранжувати досліджуваних, то її можна поділити за випадковою ознакою на групи, які складаються з 10-15 чоловік, а після цього робити ранжування в кожній групі. Подальша обробка даних проводиться таким само чином, як і в випадку неподілених вибірок.
В випадку низької кваліфікації експертів для визначення оцінок по критерію валідності застосовують засіб парного порівняння. Цей засіб суб'єктивно легше для експертів, оскільки не подає до них вимоги кількісної оцінки об'єктів. Робота експерта полягає в попарній розстановці об'єктів по ознакам: краще/гірше; сильніше/слабкіше; активніше/пасивніше. При цьому кожний об'єкт порівнюється з кожним за обраною ознакою. (Отже, ми обговорили критерії валідності за об'єктивністю (суб'єктивні і об'єктивні критерії)
2. За метричностю критерії поділяються на якісні і кількісні. Якісні критерії валідності дають уявлення про те, до якої категорії (класу) відноситься даний об'єкт (людина) (наприклад, з блакитними, карими, сірими очами), або має він певну ознаку або не має (хворий/здоровий; працює/звільнений тощо). В цих випадках об'єкти розподіляються в відповідності з законами номінативної шкали. Засоби ранжування і парного рівняння також забезпечують якісний послідовний розподіл об'єктів (людей) в відповідності з критерієм валідності. Результати експертних оцінок містяться в шкалі порядку.
Якісна форма завдання інформації за критерієм часто незручна для подальшого використання, оскільки її зіставляють з результатами виконання тесту (найчастіше висловленими в кількісній формі). Тому якісні дані або ранжують по системі 1, 0 або 1, 2, 3..., або застосовують інші критерії валідності - кількісні.
3. При розробці тестів використовуються поодинокі і складені критерії валідності - це критерії валідності за складом. В основі поодинокого критерію лежить один показник, що застосовується для валідації тесту, в основі складеного - декілька, причому валідність тесту може бути перевірена як відносно кожного показника, так і відносно їхньої лінійної комбінації.
4. Чим більш складним, комплексним є психічне явище, яке вимірюється, тим ширше, узагальненїше повинен бути критерій валідності - критерій за широтою охоплення психічного явища. Наприклад, при обґрунтуванні тесту на загальний інтелект в якості критерію валідності може виступати ефективність навчальної, наукової або виробничої діяльності; при валідації тесту на екстраверсію-інтроверсію -- усереднені експертні оцінки по таким особистісним характеристикам, як товариськість, життєрадісність, соціальна сміливість і ін.
Більш вузькі, приватні критерії застосовуються при обґрунтуванні тестів, направлених на вимір рівня розвитку конкретних професійних знань, вмінь і навичків, наприклад, мануальної вправності, пам'яті на числа тощо. Вузькість обираємого критерію тісно зв'язана з вузькістю області об'єктивної реальності, яку він охоплює, з однорідністю (гомогенністю) задач тесту і з більшою конкретністю, однозначністю інтерпретації результатів. Ширина/вузькість критерію валідності в цілому визначаються психологічною природою і складністю явища що вивчається.
Валідність за критерієм поділяється на діагностичну (по збігу) і прогностичну. Діагностична валідність. Діагностичною валідністю повинні в першу чергу володіти клінічні тести, що слугуватимуть для уточнення диференційного діагнозу. В якості критерію в цих випадках найчастіше служать експертні оцінки психіатрів, які добре знають хворого, "ведуть" його в клініці. Розробка клінічних тестів має велике значення для практики, оскільки вони є більш економічними, чим, наприклад, консиліум. Діагностична валідність тестів інтелекту або загальних здібностей часто встановлюється на основі критеріїв академічної або професійної успішності, показників швидкості навчання і ін
Прогностична валідність. В якості критерію валідності можуть виступати не тільки показники актуальної поведінки узяті для нинішнього часу, але і відстрочені результати діяльності, лікування, очікувані властивості особистості тощо. Наприклад, результати діяльності після навчання, показники стану після лікування і ін. В випадках, коли спостерігається статистичне значущий збіг між оцінками по тесту і відстроченими результатами діяльності (сформованими властивостями особистості, результатами лікування) є підстави говорити про прогностичну валідність тесту по критерію.
Метод прогностичної валідації тестів використовується для тестів профвідбору на спеціальні курси, в навчальні заклади, які випускають фахівців, праця яких зв'язана з високим рівнем відповідальності (льотчики, космонавти) і в ряді інших випадків.
3. Соціально-демографїчний склад ї обсяг вибірки для валідації. За обсягом вибірка повинна бути репрезентативною для тієї популяції досліджуваних, для якої розробляється тест. Обсяг вибірки, як правило, варіюється від 30 до декількох сот чоловік. Кількість досліджуваних, в першу чергу, визначає точність тесту як вимірювального інструменту. Вибірка від 30 до 100 чоловік вважається дослідницькою. Обґрунтування (валідація) тесту, зроблене на її основі, вимагає додаткового підтвердження. Для діагностичних цілей обсяг вибірки від 100 до 200 чоловік вважається в більшості випадків достатнім. Для обґрунтованого прогнозу успішності в навчанні, трудової діяльності, результатів навчання в професійній діяльності валідність повинна встановлюватися на базі можливо більшої по обсягу вибірці досліджуваних (понад 200 чол.).
4. Величина коефіцієнтів валїдності Оскільки більшість коефіцієнтів валідності являє собою коефіцієнти кореляції, то величина їх змінюється в діапазоні від -1 до +1. Тест вважається валідним в самому грубому наближенні, якщо коефіцієнт валідності значущий не нижче 1% рівня. Розробляти новий тест, аналогічний за характером існуючому, має сенс тільки за тією умовою, коли його валідність була вищою за валідність старого тесту. Виняток може бути зроблений тільки для випадків більш високої економічності нового тесту в порівнянні зі старим або в зв'язку з тим, що він ширше або глибше за своїми можливостями в порівнянні зі старим.
Чим вище вплив оцінок по тесту на долю досліджуваних, тим вище повинна бути його валідність. Коефіцієнт валідності тесту повинен бути обернено пропорційний його економічності. В цьому сенсі індивідуальні тести повинні бути більш валідними, ніж групові; великі тести більш валідні, ніж короткі; апаратні тести більш валідні, ніж бланкові.
Схожі презентації
Категорії