3714 подписчиков

Математическая теория тестов на одной картинке (и два слова про футбол)

14 декабря 202214 дек 2022

7 мин

Базовое допущение, которое сделал в районе 1960 года датский математик Георг Раш - признанный основатель IRT-теории (теории тестовых заданий, фактически современной математической теории тестов), состоит в том, что баллы испытуемых и параметры трудности тестовых заданий можно изобразить на единой шкале. Ну так вот давайте и изобразим. См. простейшую схемку. Почему испытуемый справляется с относительно легкими заданиями Item 1 и Ite

Друзья, сегодня мне пришло в голову, что осмыслению универсальной математической теории тестов мешает отсутствие каких-то ярких и наглядных картинок, которые математики-психометристы "подразумевают", но не рисуют для читателей в виде простых схематизмов - в виде полезной "когнитивной графики", то есть в виде наглядных познавательных схематизмов. Или это я сам просто не видел таких полезных картинок, не внимательно читая учебники? В общем... занялся любимым делом - изобретаю велосипеды... В надежде, что кто-то на них "поедет" - лучше поймет, в чем дело.

Базовое допущение, которое сделал в районе 1960 года датский математик Георг Раш - признанный основатель IRT-теории (теории тестовых заданий, фактически современной математической теории тестов), состоит в том, что баллы испытуемых и параметры трудности тестовых заданий можно изобразить на единой шкале.

Ну так вот давайте и изобразим. См. простейшую схемку. Почему испытуемый справляется с относительно легкими заданиями Item 1 и Item 2, но не справляется с трудным для него заданием Item 3? - Потому что балл, отражающий его способность на тестовой шкале, лежит правее первых двух заданий, но левее третьего. Как только мы зафиксировали, что испытуемый решил первые 2 задания, но не справился с третьем, мы узнали тем самым, что истинный тестовый балл испытуемого лежит где-то в интервале между заданиями 2 и 3. Причем в отсутствие точного знания разумнее всего предположить, что точка Испытуемого лежит где-то посередине между точками item 2 и item 3 – последним решенным заданием и первым нерешенным. Вот и все дела!

Впрочем, некоторым людям (как я знаю по опыту работы со студентами-гуманитариями с трудом визуализирующими в умственном плане какие-то шкалы) весьма трудно осознать такую простую истину, что математическая теория тестов позволяет изобразить шкалу не только для признанных количественных переменных (скорость решения простых задач), но и шкалу для качественных переменных (способность долго-долго думать, но справиться с одной сложной системной задачей - в тесте на сложность, а не на скорость). Все дело в том, что единую шкалу в случае качественной переменной мы опять можем помыслить как многоградуальную (то есть количественную!), если припишем ее градациям ВЕРОЯТНОСТНЫЙ СМЫСЛ - чем правее точка, тем выше вероятность решения сложной задачки (!).

Тогда как мы трактуем в вероятностном смысле исходы решения задач на указанной схеме? - А так что испытуемый с вероятностью выше 0,5 (но не с вероятностью 1.0) скорее справится с более легкими заданиями Item 1 и Item 2, но с трудным заданием Item 3 скорее не справиться, то есть в этом случае вероятность успеха будет меньше 0.5.

Очень полезно думать про единую шкалу в вероятностном смысле! Это приближает к пониманию тестов как "вероятностного инструмента для получения вероятностного знания о людях". Мы не уверены на 100 процентов на основании тестирования, что человек "креативен"(обладает изобретательным мышлением) , но можем сказать, что на 0,66 он все-таки креативен, где 0,5 - средний уровень креативности на единой вероятностной шкале.

Кстати, в случае с медицинской диагностикой мы говорим о "вероятности диагноза", при этом "критериальное событие" предстает не как вероятность "успешной работы" (решения сложной производственной задачки), а как вероятность "заболевания определенной болезнью". Но суть-то формально-логическая не меняется! Просто один диагностический индикатор (маркер болезни) не проявился (третий на шкале), но первые 2 проявились. И что это значит? - А значит, что вероятность заболевания мы имеем на уровне 0,66. Не высокая? - Да, но выше среднего, так что надо "нарыть еще индикаторов" - продолжить обследование. Так на базе картинки со шкалой рождается в зародыше диагностическое мышление - это поисковое мышление, направленное на поиск - на выдвижение и проверку диагностических гипотез.

В КАКИХ ОБЛАСТЯХ РАБОТАЕТ МАТТЕОРИЯ ТЕСТОВ?

Всем известна математическая теория вероятностей. Она работает в разных науках по единым принципам. Меньшему числу эрудированных людей известны такие прикладные математические теории как "теория информации", "теория игр", "теория измерений", и тем более - "теория принятия рискованных (вероятностных) решений". Математическая теория тестов - это такая же универсальная дисциплина, освоение которой может позволить работать в любой области прикладных наук о человеке и применять единые принципы "гуманитарного тестирования":

- в психологии (есть психологические тесты, например, на IQ)
- в педагогике (есть педагогические тесты - на знания)
- в медицине (есть медицинские тесты, они же "анализы")
- в спорте (тесты на предсказание победы в спортивном соревновании)
- в маркетинге (тесты на предсказание покупки)
- в политологии (тесты на электоральный выбор)
- в юриспруденции (есть тесты на криминогенность поведения - вероятность нарушения закона)
и так далее, и тому подобное.

Если Вам стало интересно размышлять над такими картинками, как эта, то подумайте, не стоит ли Вам записаться на наш онлайн-проект ДПМШ? Мы запланировали очередную такую школу на январь 2023 года. Ищите рекламный лэндинг-сайт по ключевым словам «Дистанционная ПсихоМетрическая Школа» Зимной мы всегда проводим практикумы:
участники сами участвуют в конструировании тестов, то есть создают свои тестовые задания и проверяют на статистике собранных ответов, какое из них удачно работает, а какое - неудачно и его надо заменить.

ФИЗИЧЕСКАЯ МОДЕЛЬ - РЫЧАЖНЫЕ ВЕСЫ

Кстати, под нынешнюю картинку можно подвести очень простую и еще более наглядную физическую модель - процедуру взвешивания веса тела на рычажных весах. Представьте, что задания 1, 2 и 3 - это гирьки на правой чашке таких весов, а "способность испытуемого" - это тело, которое мы взвешиваем. Понятно, что тело перевешивает более легкие гирьки 1 и 2, но уступает более тяжелой гирьке 3. Ну и понятно, что вес тела - это что-то среднее между весом гирьки 2 и гирьки 3.

Собственно на фото обложки этой статьи и изображены весы - как образ механизма, которые позволяет сравнивать между собой гирьки, а также сравнивать испытуемых - тоже ставить их на весы.

КОНСТУРИРОВАНИЕ ТЕСТОВ И ПРОЦЕНТИЛЬНЫЕ РАНГИ

А что такое конструирование тестов? - Это когда вес самих гирек вначале не известен (ну сделаны из не поймешь какого металла). Приходится что делать вначале? - Устраивать турнир между гирьками (между тестовыми заданиями) - класть их попарно на разные чашки весов и подсчитывать, сколько очков в этих "матчах" наберет та или иная гирька. Так выстраивается из гирек "порядковая шкала" - неважно, сколько граммов, но важно, что гирька 3 весит больше, чем гирьки 1 и 2.

После этого можем уже начать взвешивать испытуемых тоже и выясняем, что вес нашего первого испытуемого N1 лежит где-то между гирьками 2 и 3 - занимает определенное место (ранг) на порядковой шкале. Если у нас 10 гирек и какой-то испытуемый N2 обошел 8 из 10 гирек по весу, то его вес на порядковой шкале равен 80%. То есть, видите, как все просто понять теперь, когда у нас есть ОБРАЗ ШКАЛЫ!

А если у нас теперь 100 человек прошли "взвешивание" (тестирование), и какой-то испытуемый N3 оказался выше на шкале, чем 90% остальных, то в таком случае говорят, что N3 получает процентильных ранг 90%. Конечно, для тонкой дифференцировки весов 100 человек потребуется побольше гирек, чем 10. Но суть процесса аналогичная, если гирек у нас 50, например, Мы просто умственным взором теперь видим, откуда появляется тестовый процентильный балл, равный PR=90%. ТАК? Если измеряем вес в гирьках, то получаем ППО (процент правильных ответов), а если сравниваем с весом других испытуемых, то измеряем вес в процентилях PR. Понятно?

ТЕОРИЯ ТЕСТОВ И ФУТБОЛ

Три мои последние публикации на этом Дзен-канале "Думай Человек" посвящены футболу. Вы спросите: "А как у Вас уживаются такие разные интересы - к тестам и к футболу?" А я отвечу: "А это... опять про тестовую шкалу!".

Все дело в том, что нет таких "физических гирек", чтобы взвесить силу команд. Приходится устраивать их "матчи" между собой - класть на разные чаши весов уже "целые сборные команды из разных стран" (!). Та команда, которая перевесит всех остальных и называется "чемпионом". Так что различных схемы спортивных турниров (круговая, олимпийская) - это все разные системы "тестирования". Все это приложение единой математической теории тестов к определенной сфере - к спорту в данном случае.

Я обещал в заголовке статьи, что про футбол сегодня будет только "два слова"? - Я выполнил свое обещание, да? Хотя получилось даже немножко больше слов, но не намного, правда? :)

Фото обложки автор, как всегда, нашел в галерее Яндекс-картинки, куда оно попало с сайта violity.com

Образование

4,84 млн интересуются