Test reliability — одна из характеристик теста, показатель его качества. Тест считается надёжным, если при его выполнении похожие группы сдающих в одних и тех же условиях демонстрируют одинаковые результаты, даже если меняются те, кто этот тест оценивает. Надёжный тест также должен давать схожие результаты при повторном прохождении, если уровень подготовки испытуемых остается неизменным. Если вы проводите один и тот же тест в двух группах одного возраста и уровня, но результаты кардинально отличаются, то у этого теста low reliability.
Есть понятие reliability coefficient, коэффициент надёжности. Он показывает, насколько хорошо тест выполняет свою функцию. Идеальный коэффициент надёжности равен единице. Более высокий коэффициент указывает на то, что тест дает стабильные результаты в различных условиях. Значения выше 0,9 считаются отличными, а с 0,8 до 0,9 — хорошими. Надёжность можно проверить следующими способами:
1. test-retest reliability. Один и тот же тест проводится дважды с некоторым интервалом и должен показать сходные результаты. У использования этого метода в преподавании есть очевидные недостатки: мало какоуму ученику понравится писать один и то же тест дважды. Какие-то ответы ученики запомнят, а что-то наоборот может вылететь у них из головы. Поэтому чаще используется так называемый split-half method. Тест делится на две половины, которые ученики выполняют отдельно. Это может быть сделано различными способами, например, по чётным и нечётным вопросам.
2. mark-remark reliability. Тест проверяется двумя разными экспертами. Затем результаты сравниваются для определения уровня согласованности.
3. alternate version reliability. Это важный аспект для всех тестов "по вариантам". Мы создаём две или более версии теста, которые содержат похожие, но не идентичные вопросы. Эти версии должны быть одинаковыми по сложности и содержанию. Ученики проходят обе версии теста, и результаты сравниваются для определения степени корреляции между ними.