Национальные и международные тесты. Интерпретация и объяснение

Филипп Нейдж (Philip Nagy) является преподавателем и заместителем руководителя кафедры учебно-методического обеспечения, методики и учебной деятельности в Институте исследований в области образования Онтарио при Университете Торонто. Читает курсы по измерению и оцениванию. В прошлом президент Канадского общества исследований в области образования.

Сейчас образование является объектом большого внимания. Предполагается, что учителя должны уметь объяснять результаты различных внешних тестов и на их основе принимать соответствующие меры. В этой статье мы рассмотрим масштабные международные и национальные тесты.

В то же время, следует отметить, что многие из приведенных здесь соображений касаются меньших локальных программ тестирования, осуществляются на уровне штата, провинции или учебного округа. Автор использует примеры из Третьего международного исследования по оценке качества математического и естественнонаучного образования TIMSS (Third International Mathematics and Science Study, 1994-1995) и по Программе «Индикаторы измерения успешности в канадской школе» SAIP (Canadian School Achiev e ment Indicators Program).

Важнейшим признаком, по которому различаются тестовые программы, является их цель. Она заключается в индивидуальной диагностике или в обследовании групп учащихся. В групповых тестах школьных достижений иногда определяются индивидуальные оценки из широких предметных циклов, например по математике, однако для серьезной диагностики использовать эти показатели не рекомендуется. Такие индивидуальные баллы могут свидетельствовать о существовании проблемы, но несмотря на некоторые заявления компаний-издателей, они не обеспечивают достаточно информации для планирования дополнительных занятий по определенной теме, например добавления дробей. Эти тесты включают по несколько вопросов по различным темам учебной программы, тогда как диагностические тесты охватывают небольшой объем материала, обычно легче. Далее я бы хотел подробнее остановиться на тестах-обследованиях.

Инструментарий этих тестов не всегда позволяет определить индивидуальные оценки, и это не обязательно. К упомянутым масштабным программам - TIMSS и SAIP- привлекалась только определенная выборка учащихся, после чего делались выводы. В TIMSS индивидуальные оценки не имеют большого значения. Ведь разные ученики отвечали на различные вопросы, что позволяло подводить итоги по уровню знаний определенной темы для общей группы, а не отдельных ее представителей. Однако если вопрос для всех учащихся одинаковый, можно получить индивидуальные оценки. В некоторых случаях для таких тестов характерны «высокие ставки», учитывая то, какие последствия они влекут за собой для индивидуального лица (сдача экзамена или окончания школы).

В видеофильме, снятом с участием Говарда Гарднера, «Детская сообразительность и в чем она проявляется? Множественный интеллект (МИ) на уроке »(How Are Kids Smart? Multiple Intelligences (MI) in the Classroom. Port Chester, NY: National Professional Resources) приведены примеры оценивания, которое проводят сами учащиеся на основе критериев качества учреждения (когда на основе опубликованных результатов делаются выводы, благоприятные или нет, о качестве осуществляемого в нем обучения). Если акцент делается на соревновании, на том, кто кого победил, то больше внимания уделяется наименее информативным аспектам тестирования. Поэтому значимость и валидность таких сравнений ограничены.

Важными в масштабных тестах есть те данные, которые помогают объяснить различия в уровне знаний. Можно собирать информацию о методиках преподавания, условиях жизни учащихся, учебные планы и программы или другие переменные величины, которые в дальнейшем будут влиять на формирование политики. И чем больше таких данных, тем полезнее будет результат. Вместе с тем, проекты тестирования, охватывающие значительное количество детей, требуют больших временных и финансовых затрат, и нередко на момент довольно простого анализа время и средства заканчиваются. Как следствие, большой объем полезной информации остается неизученным. Поэтому она обычно недоступна специалистам, которые стремятся поднять уровень дискуссии и вывести ее за пределы состязательности. Делая акцент на сравнении показателей успешности, мы предполагаем, что все пытаются достичь одних и тех же целей. В то же время, на международном уровне существуют существенные различия в учебных планах и программах (курикулум). А значит главный вопрос заключается в том, изучали ли дети этот материал. Содержание международного исследования TIMSS не является «официальным» мировым курикулумом, оно просто охватывает материал, по которому 40+ стран пришли к согласию. Поэтому соответствие учебных планов и программ является существенным фактором. Например, в рамках учебного округа школы бедных городских районов ставят перед собой совершенно иные задачи, чем заведения благополучных пригородов. Безусловно, учебный материал, который проверяется в процессе масштабного тестирования, является важным. Но включение определенной темы к тесту не означает, что она автоматически становится важнее других составляющих программы.

Существуют также определенные ограничения по точности баллов, поскольку необходимо учитывать погрешность вследствие угадывания (когда речь идет о задачах множественного выбора), расхождения во взглядах оценщиков (в условиях использования различных форматов) и погрешность выборки (когда другая выборка учащихся получает иной балл). В сообщении результатов эти вопросы часто опускаются. Небольшие различия в баллах не свидетельствуют о реальных различиях в показателях успеваемости; результаты многих административных регионов в масштабных тестах следует считать совпадающими.

Как обстоят дела в Канаде? По разным составляющими TIMSS для учащихся в возрасте 13 лет среди 25-27 стран Канаду опередили 6-8 государств; еще в 5-8 странах показатели были подобные; и 8-13 стран были позади. Канаду стабильно опережают пять государств: Бельгия (Фламандский регион), Чешская Республика, Япония, Корея и Сингапур. Подобные или ниже показатели были в США, Новой Зеландии и двенадцати европейских странах.

Объяснить различия непросто. Некоторые страны вкладывают больше и получают худшие результаты, тогда как другие занимают высшие ступени при меньших инвестициях. Некоторые страны с централизованными учебными планами, программами и экзаменами достигают лучших показателей, но большинство нет. Некоторые уделяют больше времени математике и занимают более низкое место, а другие тратят меньше времени на это предметное направление и поднимаются выше. Вместе с тем, в большинстве развитых государств математику в 7 и 8 классах чаще, чем в Канаде, преподает специалист по этому предмету. То есть четкой тенденции не существует.

Итак, какой вывод можно сделать? Сокращение времени и финансовых затрат точно не поможет улучшить результаты. Но вполне вероятно, что их увеличение также ни к чему не приведет. Стоит прилагать больше усилий для обработки и понимания большого объема имеющихся данных. Полезная информация часто теряется под слоем соревновательной риторики.

Решение о содержании учебных планов и программ основываются на субъективных оценочных суждениях. В общем, достичь самых высоких в мире тестовых показателей было бы сложно, но возможно. В то же время, многим придется пожертвовать, и вопрос лишь в том, готовы ли мы к этому. В частности, желаем ли мы, чтобы наши дети дольше оставались в школе и пропускали кружки и секции? Захотим уменьшить количество академических часов для обществоведения или физкультуры? Пойдем на внедрение курикулума на основе заучивания и многочисленных однотипных практических задач, чтобы наши дети росли с такими же проблемами, которые на сегодняшний день волнуют японских и сингапурских чиновников? Готовы ли мы выделять ресурсы на серьезные программы подтягивания? Эти вопросы сейчас нуждаются в наших ответах.

Пособия по инклюзивному обучению и оборудование для инклюзивного образования (клавиатура с большими кнопками, джостик для детей с ДЦП, роллер для детей с ДЦП)

Назад к списку Следующий