Отчет о пребывании делегации Федерального института педагогических измерений в США с 4 по 14 мая 2006 года 5 мая, г.Вашингтон, Американские Советы Совет колледжей SAT
Учебные материалы


Отчет о пребывании делегации Федерального института педагогических измерений в США с 4 по 14 мая 2006 года



ОТЧЕТ
о пребывании делегации Федерального института педагогических измерений
в США с 4 по 14 мая 2006 года
По приглашению Американских советов (American Councils) делегация Федерального института педагогических измерений за период пребывания в США (4-14 мая 2006 года) посетила г. Вашингтон (Американские советы, American Councils), г. Принстон (Службу образовательного тестирования, ETS - Educational Testing service) и г.Нью-Йорк (Совет колледжей, Сollege Board). В состав делегации входили: А.Г.Ершов, директор ФИПИ (руководитель делегации), В.Н.Шаулин, начальник Управления контроля качества образования Рособрнадзора, Г.С.Ковалева, зам. директора ФИПИ, С.В.Станченко, зам. директора ФИПИ, Л.О.Денищева, председатель ФПК по математике, И.П.Цыбулько, председатель ФПК по русскому языку, М.Зельман, консультант Американских Советов. Программа пребывания в США дается в приложении 1.
Основная цель визита делегации ФИПИ в США познакомиться с опытом американских коллег в области образовательного тестирования и оценки качества образования.
Ниже приводится краткое описание содержания работы делегации, основные выводы и рекомендации.

5 мая, г.Вашингтон, Американские Советы


После краткого приветствия Президента Американских Советов профессора Д.Дейвидсона и ответного выступления директора ФИПИ А.Г.Ершова работа российской делегации началась с презентации деятельности Совета колледжей по разработке тестов, используемых для отбора в вузы, с которой выступила Саrol Blythe, и.о. директора отдела международного образования Совета колледжей (Office of International Education, The College Board).

Совет колледжей

является ассоциацией средних школ (старшей ступени) – 60% членов, колледжей и университетов. Создан в 1900 году как группа колледжей, которая начала разработку стандартизированных процедур принятия абитуриентов в вузы на основе единого вступительного теста («College Boards»). В настоящее время Совет колледжей осуществляет деятельность по организации разработки и проведения тестов SAT; организации разработки программ AP (Advanced Placement Program), проведению тестов AP, оказанию помощи учителям в преподавании программ AP; по организации разработки программ и тестов для подготовки к сдаче SAT – PSAT/NMSQT.
Тесты SAT включают единый для всех тест SAT Reasoning Test (SAT-I), оценивающий критическое мышление учащихся, и предметные тесты SAT Subject Tests (SAT-II).
Тест SAT Reasoning Test сдают все поступающие в вузы1, независимо от того, по какой специальности они планируют получить образование. Он является единым для всех измерителем. Тест оценивает «умение логически мыслить, использовать слова и числа, применяя знания для решения задач по математике или анализируя и интерпретируя различные тексты». До 2005 года тест SAT-I включал 7 разделов, каждый из которых состоял из 10-30 заданий: 3 раздела на проверку словарного запаса и умения рассуждать и понимать прочитанный текст (70 мин); 3 раздела по математике (70 мин) – на проверку умения решать математические задачи (для решения требуется знание элементарных сведений из арифметики и алгебры, знание фактов о площадях, периметрах, объемах и некоторых других простейших положений элементарной геометрии); 1 раздел - экспериментальный2 (либо вербальный, либо математический) – 40 мин. Всего на выполнение теста отводилось 3 часа. Оценивается работа по 1000-балльной шкале (рабочая часть шкалы – 200-800 баллов). Отдельно выставляется балл за вербальную и математическую части теста.
Задания SAT-I составляются так, чтобы проверить (по замыслу составителей) не знания, полученные в школе, а умение мыслить.
С 2005 года введена новая более усложненная версия тестов SAT. В них появилась третья часть – сочинение, оценивающая грамотность письменной речи (добавилось 45 мин), увеличилась сложность некоторых задач по математике до уровня углубленного курса «Алгебры», введены задания с развернутым ответом.

Предметные тесты

SAT

Subject

Tests

используются для оценки освоения предметных знаний, а также умения применять их в незнакомых ситуациях, включающих практические. Эти тесты разрабатываются по 5 академическим областям: английский язык как родной (Письмо и Литература), история (История США, Мировая история), математика (1 и 2 уровня), естественнонаучные предметы (Биология, Химия, Физика) и иностранные языки (китайский язык (с аудированием), французский язык (с аудированием), немецкий язык (с аудированием), современный еврейский язык, итальянский язык, японский язык (с аудированием), корейский язык (с аудированием), латинский язык, испанский язык (с аудированием), английский язык как второй язык).
Содержание тестов не рассчитано на какую-либо программу обучения или определенный учебник, однако при их разработке учитываются образовательные стандарты, а также существующие наиболее распространенные программы и учебники.
Тесты SAT проводятся 7 раз в году по субботам в школах или специальных центрах. Используется несколько вариантов тестов для каждого тестирования и разных часовых поясов. Проверяемые умения одинаковые во всех тестах. Задания перемешиваются. Все варианты тестов связаны между собой. Результаты выдаются по единой шкале.
Для подготовки к тестированию можно использовать специальные публикации (SAT Preparation Booklet, SAT Subject Tests Preparation Booklet), которые имеются в каждой школе или на сайте Совета колледжей (см. Приложение 2).
Стоимость сдачи одного теста в 2005-06 учебном году SAT Reasoning Test - $41.50, SAT Subject Test -$26 (для одного предмета), $34 – для двух предметов и $42 для трех предметов.
Результаты тестирования можно получить по телефону через 10 дней за плату в $11, через 2,5 недели бесплатно на сайте и официально по почте. Сертификат действителен 5 лет3.
В последние годы широко обсуждается проблема эффективности тестов SAT. По мнению многих специалистов в США, тест SAT-I (сам по себе) не является эффективным средством прогнозирования успешности обучения в университете. Они считают, что тест эффективен только в комбинации с другой информацией, которая предоставляется при приеме в вуз, и без нее не может использоваться. В настоящее время элитные учебные заведения редко опираются исключительно на результаты тестов SAT. Стали считать, что важным является освоение учебной программы в школе, а также мотивация к учению. Они стали требовать одновременной сдачи тестов SAT-I и SAT-II по нескольким предметам и предъявления дополнительной информации об обучении в школе.

Программа

AP

дает возможность ученику средней школы начать изучение программ повышенного уровня по 20 учебным дисциплинам (всего по 35 различным программам). В зависимости от результатов экзамена студента, принятого в университет, могут освободить от изучения отдельных курсов или предложить их изучение на более высоком уровне. Более 60% американских школ осуществляют обучение по программам AP и сдачу экзаменов AP.
За последние годы разработаны программы и тесты AP по японскому языку (работа выполнена за счет японского гранта в 20 млн. дол.), китайскому языку (грант Китая в 29 млн. дол.) и русскому языку.
Совет колледжей ежегодно проводит 2,8 млн. человеко-тестирований по SAT; 3,1 млн. человеко-тестирований по PSAT и 2,3 млн. по AP).
Важной частью первого дня работы была встреча с Sara Mead, аналитиком по вопросам образовательной политики исследовательского центра Education Sector. Обсуждались проблемы, связанные с

особенностями американской системы образования и тестирования.


Контекст американского образования:

  • Управление системой образования осуществляется на трех уровнях (федеральном, на уровне отдельных штатов и отдельных территориальных единиц).

  • Система образования включает 50 штатов, 14000 школьных округов и 94000 школ.

  • Более 90% учащихся начальных и средних школ посещают государственные школы.

  • Состав учащихся: 60% белых, 17% афроамериканцев, 17% испаноамериканцев.

  • Каждый шестой ребенок из бедной семьи.

  • У каждого шестого ребенка английский язык не родной (дома говорят не на английском языке).

Тестирование в американских школах проводится по следующим направлениям:

  • диагностическое тестирование (для выявления детей, требующих оказания специальной помощи);

  • текущая оценка;

  • оценка достижения образовательных стандартов в штатах (Реформа «Ни одного отстающего, No child left behind»);

  • выпускные экзамены по окончанию средней школы, High School Exit Exams;

  • тесты AP после изучения углубленных курсов по отдельным школьным предметам, результаты которых учитываются при поступлении в престижные вузы;

  • вступительные экзамены в вузы (SAT и ACT), College Admission Tests;

  • сертификационные тесты (для различных профессий).

Основные цели образовательного тестирования:

  • выявить учащихся, требующих специальной помощи;

  • помочь родителям и учителям отслеживать обучение детей;

  • обеспечить отчетность и развитие школ (продемонстрировать качество школьного образования);

  • обеспечить отчетность учащихся (продемонстрировать овладение учебным предметом или готовность к обучению);

  • обеспечить равенство в образовании (обеспечить достижение всеми учащимися определенных уровней стандартов).

Основные проблемы в тестировании:

  • использование результатов тестирования (в соответствии с целями, для которых был разработан тест);

  • качество тестов;

  • обучение на тест;

  • тестирование и равенство;

  • принятие решения о том, что оценивается тестом.

Некоторая информация о качестве тестирования в рамках программы «Ни одного отстающего»:

  • За последние годы спрос на образовательное тестирование значительно увеличился в связи с программой «Ни одного отстающего». Стандарты штатов и стандартизированные тесты стали доминирующей частью образования. Весной 2006 года в рамках вышеприведенной программы протестирован каждый ученик с 3 по 8 класс, а также все ученики одной параллели старшей школы по математике и чтению (около 45 млн. человеко-тестирований).

  • В каждом штате используются свои стандартизированные тесты (50 штатов – 50 различных наборов тестов для реализации программы «Ни одного отстающего»).

  • Не хватает необходимых кадров и инфраструктур (Всего в стране действует 20 программ по подготовке специалистов в области педагогических измерений, которые выпускают ежегодно всего 100 специалистов).

  • Требования рынка, небольшой бюджет штатов на тестирование и жесткие временные рамки снижают его качество. Проблемы качества тестов: использование заданий, проверяющих низкий уровень усвоения, отсутствие выравнивания тестов, низкая точность измерений, несвоевременность представления результатов тестирования.

  • Для улучшения ситуации независимыми экспертами рекомендуется усилить роль федеральных структур, увеличить контроль за качеством тестирования и организовать сотрудничество штатов.

Какие уроки можно извлечь из опыта тестирования в США, по мнению американских коллег?

  • Для обеспечения равенства в образовании необходимы единые национальные стандарты.

  • Важным аспектом является качество тестов. Качественные тесты требуют значительного финансирования и их трудно разработать. Для обеспечения качества тестов необходимы ресурсы и достаточное время для разработки.

  • Важным аспектом является эффективность используемых шкал для предоставления результатов тестирования.

Во время командировки делегация посетила два университета: Университет Джорджа Вашингтона (негосударственный университет) в г. Вашингтон 5 мая (Thadissa Fulwood, заместитель директора офиса приема) и Городской университет Нью-Йорка (государственный университет) 11 мая (Ywona Kurij, заместитель директора офиса приема) с целью ознакомления с правилами приема в эти университеты.
Ниже приведено краткое описание особенностей приемы в американские университеты.
Документы во все университеты подаются в течение всего года, но обычно до 15 марта и 1 октября.

Документы, которые учитываются всеми вузами4 страны:


1. Результаты сдачи тестов SAT или ACT5.
2. Информация о школьной успеваемости поступающего. Выписка из школьного журнала об успеваемости учащегося (обычно за 4 года, не считая последний год).

Дополнительные документы, которые требуются при приеме в Университет Джорджа Вашингтона

6:

  1. Анкета поступающего, в которой приводится вся информация о поступающем и его родителях, братьях и сестрах; образовательных учреждениях, в которых он обучался; о предметах, которые изучаются в последний год, баллы по тестам SAT или ACT и TOEFL (только для тех учащихся, для которых английский не является родным), внеклассной деятельности и работе и др.

  2. Два эссе объемом не более 500 слов: в первом описывается, почему выбран именно этот университет; во втором – почему выбрано именно это направление обучения или специальность.

  3. Рекомендация учителей, в которой дается характеристика учащегося, сильные и слабые стороны личности, академические способности оценка академической мотивации, креативности, лидерства, чувства юмора, самооценки и др., (передается школой в запечатанном конверте).

  4. Рекомендация тьютора или классного руководителя, в которой дается рейтинг ученика в классе, приводятся его баллы по тестам SAT или ACT и TOEFL (только для тех учащихся, для которых английский не является родным), оценка академической мотивации, креативности, лидерства, чувства юмора, самооценки и др. (заполняется та же таблица, что и в рекомендации учителей), (передается школой в запечатанном конверте).

Портфолио, CD, видео принимаются только при поступлении на отделения изобразительного искусства.
При поступлении на все отделения, по завершению которых присваивается степень бакалавра или магистра, требуется предъявление сертификата о сдаче предметных тестов SAT.
Ни на одну из программ обучения не установлен проходной балл. С 2006 года принимают абитуриентов с суммарным баллом по трем частям теста SAT-I, лежащим в границах от 1860 до 2040 баллов. Не определен вес отдельных документов. Решение принимается на основе всего пакета документов.

Дополнительных документов при приеме в Городской университет Нью-Йорка не требуется.


Выписка из школьного журнала об успеваемости учащегося за 4 года требуется по пяти предметам: английский, математика, естествознание, иностранные языки и искусство). Учитывается средний балл по этим предметам.
Все данные о поступающих вводятся в компьютер и осуществляется независимый отбор. Только в случае пограничных данных, личные дела абитуриентов передаются на факультет для принятия решения. В этом случае могут быть запрошены рекомендации из школы или дополнительные сочинения.
После приема в университет все первокурсники, независимо от направления обучения, проходят тестирование по письму, чтению и математике. Единые тесты для всех направлений разрабатывают, проводят (все три теста в один день) и обрабатывают специалисты университета. По результатам тестирования корректируется программа обучения студента.

8 мая, г.Вашингтон, Американские Советы


Второй день работы делегации был посвящен обсуждению

вопросов организации и проведения национального мониторинга

NAEP

(National Assessment of Educational Progress). Американский опыт представляли Arnold Goldstein, сотрудник Национального Центра образовательной статистики Министерства образования США, и Howard Everson, исполнительный директор программы NAEP-ESSI.

Национальная программа мониторинга

NAEP

(National Assessment of Educational Progress), известная также как “Nation’s Report Card”, была создана по распоряжению Конгресса США в 1969 году для независимой оценки качества образования в стране в ответ на запуск советского спутника. (В 1965 г Форд передал правительству США 2,5 млн. долларов для создания мониторинговой программы.)
На протяжении более 35 лет в США регулярно проводятся мониторинговые исследования по чтению, математике, естествознанию, письму, а также другим предметам. С 1990 года результаты исследований представляются не только на уровне страны, но также по отдельным штатам.
Основная цель NAEP - оценить знания и умения американских школьников по ключевым предметным областям, а также оценить прогресс (динамику) в образовательных достижениях в течение времени.
В соответствии с целями NAEP имеет два направления исследований – основной мониторинг NAEP и лонгитьюдный мониторинг Long-term Trend NAEP.
Для основного мониторинга NAEP разрабатывается специальная концепция содержания оценки, которая пересматривается каждые 10 лет. Каждые два года проводится исследование по чтению и математике в 4, 8 и 12 классах на национальном уровне и в 4 и 8 классах на уровне штатов. Каждые 4 года проводится исследование по естествознанию и письму в 4, 8 и 12 классах на национальном уровне и в 4 и 8 классах на уровне штатов. По другим предметам исследования проводятся периодически.
Лонгитьюдный мониторинг Long-term Trend NAEP измеряет динамику образовательных достижений американских школьников по математике и чтению, используя частично задания и формат заданий, сохранившиеся с 1969 года для сравнения результатов. Исследования проводятся среди учащихся 9-ти, 13-ти и 17-ти лет. Начиная с 2004 года, результаты будут сообщаться стране каждые 4 года. В таблице представлен график проведения мониторинговых исследований NAEP.
Мониторинговые исследования проводятся на представительных выборках учащихся 4, 8 и 12 классов (по 10000 учащихся на предмет и класс). Результаты отдельным учащимся не выдаются. Участие школ и учащихся необязательное.
Концепцию оценки разрабатывает Комитет NAGB (National Assessment Governing Board), состоящий из 26 членов, назначенных министром образования. В состав комитета входят учителя, методисты, директора школ, родители, представители общественности, губернаторы, тестологи. Они определяют цель и содержание проверки, а также спецификацию теста.
От 40 до 45 штатов участвуют с проведении NAEP на уровне штатов (по 3000 учащихся на предмет и класс). С 2003 года по Акту 2001 года «Ни одного отстающего» каждый штат получает специальное федеральное финансирование для участия в мониторинге на национальном уровне и на уровне штата по математике и чтению в 4 и 8 классах, проводимом каждые 2 года (90 млн. долларов в год по 3 предметам по всем штатам). Школам, показавшим слабые результаты, оказывается финансовая помощь из федерального бюджета.
Таблица.
График проведения мониторинговых исследований NAEP

Год
Основной мониторинг NAEP
Лонгитьюдный мониторинг Long-term Trend NAEP

Национальный уровень
На уровне штатов

1990
Математика, естествознание, чтение
Математика (8)
Математика, естествознание, чтение, письмо

1992
Математика, чтение, письмо
Математика (4,8),
Чтение (4)
Математика, естествознание, чтение, письмо

1994
География, история США,
чтение
Чтение (4)
Математика, естествознание, чтение, письмо

1996
Математика, естествознание
Математика (4,8),
Естествознание (8)
Математика, естествознание, чтение, письмо

1997
Искусство (8)


1998
Чтение, письмо, граждановедение

Чтение (4,8),
Письмо (8)

1999
Математика, естествознание, чтение

2000
Математика, естествознание, чтение (4)
Математика (4,8),
Естествознание (4,8)

2001
История США, география


2002
Чтение, письмо

Чтение (4,8), письмо (4,8)

2003
Чтение (4,8), Математика(4,8)
Чтение (4,8), Математика(4,8)

2004

Математика, чтение

2005
Чтение, математика,
естествознание
Чтение (4,8), Математика (4,8), Естествознание (4,8)

2006
История США, Экономика (12), граждановедение

2007
Чтение (4,8),
Математика (4,8),
письмо (4,8)
Чтение (4,8),
Математика (4,8),
Письмо (4,8)

2008
Искусство (8)

Математика, чтение

2009
Чтение, Математика,
Естествознание
Чтение (4,8),
Математика (4,8),
Естествознание (4,8)

2010
Мировая история (12), география


Методология разработки инструментария и проведения исследования

  • Разработка концепции и спецификации теста - Комитет NAGB;

  • Разработка тестов и анкет – ETS;

  • Формирование выборки и проведение апробационного и основного исследования на представительных выборках – WESTAT (нанимает 3000 человек для проведения независимого тестирования);

  • Проверка выполнения заданий с развернутыми ответами – PEARSON, чаще всего в режиме он-лайн по отсканированным изображениям на компьютере (в основном по 4-балльной холистической, интегральной шкале: 4 балла - выдающийся ответ, 3 балла – удовлетворительный, 2 балла – частично правильный, 1 балл – минимальный уровень, 0 – неправильный).

  • Анализ результатов, подготовка отчетов – ETS. Отчет публикуется через 6 месяцев, поэтому нет времени на дополнительное шкалирование и выравнивание результатов. Поэтому тесты отрабатывается на представительных выборках за год до основного исследования, на что идет 1/3 всего бюджета. Отчеты обычно достаточно простые с минимально необходимой основной информацией (до 40 стр.). Вся остальная информация, включая технический отчет, представлена на сайте.

Проблемы и риски

:

Политические

: правительство не контролирует штаты, в связи с чем программы обучения и уровень образования различные, тесты не соответствуют программам штатов, что вызывает трудности при использовании результатов (это уменьшает участие регионов).

Технические

: за короткий срок трудно разработать и провести большое число тестирований, трудно создать инструментарий, оценивающий одинаковые конструкты при условии обучения по различным программам, сложная инфраструктура из нескольких организаций, информационная безопасность.

Финансовые

: Любые изменения и новые задачи требуют больших затрат. В настоящее время мониторинговые исследования финансируются полностью из федерального бюджета, мало спонсорских грантов.

Перспективы:

необходимы изменения в способах тестирования: компьютерное тестирование с интерактивной средой измерения, ориентация не на прогноз (SAT ошибается в 6-7 случаях из 10), а на критериальное тестирование, результаты которого описывают, что знает и не знает тестируемый, в чем ему можно помочь; разработка нового направления когнитивного тестирования.

9 мая, г.Принстон, Служба образовательного тестирования


Работа в Службе образовательного тестирования ETS (Educational Testing Service) началась со знакомства с организацией.

1. История и направления деятельности

ETS

,

Zoelene Hill, менеджер Глобального института Службы образовательного тестирования.
ETS (служба образовательного тестирования) – это одна из самых больших в мире частных организаций, занимающаяся разработкой тестов и оценкой образовательных достижений. Она поддерживает постоянную связь с родителями, учителями, учащимися, правительством, бизнесменами, средствами массовой информации и другими слоями общества.
Компания была создана в 1947 году, ее основателем был Генри Ченси. Девизом – лозунгом компании являются слова listening, learning, leading, выражающие идеологию всей работы компании:

слушать

(родителей, учащихся, широкие слои общественности, запросы современного этапа развития общества и пр.);
-

учиться

(тому, что нужно, что требует данный момент, мировому опыту);
-

быть лидером

, руководить разработками различных аспектов в области тестовых технологий.
ETS имеет представительства в 13 странах мира, разрабатывает около 2,5 тысяч тестов, более 800 специалистов заняты исследованиями (307 разработчиков тестов, 270 научных сотрудников, занимающиеся исследовательской работой, 260 аналитиков, работающих с данными тестирования). Основными направлениями работы являются:
1. Научные исследования
2. Разработка программ и инструментария для оценки образовательных достижений
3. Проведение тестирования (бланковых, компьютерных, через Интернет)
4. Проверка и оценка работ тестируемых (более 64 тысячи работ в день)
5. Разработка методических материалов и оказание услуг
Ежегодно ETS проводит до 24 млн. человеко-тестирований в более 180 странах мира.

2. Процесс разработки и создания тестов

, Esther Tesar, специалист в области оценки образовательных достижений.
Разработка тестов включает 9 этапов:

  1. планирование теста (цели теста, что и как измеряется, как оценивается тест, интерпретация оценки, кто и что делает и т.п.)

  2. отбор комитета, определяющего идеологию разработки теста и основные параметры инструментария;

  3. составление и экспертиза заданий;

  4. апробация отдельных вопросов;

  5. анализ результатов апробации;

  6. экспертиза и корректировка вопросов;

  7. сборка (компоновка) теста;

  8. печатание теста;

  9. Проведение тестирования;

  10. Предварительный анализ результатов;

  11. Окончательный анализ результатов.

3. Надежность и валидность тестирования

, Michael Zieky, директор отдела оценки образовательных достижений.
Презентация была посвящена вопросам разработки характеристик (надежность; валидность), показывающих качество теста. При этом были даны определения указанных характеристик и рассмотрены математические модели подсчета значений надежности теста.
Важным аспектом, представленным в докладе, явилось описание отдельных путей увеличения надежности, определение «длины» теста, обеспечивающей заданную надежность результатов тестирования. Надежность 0,8 для аттестации школы специалистами ETS считается удовлетворительным результатом, но не для индивидуальной оценки учащихся на экзаменах (должна быть не менее 0,9).
Большое внимание было уделено понятию валидности, показано изменение взглядов на эту характеристику; рассмотрены пути, обеспечивающие конструктную валидность теста (самую важную с современной точки зрения).

4. Проблемы справедливого тестирования и дифференцированное функционирование заданий

, Fred Robin, специалист в области разработки тестов.
Указанная в докладе проблема – обеспечение справедливого тестирования – одна из важнейших и обсуждаемых всеми проблем. Это обусловлено тем, что США – это многонациональная страна, в которой проживают люди, имеющие различные обычаи, взгляды, привычки, различный уровень достатка и т.п. Поскольку результаты тестирования играют важную роль в жизни общества (отбор в учебные заведения, отбор при устройстве на работу и пр.), то составители тестовых заданий чувствуют особую ответственность при отборе материала для конструирования заданий. В ходе предварительных проверок отбираются и впоследствии включаются в тесты только те задания, которые не вызывают дискриминации участников тестирования.

5. Разработка и создание тестов, основанных на доказательствах,

Russel Almond, старший научный сотрудник.
Одна из проблем, которая постоянно встает при разработке тестовых заданий, - это обеспечение доказательства того, что данным заданием проверяется владение именно тем умением, которое обозначено в целях проверки. Докладчик показал модель разработки заданий и тестов, основанной на приведении доказательствах.

10 мая, г.Принстон, Служба образовательного тестирования


Основной темой дня была «Оценка выполнения практических заданий» (

performance

assessment

, далее в тексте

РА

)7. Беседу вела

Андреа Ферси

, старший администратор Национальной программы оценки прогресса в области образования.
Круг вопросов, затронутых в рамках обсуждения данной проблемы:

  1. проблемы терминологического единства в рамках обсуждаемой проблемы;

  2. положительные и отрицательные стороны внедрения технологии оценки РА;

  3. оптимальная модель проверки подобных заданий;

  4. что значит хороший ответ экзаменуемого в формате РА;

  5. возможные модели оценки портфолио.

Основным научным посылом обсуждения перечисленных вопросов явился тезис о том, что опыт ETS в области РА может быть использован только с учётом специфики системы образования в каждой стране.
При обсуждении первого вопроса Андреа Ферси подчеркнула, что в работе по оценке знаний, умений и навыков тестируемых важны единые подходы. Система критериев оценки должна быть точной, чёткой и включать в себя все требования задания. При этом критерии должны следовать в том порядке, в котором их проще оценить.
Эксперты оценивают различные по форме задания: открытый вопрос, вопрос по руководству, незаконченное утверждение, эссе. Стимулировать к созданию ответа может карта, графика, чтение текстов.
В процессе дискуссии были обсуждены положительные и отрицательные стороны внедрения РА. Как положительные отмечались следующие моменты:

  • ответы обладают большей достоверностью;

  • ответ более точно отражает личностные характеристики экзаменуемого;

  • с помощью задания РА можно оценить те способности, которые нельзя оценить другими видами заданий;

  • ответы нельзя угадать.

С другой стороны, как отрицательные отмечены следующие стороны:

  • проверка работ более продолжительна по времени и дороже стоит;

  • ответы могут быть разнообразными и непредсказуемыми;

  • на оценку может повлиять субъективность эксперта;

  • на результаты влияют способности к чтению и письму;

  • эти виды работ более уязвимы с точки зрения информационной безопасности.

Подобные отрицательные стороны можно частично компенсировать, если четко спланировать эту работу. Члены делегации ФИПИ согласились с докладчиком в том, что, прежде всего, необходимо:

  • чётко сформулировать цель проверки;

  • убедиться в том, что критерии оценки соответствуют формулировке задания;

  • определить содержание, которое будет оцениваться. Количество вопросов должно отражать оцениваемое содержание;

  • необходимо оценивать значимую, важную информацию, а не второстепенные факты;

  • в случае необходимости оценки нескольких областей знания или способностей в рамках одного теста следует группировать вопросы на несколько групп и результаты соотносить;

  • вопросы не должны быть знаниевоориентированы и в чём- то обманывать экзаменуемых.

В ходе обсуждения был проведён обмен мнениями по поводу разнообразных видов (типов) заданий. Специалист Национального института оценки прогресса в области образования отметила, что в практике тестирования используются различные виды (эссе, запись на диске, компьютерная программа, спектакль) и типы заданий:

  • задания с очень ограниченным кратким свободным ответом

( «Завершите предложение», «Исправьте предложение…»;

  • задания с ограниченным свободным ответом ( «Упростите предложение…», «Опишите ситуацию или событие», « Скомпонуйте информацию графически, используя данные из текстов» и др.);

  • открытое задание («Что вы думаете о предмете и почему?», «Проанализируйте ситуацию и выскажите мнение о развитии событий», «Прочитайте речь Линкольна и отметьте важные пункты его послания. Сравните их с решениями, которые он принял во время гражданской войны.»;

  • задания более высокого уровня сложности, требующие длительного исполнения ( интервью, устные презентации; проекты (индивидуальные или групповые), эксперименты (демонстрации)- проведение экспериментов и описание полученных данных.

Особый интерес для делегации ФИПИ представляла оценка портфолио, к разработке которой сотрудникам только предстоит.

Портфолио – один из самых сложных для оценки видов работы. Портфолио содержит образцы работ учащихся, отобранные преподавателем или самим студентом, замечания преподавателя, самооценка ученика, примечания, сделанные учителем и учеником. Объём и содержание потфолио могут отличаться. Учащийся вправе выбирать для портфолио тот вариант работы, который он считает более удачным. Если цель – показать прогресс учащегося во времени, то тогда в портфолио включаются показатели на разных этапах работы. Если в портфолио включается проект, то там должны содержаться полные записи всех действий ученика, планы, чертежи, исправления. В ходе обсуждения были рассмотрены две модели портфолио.
При формировании портфолио учащийся должен ответить на вопросы:

  1. Что ты выбрал для своего портфолио? Почему именно эти работы ты отобрал для портфолио?

  2. Какую часть портфолио ты мог бы назвать лучшей?

  3. Как бы ты изменил недостаточно хорошие части твоей работы?

  4. Приведи доказательства своего роста на примере материалов портфолио.

11 мая, г.Принстон, Служба образовательного тестирования


В соответствии с программой работа делегации продолжалась по следующим направлениям:

1. Система оценки ответов тестируемых в режиме он-лайн,

Phillip Servis, координатор по проверке ответов.
Для проверки и оценки работ тестируемых разработана веб-система (Online Scoring Network, OSN), позволяющая экспертам удаленно со своих рабочих мест вносить результаты проверки работ в единую базу, размещенную на сервере. Режим работы экспертов зависит от конкретного теста. Например, эксперт может работать дома, а может сидеть в специальном помещении. В OSN поддерживается разграничение прав пользователей, обеспечивается аутентификация и авторизация при входе в систему. Эксперт перед началом работы подписывает соглашение о соблюдении конфиденциальности (на бумаге).
OSN включает

несколько разделов

, вход в которые осуществляется под разными логинами и паролями:

  • Информационный раздел, в том числе, описание программы тестирования, спецификации заданий, критерии проверки, описание всех градаций оценки, инструкции по проверке работ, инструкции по работе в OSN и выставлению оценок, требования к компьютеру.

  • Раздел для проверки работ и выставления оценок экспертом. Здесь эксперту предлагаются изображения работ тестируемых (сканированные) и возможность либо выставить оценку за работу (для каждой оценки своя кнопка), либо «отложить в сторону» (кнопка и последующий выбор из меню причины, по которой работа откладывается). Бланк работы можно рассматривать более крупно с помощью инструмента «лупа».

Причины, по которым откладываются работы, следующие: не по теме, плохой почерк, плохое изображение, «не могу прочитать», «обсудить с лидером группы проверяющих», эмоциональный контент, списанная работа, другое. Под «эмоциональным контентом» понимаются упоминания тестируемого о намерении совершить убийство, суицид или нечто подобное. Если причина отложенности работы устранена (например, эксперт обсудил работу с лидером) ее можно вернуть в категорию проверяемых и выставить оценку.

  • Раздел для операторов и лидеров групп проверки. Здесь размещены сводные таблицы, отражающие ход проверки. Таблица по экспертам включает сведения о том, сколько работ проверено каждым экспертом, сколько всего работ проверено, отложено, не проверено. По каждому эксперту можно посмотреть сводную таблицу по проверенным им работам, которая включает: дату и время проверки, оценку, оценку при повторной проверке, контрольную оценку.

Наличие и процент повторной проверки зависит от программы тестирования. Например, в SAT повторная проверка обязательна. При несовпадении оценок двух экспертов в один балл работу проверяет третий, имеющий более высокую квалификацию. При наличии большого числа несовпадений у одного эксперта с остальными, его могут отстранить от проверки.
Контрольная проверка проводится в рамках мероприятий по обеспечению безопасности при тестировании. Проверяется примерно 10% работ.

Варианты использования OSN


  • Сертификация экспертов

    . Она проводится по следующей схеме: эксперту предлагается 50 работ, проверенных заранее (т.е. с эталонными оценками). Проверяемое задание и критерии проверки могут отличаться от задания и критериев, с которыми эксперту предстоит работать. В качестве параметра, определяющего квалификацию эксперта, используется процент работ, по которым оценка эксперта в точности совпадает с эталонной оценкой. Чтобы пройти сертификацию, эксперту необходимо выставить совпадающие с эталонными оценки не менее чем в 60% работ. Если эксперт не участвует в проверке работ 3 или более месяцев, то он должен повторно пройти сертификацию.

  • Калибровка экспертов

    . Проводится в день проверки перед ее началом. Процедура аналогична сертификации. Отличия: 1) эксперту дается 10 работ вместо 50, 2) в случае несовпадения оценок лидер группы проверяющих проводит инструктаж с экспертом, а затем процедура калибровки повторяется. (Для примера, на TOEFL на одного лидера группы проверки приходится 12 экспертов).

  • Проверка работ

    . Это реальная проверка работ тестируемых.

Последнее изменение этой страницы: 2018-09-09;


dommodels.ru 2018 год. Все права принадлежат их авторам! Главная