Авторы: Янош Перцель, Джин Чоу и Дороттия Демски
Аннотация
Перспективы генеративного ИИ революционизировать образование ограничены педагогическими ограничениями больших языковых моделей (LLM). Одной из основных проблем является отсутствие доступа к высококачественным учебным данным, отражающим обучение реальных студентов. Разработка подсказок стала временным решением, но способность подсказок кодировать сложные педагогические стратегии на естественном языке, основанном на правилах, изначально ограничена. Чтобы восполнить этот пробел, мы представляем TeachLM – программу LLM, оптимизированную для обучения посредством эффективной настройки параметров современных моделей. Обучение TeachLM проводится на базе данных, состоящей из 100 000 часов индивидуальных лонгитюдных взаимодействий студентов с преподавателями, поддерживаемых Polygence, которая прошла строгий процесс анонимизации для защиты конфиденциальности. Мы используем эффективную тонкую настройку параметров для разработки аутентичной модели учащегося, позволяющей генерировать высококачественные синтетические диалоги между учащимся и преподавателем. Основываясь на этой возможности, мы предлагаем новый протокол многовариантной оценки, который использует генерацию синтетических диалогов для обеспечения быстрой, масштабируемой и воспроизводимой оценки диалоговых способностей студентов магистратуры права (LLM). Наши оценки показывают, что тонкая настройка на основе аутентичных данных обучения значительно повышает эффективность разговорной и педагогической деятельности: время, отводимое учащимся на обсуждение, удваивается, улучшается стиль вопросов, количество реплик в диалоге увеличивается на 50%, а обучение становится более персонализированным.
1 Введение
В своём основополагающем исследовании 1984 года педагог-психолог Бенджамин Блум продемонстрировал, что индивидуальное обучение может дать прирост знаний, на два стандартных отклонения превышающий показатель традиционного обучения в классе. Учитывая высокую стоимость персонализированного обучения, появление генеративного ИИ вселило надежду на масштабирование эффективного индивидуального обучения для учащихся по всему миру. Однако, несмотря на быстрое внедрение инструментов ИИ, таких как ChatGPT, Gemini и Claude, миллионами учащихся, эти технологии пока не оправдали ожиданий. Например, недавнее исследование Пенсильванского университета показало, что неограниченный доступ к GPT-4 для репетиторства по математике может негативно сказаться на результатах обучения. Аналогичным образом, исследование Массачусетского технологического института показало, что у участников, обучавшихся у LLM, наблюдалось значительное снижение мозговых связей и им было трудно цитировать ответы, написанные ими всего несколько минут назад.
Фундаментальная проблема программ LLM заключается в том, что они оптимизированы для работы в качестве «полезных помощников», которые максимизируют производительность и минимизируют когнитивные затраты. Это контрастирует с естественными трудностями, которые опытные преподаватели вносят в процесс обучения (например, скрывая правильный ответ и побуждая студентов сначала попробовать ответить). Эффективное обучение также требует динамической адаптации к психологическому состоянию учащихся, а не использования шаблонных учебных программ. Эта тенденция к минимизации трений и подхалимскому поведению, ставящая подчинение выше педагогики, систематически заложена в параметрах модели посредством контролируемой тонкой настройки и обучения с подкреплением на основе обратной связи с человеком (RLHF). Эти процессы основаны на наборах данных, создаваемых людьми-аннотаторами, которым поручено давать ответы, максимально полно раскрывающие тему при минимизации количества реплик в диалоге.
Пригодные к использованию LLM можно в определенной степени направить в сторону улучшения педагогики посредством разработки подсказок, но одни только подсказки не могут решить фундаментальных проблем. Никакой ограниченный набор правил или инструкций, каким бы сложным он ни был, не может охватить всю сложность и нюансы высококачественной педагогики, которая обязательно адаптируется к разнообразию учащихся, учебным контекстам и целям студентов. Мы столкнулись с этими ограничениями лично, пытаясь создать проектный репетитор — Polypilot — с помощью GPT-4, где итеративное уточнение подсказок приводило к бесконечному циклу всё более сложных инструкций в ответ на новые сценарии и экстремальные случаи. Подобные педагогические ограничения сохраняются даже в самых современных программах магистратуры права (LLM), ориентированных на образование, включая режим обучения Anthropic, режим обучения OpenAI и управляемое обучение Google (интегрированное с LearnLM). Например, сталкиваясь с замешательством учащихся, эти модели обычно по умолчанию перефразируют проблему, а не диагностируют её первопричину. Аналогичные проблемы возникают и в симуляторах учащихся, разработанных с помощью подсказок, которым, как правило, не хватает аутентичности и разнообразия, необходимых для представления всего спектра учебных персон.
Модели постобучения на основе данных, специфичных для предметной области, в последнее время привели к быстрому прогрессу в достижении уровня человеческого уровня в ряде областей, включая программирование, юриспруденцию и науку. Этот прогресс стал возможным благодаря наличию большого количества высококачественных обучающих данных, созданных людьми-аннотаторами, которые придерживаются четко определенных стандартов качества. Мы ожидаем, что аналогичный прогресс будет возможен и в сфере образования при наличии достаточного количества обучающих данных и четко определенных метрик успеха. Недавно команда LearnLM из Google продемонстрировала, что контролируемая тонкая настройка LLM на синтетических данных может улучшить их результаты по ряду образовательных эталонов. Постобучение LLM в сфере образования особенно важно, учитывая, что моделирование эффективного педагогического поведения по своей сути предполагает наличие как опытного преподавателя, так и реального обучающегося. Без доступа к реалистичной модели учащегося — будь то высокоточный симулятор или реальные учащиеся (последние сложно масштабировать и они этически проблематичны), — бенчмаркинг моделей кандидатов в учителя серьезно ограничен. Постоянная проблема для моделей посттренингового образования — нехватка достоверных данных об обучении, полученных от преподавателей и студентов, из-за логистических барьеров, защиты конфиденциальности и опасений по поводу качества данных. Более того, люди-аннотаторы не могут достоверно имитировать активные процессы обучения студентов или воспроизводить практику работы опытных преподавателей без взаимодействия с реальными учащимися, что делает сбор таких данных по запросу особенно сложным. Чтобы устранить эти ограничения, исследователи из Массачусетского технологического института, Университета Карнеги-Меллона и Корнеллского университета при поддержке Фонда Гейтса, Инициативы Чан-Цукерберг и Национального научного фонда запустили Национальную обсерваторию репетиторства. Цель инициативы — собрать и опубликовать миллион данных о взаимодействии преподавателей и студентов для разработки инструментов репетиторства на основе ИИ. Хотя это важный шаг на пути к устранению критической нехватки данных об образовании, для полной реализации потенциала моделей посттренингового образования в образовании потребуется дополнительная работа. В этом предварительном отчёте мы представляем исследование, посвящённое программам LLM, прошедшим обучение в сфере образования, на основе данных платформы Polygence, включающих более 100 000 часов индивидуальных проектных занятий между преподавателями-аспирантами и студентами по более чем 150 предметам (рис. 1). Данные были собраны в соответствии с условиями использования и политикой конфиденциальности платформы, включая отказы участников, и прошли строгий процесс анонимизации для защиты конфиденциальности. Используя этот набор данных, мы дорабатываем высокоточную модель студентов для сравнительного анализа передовых LLM по шести многовариантным диалоговым и педагогическим оценкам. Мы также дорабатываем модель преподавателей TeachLM и демонстрируем, что она значительно превосходит стандартные модели по этим показателям. Наши основные достижения заключаются в следующем:
- Мы разрабатываем процесс транскрибирования, ведения дневника и очистки однодорожечных аудиозаписей для получения высококачественных диалоговых данных для посттренинговой обработки.
- Мы показываем, что данные студентов позволяют обучать аутентичные модели студентов, которые необходимы для масштабируемой и воспроизводимой оценки педагогических способностей преподавателей LLM.
- Мы сравниваем готовых преподавателей LLM с преподавателями-людьми в шести оценочных исследованиях, ориентированных на образование, выявляя систематические различия в показателях разговорной речи и вовлеченности.
- Мы показываем, что параметрически эффективная тонкая настройка современных преподавателей LLM на основе аутентичных данных обучения существенно повышает их педагогическую эффективность.
В заключение мы описываем ограничения нашего текущего подхода и определяем дальнейшие шаги по совершенствованию процесса посттренинговой обработки и оценке его эффективности.
7. Заключение
В данном техническом отчете мы проанализировали фундаментальные ограничения разработки программ LLM с использованием оперативного проектирования для образования и обозначили важность посттренинговых моделей передового опыта на основе аутентичных данных обучения. Мы представили новую структуру для проведения многоэтапной оценки программ LLM с использованием точно настроенной модели студентов, обученной на аутентичных данных студентов. Мы использовали нашу структуру для количественной оценки разрыва между моделями передового опыта и репетиторами-людьми по шести речевым и педагогическим критериям. Мы также показали, что тонкая настройка на основе аутентичных данных репетиторов улучшила эффективность моделей передового опыта по всем нашим критериям.
8. Перспективы
В этом предварительном отчете основное внимание уделялось контролируемой настройке передовых моделей, что является лишь первым шагом в процессе постобучения магистров права. Воодушевленные этими предварительными результатами, мы теперь сосредоточены на реализации всех преимуществ постобучения посредством обучения с подкреплением на основе обратной связи с человеком (RLHF), что является естественным следующим шагом, учитывая доступность аутентичных обучающих диалогов с участием людей.
Наши первоначальные усилия были сосредоточены на установлении простых, измеримых контрольных показателей, описанных в этом отчете, но необходимы более сложные оценки, чтобы охватить все богатство человеческой педагогики. В частности, мы будем уделять первоочередное внимание созданию контрольных показателей, отражающих нюансы лонгитюдного взаимодействия между студентами и преподавателями. Такие типы взаимодействия возможны только в течение длительных периодов времени и имеют решающее значение для установления взаимопонимания и достижения ощутимых результатов обучения.
Мы также отмечаем, что оценки в этом отчете были сосредоточены на масштабируемых и автоматизированных процессах и (ограниченной) обратной связи от не обучающихся. Наша цель — масштабировать и количественно оценить отзывы студентов о фактической эффективности моделей путем включения обученных моделей в процесс обучения студентов на платформе Polygence.