Найти в Дзене
A1ntelligence

Почему учителя больше не будут оценивать школьников

Многие в мире искусственного интеллекта сталкиваются с аббревиатурой PASSNYC: Data Science for Good (наука о данных на пользу). Она создана некоммерческой организацией PASSNYC, с целью помощи школьникам из штата Нью-Йорк в оценке потребностей, учащихся с использованием данных о проблемах с которыми они сталкиваются в школе. PASSNYC ищет школы, нуждающиеся в помощи и повышает успеваемость учащихся. Можно ли прогнозировать оценку успеваемости учащихся в государственных школах? В данных содержалось 4 уровня успеваемости : В данных было 160 функций / столбцов, состоящих из чисел и категорий. Обнаружено 4 разных типа групп: экономические, расовые, образовательные рейтинги и тесты. Особенности, принадлежавшие экономической группе, состояли из оценки доходов и индекса экономической потребности. Отношения между объектом и функциями Следующий шаг в анализе состоял поиске отношений, связанных с целью и функциями. Для этого создан график с несколькими участками плотности. Раскрашивая кривые (р
Оглавление

Многие в мире искусственного интеллекта сталкиваются с аббревиатурой PASSNYC: Data Science for Good (наука о данных на пользу). Она создана некоммерческой организацией PASSNYC, с целью помощи школьникам из штата Нью-Йорк в оценке потребностей, учащихся с использованием данных о проблемах с которыми они сталкиваются в школе. PASSNYC ищет школы, нуждающиеся в помощи и повышает успеваемость учащихся.

Можно ли прогнозировать оценку успеваемости учащихся в государственных школах?

В данных содержалось 4 уровня успеваемости :

  • Не достигнут
  • Приближение
  • Достижение
  • Превышение

В данных было 160 функций / столбцов, состоящих из чисел и категорий. Обнаружено 4 разных типа групп: экономические, расовые, образовательные рейтинги и тесты. Особенности, принадлежавшие экономической группе, состояли из оценки доходов и индекса экономической потребности.

Отношения между объектом и функциями

Следующий шаг в анализе состоял поиске отношений, связанных с целью и функциями. Для этого создан график с несколькими участками плотности. Раскрашивая кривые (рейтинг успеваемости учащихся), это показало, изменение в зависимости от рейтинга.

Значение индекса экономических потребностей составляет от 0 до 1. Показатели, ближе к 1 означали, что школа нуждается в помощи. Государственные школы с высоким индексом экономической потребности оценивались как «приближение к цели». А показатели более 0,8 имели «Достижение».

Разработка функций / выборка

Следующим шагом было внесение изменений в функции для оптимизации производительности моделей. Колонки с процентными значениями изменены с численного на порядковые с использованием кодирования от 0 до 3. Например, наблюдение, которое имеет значение 23% (0,23) для функции Percent Hispanic, было обновлено до значения 1, тогда как наблюдение, которое имеет 88% (0,88) для той же функции, было обновлено до значения 3.

Для функций, которые имели рейтинговые значения вероятности, использована кодировка:

  • Approaching Target - 1
  • Meeting Target - 2
  • Exceeding Target - 3

Индекс экономической потребности зависит от школ определенной расы. Государственные школы с высокой испаноязычной демографией (значение 3) считались более нуждающимися в финансах.

Выбор модели и тестирование

Создано четыре модели классификации:

  • Классификация случайная (RF)
  • Линейная поддержка векторной классификации (LSVC)
  • Гауссовский Байес (GNB)
  • Линейный дискриминантный анализ (LDA)

Чтобы оценить прогнозы моделей использован Micro F1 с усредненной оценкой. Он вычисляет количество ложных срабатываний и истинных положительных значений, вычисляет точность. Модель линейного дискриминантного анализа (LDA) имела наивысший показатель микро-F1 с 0,66 (более высокий уровень), используя 10-кратное перекрестное подтверждение. Модель Random Forest (RF) заняла второе место 0,62. Модель, с низкими результатами была гауссовой Naive Bayes (GNB), она опустилась ниже других. Важными показателями были средние баллы тестов как ELA, так и Math.

Заключение

Школы с более низким уровнем дохода нуждаются в улучшении. Если PASSNYC хочет предоставлять помощь, они должны смотреть на школы с экономической потребностью и с более высоким процентом меньшинств (темнокожий / испаноязычный). Экономический статус школы варьируется в зависимости от преобладающей расы. Анализ (LDA) хорошо зарекомендовал себя по сравнению с другими моделями. Если бы предоставленные Kaggle оставили без изменений, и они имели больше 100 функций, как это было изначально, то они бы могли бы повысить точность моделей. Например, размер школы или соотношение ученика и учителя. В любом случает, опыт показал, что возможность расчета помощи - эффективная и необходимая работа для повышения социального и экономического роста школ и учащихся.