Новое исследование показало, что для качественной оценки ИИ-моделей трёх-пяти оценок на один пример часто недостаточно. Авторы работы также пришли к выводу, что на итог влияет не только общий бюджет разметки, но и то, как он распределён между числом примеров и числом оценщиков. В исследованиях ИИ человеческие оценки часто определяют, какая модель показывает лучший результат. Люди, например, отмечают, является ли комментарий токсичным или безопасен ли ответ чат-бота. Проблема в том, что оценщики нередко расходятся во мнениях. Обычная практика — собрать по каждому примеру три-пять оценок и выбрать один «правильный» ответ по большинству. По словам авторов, такой подход… Подробнее