1 неделю назад
Benchmark для искусственного интеллекта: почему даже лучшие модели не дотягивают до 70% точности
Знаете, сколько всяких тестов создано для оценки нейросетей? Вагон и маленькая тележка. Есть бенчмарки для кода, есть для следования инструкциям, есть для веб-серфинга и работы с инструментами. Но вот что странно: почти все они измеряют, может ли модель выполнить задачу, а не то, насколько правдивой будет её ответ. То есть генерирует ли она объективно верную информацию, особенно когда это касается графиков, диаграмм и изображений. А ведь в юриспруденции, финансах и медицине точность это вообще святое...