48 тыс подписчиков

Дуглас Хэвен: «Никто толком не знает, почему работают большие языковые модели»

Большие языковые модели ведут себя так, как, согласно учебникам математики, вести себя не должны. Несмотря на успех технологии глубокого обучения, никто точно не знает, как и почему она работает, сообщает в редакционной колонке MIT Technology Review. А некоторые принципы обучения искусственного интеллекта противоречат классической статистике. В результате возникают такие необъяснимые эффекты как «двойной спуск». В этом случае ИИ-модели удается избежать проблем с обобщением данных, которые должны неизбежно возникать с увеличением ее параметров. Если ученым удастся создать фундаментальную теорию глубокого обучения, это позволит сделать ИИ-технологии более предсказуемыми и эффективными.

https://hightech.plus/2024/03/10/duglas-heven-nikto-tolkom-ne-znaet-pochemu-rabotayut-bolshie-yazikovie-modeli

Дуглас Хэвен: «Никто толком не знает, почему работают большие языковые модели» Большие языковые модели ведут себя так, как, согласно учебникам математики, вести себя не должны.

Около минуты

11 марта 2024