Найти тему
102,4 тыс подписчиков

Привет, Хабр! Меня зовут Татьяна Шаврина, я — лид команды NLP в Институте AIRI. Мы исследуем большие языковые модели и развиваем методы на стыке ИИ и лингвистики. В этом посте я собрала золотые, на мой взгляд, публикации, которые рассказывают о проблемах языковых моделей.


🔹 Интересная статья про масштабирование языковых моделей и закон Мура. Нейросети требуют больших вычислительных мощностей. Что будет дальше, если отмасштабировать наш прогресс? В статье классно описаны три расхожих утверждения об ИИ. Перед прочтением рекомендую посмотреть это видео, так как по тексту автор пытается разобраться, что из сказанного там правда.

🔹 Проблемы современного машинного обучения — системное описание, позволяющее быстро понять, какие ограничения встречаются на пути разработки моделей сейчас. Для NLP можно придумать ещё много всего, зато тут масса актуального для LLM.

🔹 Подробная статья про обучение самой большой модели для русского языка — YaLM на 100 млрд параметров. Хорошо написано о том, как модель обучалась и ускорилась в два раза. Хотя, конечно, хочется увидеть бенчмарк-метрики на прикладных задачах.

С командой в прошлом году поучаствовали в создании самой большой open-source языковой модели на 176 млрд параметров и 59 языков мира, BLOOM. Как исследователи мы занимаемся оценкой и интерпретацией LLM. Именно многоязычная аналитика результатов BLOOM — наша часть в международном проекте на 400+ авторов.

Мы работаем и над тем, чтобы масштабировать языковые модели на все языки мира, ведь сейчас они обучаются, в основном, на самых популярных. На Хабре постараемся больше рассказывать о малых языках России, с которыми работаем.

🔸 Сам себя не похвалишь… Хочу тут поделиться и своей статьёй про подходы zero-shot и few-shot в генерации, а также о том, как готовить генеративные модели, чтобы без обучения решать различные прикладные задачи. В институте мы используем zero-shot- и few-shot-методы для фундаментальных исследований. Нам интересно, как сделать определённую технологию с применением этих методов для малых языков России и какие задачи вообще можно решать с их помощью.

🔸 А ещё статья — пересказ работы Франсуа Шолле: как оценивать самые разные интеллектуальные системы и почему мы всё ещё не можем адекватно измерить интеллект. Рекомендую главу о том, что ожидать от идеального теста ИИ, и про первую попытку сделать такой тест. В прошлом году проводили с коллегами воркшоп по этой же теме. Надеемся сделать ещё мероприятия, посвящённые нашим направлениям исследований, — будем держать в курсе!

В AIRI мы часто работаем с «мышлением» нейросетей: исследуем логику моделей и смотрим, противоречит ли она теоретическому представлению о языке. Наши исследования позволяют понять, как учёные структурируют понимание о мире. Скоро расскажем об этом на Хабре, а также о том, как нейросети ищут информацию и обрабатывают данные. Подписывайтесь и следите за обновлениями!
Привет, Хабр! Меня зовут Татьяна Шаврина, я — лид команды NLP в Институте AIRI. Мы исследуем большие языковые модели и развиваем методы на стыке ИИ и лингвистики.
2 минуты
339 читали