! 🚀 Нашёл крутой проект для тех, кто хочет понять, как работает обучение больших языковых моделей на практике. Автор реализовал трансформер по мотивам Attention is All You Need, который можно обучить на одной GPU — будь то миллион или миллиард параметров! Это идеальный вариант для тех, кто хочет погрузиться в архитектуру моделей без мощных дата-центров. Особенно интересно, что в проекте есть подробные скрипты для скачивания и подготовки данных, а также разбор всего кода — от многоголовой внимательности до генерации текста. И да, с этим LLM можно уже создавать осмысленные тексты и даже начинать свои узкозадачные модели с небольшим числом параметров. Если хочешь научиться строить свои модели и тестировать их на реальных датасетах — этот репозиторий для тебя! #AI #DeepLearning #Transformer #ML #NLP #OpenSource #PyTorch #GitHub https://github.com/FareedKhan-dev/train-llm-from-scratch https://vlad1kudelko.github.io/