Должен сказать, что я был чрезвычайно очарован мощью LLM после появления GitHub Co-pilot и OpenAI ChatGPT. У меня всегда была забавная идея построить очень маленькую языковую модель, которая тренируется на моих разговорах с моей девушкой, надеясь, что она сможет разговаривать с ней, когда меня нет, обманывая ее, что она разговаривает с настоящим мной, по крайней мере, в течение нескольких минут! Я попытался обучить некоторые модели, используя существующее программное обеспечение для этой цели, результаты были вдохновляющими, но недостаточно хорошими, чтобы обмануть мою девушку! С тех пор мне стало любопытно, как на самом деле работают эти модели, и, как всегда, я попытался изучить их, построив все с нуля. Когда я говорю «с нуля», я не имею в виду определение модели с использованием библиотеки глубокого обучения, такой как Tensorflow/PyTorch (или даже NumPy!). Я буквально хотел начать с абсолютного нуля, как будто единственное, что я хотел использовать, это операции с плавающей запятой