Если выдастся пара свободных часов, которые планируется посвятить вдумчивому непростому чтению на техническую и супер-модную тему, у меня для вас есть хорошее предложение.

Стивен Вольфрам написал довольно длинный (да, на час-другой, вряд ли получится быстрее) и очень насыщенный текст о том, как устроены, обучаются и работают большие языковые модели (и ChatGPT в частности). От читателя не предполагается знаний математики, выходящих за пределы школьного курса, зато предполагается умение концентрироваться, внимательно читать и думать над не сразу понятными местами.

В целом, на мой взгляд, великолепный пример научно-популярного текста, который объясняет новое и одновременно ставит интереснейшие связанные вопросы про язык и человеческое мышление.

А еще важно обратить внимание, что при всей своей любви к математике и науке вообще, автор прекрасно понимает, что любые работающие штуки - это не только наука, и причины, по которым они работают, с точки зрения науки не обязательно понятны:)

Вот несколько показательных цитат:

…Particularly over the past decade, there’ve been many advances in the art of training neural nets. And, yes, it is basically an art…

К работающим алгоритмам вообще применим очень правильный инженерный принцип

It’s just that various different things have been tried, and this is one that seems to work — а не то, что есть научное обоснование, что делать следовало именно так:)

И, наконец, к огорчению сторонников предсказуемости мира:

there’s no “ultimate theoretical reason” why anything like this should work.

🙂

<div style="max-width: 480px;">What Is ChatGPT Doing … and Why Does It Work?</div>

writings.stephenwolfram.com

1 минута

18 февраля 2023