2359 подписчиков
Если выдастся пара свободных часов, которые планируется посвятить вдумчивому непростому чтению на техническую и супер-модную тему, у меня для вас есть хорошее предложение.
Стивен Вольфрам написал довольно длинный (да, на час-другой, вряд ли получится быстрее) и очень насыщенный текст о том, как устроены, обучаются и работают большие языковые модели (и ChatGPT в частности). От читателя не предполагается знаний математики, выходящих за пределы школьного курса, зато предполагается умение концентрироваться, внимательно читать и думать над не сразу понятными местами.
В целом, на мой взгляд, великолепный пример научно-популярного текста, который объясняет новое и одновременно ставит интереснейшие связанные вопросы про язык и человеческое мышление.
А еще важно обратить внимание, что при всей своей любви к математике и науке вообще, автор прекрасно понимает, что любые работающие штуки - это не только наука, и причины, по которым они работают, с точки зрения науки не обязательно понятны:)
Вот несколько показательных цитат:
…Particularly over the past decade, there’ve been many advances in the art of training neural nets. And, yes, it is basically an art…
К работающим алгоритмам вообще применим очень правильный инженерный принцип
It’s just that various different things have been tried, and this is one that seems to work — а не то, что есть научное обоснование, что делать следовало именно так:)
И, наконец, к огорчению сторонников предсказуемости мира:
there’s no “ultimate theoretical reason” why anything like this should work.
🙂
1 минута
18 февраля 2023