Для компьютера слова — это просто буквы. Набор символов. «Кот» и «собака» для него так же похожи, как «кот» и «квантовая физика». Но как тогда ChatGPT понимает, что «кот» и «котик» — почти одно и то же? Секрет в эмбеддингах. Представьте: вы объясняете инопланетянину, что такое «грусть».
Для него это просто 6 символов: г-р-у-с-т-ь. Ни эмоций, ни ассоциаций, ни связи с «печалью» или «тоской». Просто буквы в определённом порядке. Компьютер — тот же инопланетянин. Он видит символы, но не понимает смысла. Но как компьютер может понять, что слова похожи? Эмбеддинг (от английского embedding — «встраивание») — это способ превратить слово в набор чисел.
Но не просто в любые числа, а в координаты. Представьте карту города. У каждого дома есть адрес — широта и долгота. Два числа, которые точно указывают, где находится объект. Эмбеддинг — это такой же адрес, только для слов. Набор чисел, который показывает, «где» слово находится в пространстве смыслов. В реальности эмбеддинг — это список из сот