Найти в Дзене
Евгений Рудный

Возникаемость в работе БЯМов

Мой комментарий в Фейсбук к заметке Николая Розова. БЯМ = Большая Языковая Модель Непонятно, что такое семантика в отношении БЯМов. Согласно описанию БЯМов - это функции, которые при получении входа вычисляют выход и ничего другого там нет. Например, в свое время я читал описание работы БЯМов у Стивена Вольфрама. Насколько я понимаю, все остается на этом уровне, только туда добавляются определенные фильтры, чтобы ограничить выход. Вы по всей видимости смотрите с точки зрения пользователя, но лучше всего взглянуть с точки зрения того, как это сделано. Я в свое время программировал и тут есть определенное таинство. После записи программы появляется продукт со своим поведением. Но всегда можно было найти кусочек программы, который в случае необходимости можно было поменять для модификации поведения в необходимую сторону. Отличие технологии БЯМов в том, что это не алгоритм, а функция. То есть, в данном случае непонятно, что в этой функции требуется поменять, чтобы достичь поставленной цели

Мой комментарий в Фейсбук к заметке Николая Розова.

БЯМ = Большая Языковая Модель

Непонятно, что такое семантика в отношении БЯМов. Согласно описанию БЯМов - это функции, которые при получении входа вычисляют выход и ничего другого там нет. Например, в свое время я читал описание работы БЯМов у Стивена Вольфрама. Насколько я понимаю, все остается на этом уровне, только туда добавляются определенные фильтры, чтобы ограничить выход.

Вы по всей видимости смотрите с точки зрения пользователя, но лучше всего взглянуть с точки зрения того, как это сделано. Я в свое время программировал и тут есть определенное таинство. После записи программы появляется продукт со своим поведением. Но всегда можно было найти кусочек программы, который в случае необходимости можно было поменять для модификации поведения в необходимую сторону.

Отличие технологии БЯМов в том, что это не алгоритм, а функция. То есть, в данном случае непонятно, что в этой функции требуется поменять, чтобы достичь поставленной цели. Но это не меняет сути дела.

В данном случае следует начать с традиционной задачи ИИ - классификации. Для этого был факторный анализ, но он требовал нахождения сингулярных значений и при увеличении размерности задачи это становилось невозможных. Как тогда говорилось, тренировка нейронных сетей была аналогична проведению факторного анализа, только в такой форме, когда сингулярные вектора становились недоступными. Но по сути дела это было формой интерполяции между входами и выходами, использованными в ходе тренировки.

Должен признаться, что я не разбирался в деталях, но описание Стивена Вольфрама показывает, что все это остается примерно на таком же уровне. Мы видим интерполяцию между текстами использованными для тренировки. Можно согласиться, что результат оказался неожиданным, поскольку эта интерполяция выдает неплохие тексты, но не думаю, что это что-то меняет.

К теме: Сергей Шумский: Воспитание машин