Найти тему
2808 подписчиков

Мехрдад Фараджтабар из Apple опубликовал новое исследование о возможностях крупных языковых моделей (LLM) в области логического рассуждения.


В своем последнем препринте Фараджтабар и его команда изучают, могут ли LLM-модели, такие как Llama, Phi, Gemma и Mistral, а также последние модели OpenAI GPT-4o и o1-series, действительно рассуждать или они просто являются продвинутыми сопоставителями шаблонов.

Исследователи создали новый тестовый набор данных GSM-Symbolic, чтобы проверить пределы математических рассуждений LLM. Результаты показывают, что, хотя модели демонстрируют высокую точность на стандартных тестах, их производительность сильно варьируется и снижается при увеличении сложности задач.

Фараджтабар отмечает, что понимание истинных возможностей LLM в области рассуждений критически важно для их безопасного и надежного применения в реальных сценариях, таких как системы ИИ-безопасности, образования и здравоохранения.


Гайд по оплате Нейросетей
Мехрдад Фараджтабар из Apple опубликовал новое исследование о возможностях крупных языковых моделей (LLM) в области логического рассуждения.
Около минуты