Найти Π² Π”Π·Π΅Π½Π΅
МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

πŸ“Œ Microsoft Research ΠΈ Salesforce ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Ρ€Π΅Π΄ΠΊΠΎ говорят: Π΄ΠΈΠ°Π»ΠΎΠ³ Ρ€Π΅Π·ΠΊΠΎ сниТаСт Π½Π°Π΄Ρ‘ΠΆΠ½ΠΎΡΡ‚ΡŒ LLM

Π’ исслСдовании протСстировали 15 Ρ‚ΠΎΠΏ-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) Π½Π° 200 000+ симулированных Ρ€Π°Π·Π³ΠΎΠ²ΠΎΡ€ΠΎΠ². Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚: - Один запрос β†’ ~90% качСства - ΠœΠ½ΠΎΠ³ΠΎΡ‚ΡƒΡ€ΠΎΠ²Ρ‹ΠΉ Π΄ΠΈΠ°Π»ΠΎΠ³ β†’ ~65% Π’Π°ΠΆΠ½ΠΎ: Π΄Π΅Π»ΠΎ Π½Π΅ Π² «умности» ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π‘ΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ снизилась всСго Π½Π° ~15%. Главная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° β€” Π½Π°Π΄Ρ‘ΠΆΠ½ΠΎΡΡ‚ΡŒ: количСство ошибок ΠΈ сбоСв выросло Π½Π° 112%. ΠŸΠΎΡ‡Π΅ΠΌΡƒ Π΄ΠΈΠ°Π»ΠΎΠ³ Π»ΠΎΠΌΠ°Π΅Ρ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ: - МодСль Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΎΡ‚Π²Π΅Ρ‡Π°Ρ‚ΡŒ Π΄ΠΎ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Π²Ρ‹ Π΄Π°Π»ΠΈ ΠΏΠΎΠ»Π½Ρ‹ΠΉ контСкст - ΠŸΠ΅Ρ€Π²ΠΎΠ΅ Π½Π΅Π²Π΅Ρ€Π½ΠΎΠ΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ закрСпляСтся ΠΈ тянСтся дальшС - ВСряСтся Ρ‡Π°ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· сСрСдины Ρ€Π°Π·Π³ΠΎΠ²ΠΎΡ€Π° - Π”Π»ΠΈΠ½Π½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π΄ΠΎΠ±Π°Π²Π»ΡΡŽΡ‚ Π½ΠΎΠ²Ρ‹Π΅ допущСния β†’ растёт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ошибок Π§Ρ‚ΠΎ Π½Π΅ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚: - reasoning-ΠΌΠΎΠ΄Π΅Π»ΠΈ (o3, DeepSeek R1) - большС Β«thinking tokensΒ» - Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° = 0 ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ Π²Ρ‹Π²ΠΎΠ΄: Если Π½ΡƒΠΆΠ½Π° ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ, Π΄Π°Π²Π°ΠΉΡ‚Π΅ вСсь контСкст, трСбования ΠΈ ограничСния ΠΎΠ΄Π½ΠΈΠΌ сообщСниСм, Π° Π½Π΅ Ρ‡Π΅Ρ€Π΅Π· Π΄Π»ΠΈΠ½Π½ΡƒΡŽ пСрСписку. Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΎΠ² тСстируСт single-turn Π² ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… условиях. Π’ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³Π°Ρ… Π½Π°Π΄Ρ‘ΠΆΠ½

πŸ“Œ Microsoft Research ΠΈ Salesforce ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Ρ€Π΅Π΄ΠΊΠΎ говорят: Π΄ΠΈΠ°Π»ΠΎΠ³ Ρ€Π΅Π·ΠΊΠΎ сниТаСт Π½Π°Π΄Ρ‘ΠΆΠ½ΠΎΡΡ‚ΡŒ LLM.

Π’ исслСдовании протСстировали 15 Ρ‚ΠΎΠΏ-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) Π½Π° 200 000+ симулированных Ρ€Π°Π·Π³ΠΎΠ²ΠΎΡ€ΠΎΠ².

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚:

- Один запрос β†’ ~90% качСства

- ΠœΠ½ΠΎΠ³ΠΎΡ‚ΡƒΡ€ΠΎΠ²Ρ‹ΠΉ Π΄ΠΈΠ°Π»ΠΎΠ³ β†’ ~65%

Π’Π°ΠΆΠ½ΠΎ: Π΄Π΅Π»ΠΎ Π½Π΅ Π² «умности» ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π‘ΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ снизилась всСго Π½Π° ~15%.

Главная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° β€” Π½Π°Π΄Ρ‘ΠΆΠ½ΠΎΡΡ‚ΡŒ: количСство ошибок ΠΈ сбоСв выросло Π½Π° 112%.

ΠŸΠΎΡ‡Π΅ΠΌΡƒ Π΄ΠΈΠ°Π»ΠΎΠ³ Π»ΠΎΠΌΠ°Π΅Ρ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

- МодСль Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΎΡ‚Π²Π΅Ρ‡Π°Ρ‚ΡŒ Π΄ΠΎ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Π²Ρ‹ Π΄Π°Π»ΠΈ ΠΏΠΎΠ»Π½Ρ‹ΠΉ контСкст

- ΠŸΠ΅Ρ€Π²ΠΎΠ΅ Π½Π΅Π²Π΅Ρ€Π½ΠΎΠ΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ закрСпляСтся ΠΈ тянСтся дальшС

- ВСряСтся Ρ‡Π°ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· сСрСдины Ρ€Π°Π·Π³ΠΎΠ²ΠΎΡ€Π°

- Π”Π»ΠΈΠ½Π½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π΄ΠΎΠ±Π°Π²Π»ΡΡŽΡ‚ Π½ΠΎΠ²Ρ‹Π΅ допущСния β†’ растёт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ошибок

Π§Ρ‚ΠΎ Π½Π΅ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚:

- reasoning-ΠΌΠΎΠ΄Π΅Π»ΠΈ (o3, DeepSeek R1)

- большС «thinking tokens»

- Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° = 0

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ Π²Ρ‹Π²ΠΎΠ΄:

Если Π½ΡƒΠΆΠ½Π° ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ, Π΄Π°Π²Π°ΠΉΡ‚Π΅ вСсь контСкст, трСбования ΠΈ ограничСния ΠΎΠ΄Π½ΠΈΠΌ сообщСниСм, Π° Π½Π΅ Ρ‡Π΅Ρ€Π΅Π· Π΄Π»ΠΈΠ½Π½ΡƒΡŽ пСрСписку.

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΎΠ² тСстируСт single-turn Π² ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… условиях.

Π’ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³Π°Ρ… Π½Π°Π΄Ρ‘ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠ°Π΄Π°Π΅Ρ‚ Ρƒ всСх ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ это ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½ΠΎ для AI-Π°Π³Π΅Π½Ρ‚ΠΎΠ² ΠΈ ΠΏΡ€ΠΎΠ΄Π°ΠΊΡˆΠ΅Π½Π°.

https://arxiv.org/abs/2505.06120