Π ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠΈ ΠΏΡΠΎΡΠ΅ΡΡΠΈΡΠΎΠ²Π°Π»ΠΈ 15 ΡΠΎΠΏ-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) Π½Π° 200 000+ ΡΠΈΠΌΡΠ»ΠΈΡΠΎΠ²Π°Π½Π½ΡΡ
ΡΠ°Π·Π³ΠΎΠ²ΠΎΡΠΎΠ². Π Π΅Π·ΡΠ»ΡΡΠ°Ρ: - ΠΠ΄ΠΈΠ½ Π·Π°ΠΏΡΠΎΡ β ~90% ΠΊΠ°ΡΠ΅ΡΡΠ²Π° - ΠΠ½ΠΎΠ³ΠΎΡΡΡΠΎΠ²ΡΠΉ Π΄ΠΈΠ°Π»ΠΎΠ³ β ~65% ΠΠ°ΠΆΠ½ΠΎ: Π΄Π΅Π»ΠΎ Π½Π΅ Π² Β«ΡΠΌΠ½ΠΎΡΡΠΈΒ» ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π‘ΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ ΡΠ΅ΡΠ°ΡΡ Π·Π°Π΄Π°ΡΠΈ ΡΠ½ΠΈΠ·ΠΈΠ»Π°ΡΡ Π²ΡΠ΅Π³ΠΎ Π½Π° ~15%. ΠΠ»Π°Π²Π½Π°Ρ ΠΏΡΠΎΠ±Π»Π΅ΠΌΠ° β Π½Π°Π΄ΡΠΆΠ½ΠΎΡΡΡ: ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΠΎΡΠΈΠ±ΠΎΠΊ ΠΈ ΡΠ±ΠΎΠ΅Π² Π²ΡΡΠΎΡΠ»ΠΎ Π½Π° 112%. ΠΠΎΡΠ΅ΠΌΡ Π΄ΠΈΠ°Π»ΠΎΠ³ Π»ΠΎΠΌΠ°Π΅Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ: - ΠΠΎΠ΄Π΅Π»Ρ Π½Π°ΡΠΈΠ½Π°Π΅Ρ ΠΎΡΠ²Π΅ΡΠ°ΡΡ Π΄ΠΎ ΡΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Π²Ρ Π΄Π°Π»ΠΈ ΠΏΠΎΠ»Π½ΡΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ - ΠΠ΅ΡΠ²ΠΎΠ΅ Π½Π΅Π²Π΅ΡΠ½ΠΎΠ΅ ΠΏΡΠ΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ Π·Π°ΠΊΡΠ΅ΠΏΠ»ΡΠ΅ΡΡΡ ΠΈ ΡΡΠ½Π΅ΡΡΡ Π΄Π°Π»ΡΡΠ΅ - Π’Π΅ΡΡΠ΅ΡΡΡ ΡΠ°ΡΡΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΈΠ· ΡΠ΅ΡΠ΅Π΄ΠΈΠ½Ρ ΡΠ°Π·Π³ΠΎΠ²ΠΎΡΠ° - ΠΠ»ΠΈΠ½Π½ΡΠ΅ ΠΎΡΠ²Π΅ΡΡ Π΄ΠΎΠ±Π°Π²Π»ΡΡΡ Π½ΠΎΠ²ΡΠ΅ Π΄ΠΎΠΏΡΡΠ΅Π½ΠΈΡ β ΡΠ°ΡΡΡΡ Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ ΠΎΡΠΈΠ±ΠΎΠΊ Π§ΡΠΎ Π½Π΅ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ: - reasoning-ΠΌΠΎΠ΄Π΅Π»ΠΈ (o3, DeepSeek R1) - Π±ΠΎΠ»ΡΡΠ΅ Β«thinking tokensΒ» - ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΠ° = 0 ΠΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΈΠΉ Π²ΡΠ²ΠΎΠ΄: ΠΡΠ»ΠΈ Π½ΡΠΆΠ½Π° ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎΡΡΡ, Π΄Π°Π²Π°ΠΉΡΠ΅ Π²Π΅ΡΡ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ, ΡΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ ΠΈ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½ΠΈΡ ΠΎΠ΄Π½ΠΈΠΌ ΡΠΎΠΎΠ±ΡΠ΅Π½ΠΈΠ΅ΠΌ, Π° Π½Π΅ ΡΠ΅ΡΠ΅Π· Π΄Π»ΠΈΠ½Π½ΡΡ ΠΏΠ΅ΡΠ΅ΠΏΠΈΡΠΊΡ. ΠΠΎΠ»ΡΡΠΈΠ½ΡΡΠ²ΠΎ Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠΎΠ² ΡΠ΅ΡΡΠΈΡΡΠ΅Ρ single-turn Π² ΠΈΠ΄Π΅Π°Π»ΡΠ½ΡΡ
ΡΡΠ»ΠΎΠ²ΠΈΡΡ
. Π ΡΠ΅Π°Π»ΡΠ½ΡΡ
Π΄ΠΈΠ°Π»ΠΎΠ³Π°Ρ
Π½Π°Π΄ΡΠΆΠ½
π Microsoft Research ΠΈ Salesforce ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ, ΠΎ ΠΊΠΎΡΠΎΡΠΎΠΉ ΡΠ΅Π΄ΠΊΠΎ Π³ΠΎΠ²ΠΎΡΡΡ: Π΄ΠΈΠ°Π»ΠΎΠ³ ΡΠ΅Π·ΠΊΠΎ ΡΠ½ΠΈΠΆΠ°Π΅Ρ Π½Π°Π΄ΡΠΆΠ½ΠΎΡΡΡ LLM
2Β Π΄Π½ΡΒ Π½Π°Π·Π°Π΄2Β Π΄Π½ΡΒ Π½Π°Π·Π°Π΄
14
~1 ΠΌΠΈΠ½