5-Pro. ΠΠΎΡΠΎΡΠΊΠΎ ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈ - 30B ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², ΠΈΠ· Π½ΠΈΡ
3B Π°ΠΊΡΠΈΠ²Π½ΡΡ
- ΠΠ°ΡΠΎΡΠ΅Π½Π° ΠΏΠΎΠ΄ ΡΠ°ΡΡΡΠΆΠ΄Π΅Π½ΠΈΠ΅ Π½Π° ΠΎΡΠ΅Π½Ρ Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ°Ρ
- ΠΠΎΠ»Π½ΠΎΡΡΡΡ ΠΎΡΠΊΡΡΡΡ Π²Π΅ΡΠ°, ΠΊΠΎΠ΄ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΈ ΡΠ΅ΡΠ΅ΠΏΡΡ Π΄Π°Π½Π½ΡΡ
ΠΠ»ΡΡΠ΅Π²ΡΠ΅ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΠΈ: - +31.7 Π±Π°Π»Π»Π° Π½Π° OpenAI MRCR ΠΏΡΠΈ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ΅ 128K - SOTA ΡΡΠ΅Π΄ΠΈ Π²ΡΠ΅Ρ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ - ΠΠ° ΡΡΠΎΠ²Π½Π΅ Gemini-2.5-Pro Π½Π° 6 ΠΊΡΡΠΏΠ½ΡΡ
long-QA Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ°Ρ
- +9.69 Π½Π° CorpusQA - +6.16 Π½Π° LongBench-V2 Π§ΡΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎΠ³ΠΎ. 1. Π‘ΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ Π΄Π°Π½Π½ΡΠ΅ Π² ΠΌΠ°ΡΡΡΠ°Π±Π΅ 14.1K Π΄Π»ΠΈΠ½Π½ΡΡ
reasoning-ΡΡΠΌΠΏΠ»ΠΎΠ² ΠΈΠ· 9.2B ΡΠΎΠΊΠ΅Π½ΠΎΠ² Π±Π΅Π· ΡΡΡΠ½ΠΎΠΉ ΡΠ°Π·ΠΌΠ΅ΡΠΊΠΈ. Π‘ΡΠ΅Π΄Π½ΡΡ Π΄Π»ΠΈΠ½Π° - 34K ΡΠΎΠΊΠ΅Π½ΠΎΠ², ΠΌΠ°ΠΊΡΠΈΠΌΡΠΌ - 119K. 2. Π‘ΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎΠ΅ RL-ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ Π±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ ΠΈ Adaptive Entropy-Controlled Policy Optimization (AEPO), ΡΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎ ΠΎΠ±ΡΡΠ°ΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡΡ
. 3. ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° Ρ ΠΏΠ°ΠΌΡΡΡΡ ΠΡΠ΅ΡΠ°ΡΠΈΠ²Π½ΡΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΡ ΠΏΠ°ΠΌΡΡΠΈ Π·Π° ΠΏΡΠ΅Π΄Π΅Π»Π°ΠΌΠΈ ΠΎΠΊΠ½Π° 256K ΡΠΎΠΊΠ΅Π½ΠΎΠ². Π Π΅Π·ΡΠ»ΡΡΠ°Ρ - +9.48 Π±Π°Π»Π»Π° Π½Π° Π·Π°Π΄Π°ΡΠ°Ρ
Ρ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠΎΠΌ ΠΎΡ 1M Π΄ΠΎ 4M ΡΠΎΠΊΠ΅Π½ΠΎΠ². QwenLong-L1.5 - ΡΡΠΎ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΡΠ°ΠΌΡΡ
ΡΠΈΠ»ΡΠ½ΡΡ
open-source ΡΠ°Π³ΠΎΠ² Π² ΡΡΠΎΡΠΎΠ½Ρ ΡΠ΅Π°Π»ΡΠ½ΠΎ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΡΠ΅ΠΌΠΎΠ³ΠΎ ΡΠΈΠ·ΠΎΠ½ΠΈΠ½Π³Π° Ρ Π΄Π»ΠΈΠ½Π½ΡΠΌ
π ΠΡΡΠ΅Π» QwenLong-L1.5 - ΠΌΠΎΠ΄Π΅Π»Ρ Π΄Π»Ρ long-context reasoning, ΠΊΠΎΡΠΎΡΠ°Ρ Π½Π° Π΄Π»ΠΈΠ½Π½ΡΡ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ°Ρ ΠΊΠΎΠ½ΠΊΡΡΠΈΡΡΠ΅Ρ Ρ GPT-5 ΠΈ Gemini-2
3Β Π΄Π½ΡΒ Π½Π°Π·Π°Π΄3Β Π΄Π½ΡΒ Π½Π°Π·Π°Π΄
4
1 ΠΌΠΈΠ½