10,3 ΡΡΡ ΠΏΠΎΠ΄ΠΏΠΈΡΡΠΈΠΊΠΎΠ²
π OpenMathInstruct-2: ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΈ Π½Π°Π±ΠΎΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΡ NVIDIA.
OpenMathInstruct-2 ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· 14 ΠΌΠ»Π½. ΠΏΠ°Ρ "Π²ΠΎΠΏΡΠΎΡ-ΡΠ΅ΡΠ΅Π½ΠΈΠ΅" (ΠΏΡΠΈΠΌΠ΅ΡΠ½ΠΎ 600 ΡΡΡΡΡ ΡΠ½ΠΈΠΊΠ°Π»ΡΠ½ΡΡ
Π²ΠΎΠΏΡΠΎΡΠΎΠ²) ΠΈ ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΊΡΡΠΏΠ½Π΅ΠΉΡΠΈΡ
ΠΎΠ±ΡΠ΅Π΄ΠΎΡΡΡΠΏΠ½ΡΡ
Π½Π°Π±ΠΎΡΠΎΠ² Π΄Π°Π½Π½ΡΡ
Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ LLM Π² ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ΅.
ΠΠ°Π±ΠΎΡ Π΄Π°Π½Π½ΡΡ
ΡΠΎΠ·Π΄Π°Π½ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Llama-3.1-405B-Instruct ΠΏΡΡΠ΅ΠΌ ΡΠΈΠ½ΡΠ΅Π·Π° ΡΠ΅ΡΠ΅Π½ΠΈΠΉ Π΄Π»Ρ ΡΡΡΠ΅ΡΡΠ²ΡΡΡΠΈΡ
Π²ΠΎΠΏΡΠΎΡΠΎΠ² ΠΈΠ· Π½Π°Π±ΠΎΡΠΎΠ² Π΄Π°Π½Π½ΡΡ
MATH ΠΈ GSM8K ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ Π½ΠΎΠ²ΡΡ
Π·Π°Π΄Π°Ρ ΠΈ ΡΠ΅ΡΠ΅Π½ΠΈΠΉ.
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π°Π±Π»ΡΡΠΈΠΎΠ½Π½ΡΡ
ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ Π΄Π»Ρ ΠΏΠΎΠΈΡΠΊΠ° ΠΎΠΏΡΠΈΠΌΠ°Π»ΡΠ½ΡΡ
ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΡΠΈΠ½ΡΠ΅Π·Π°, ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, ΡΡΠΎ:
π’ΡΠΎΡΠΌΠ°Ρ ΡΠ΅ΡΠ΅Π½ΠΈΡ ΠΈΠΌΠ΅Π΅Ρ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅, ΠΏΡΠΈΡΠ΅ΠΌ ΡΡΠ΅Π·ΠΌΠ΅ΡΠ½ΠΎ ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΡΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΡ Π½Π΅Π³Π°ΡΠΈΠ²Π½ΠΎ ΡΠΊΠ°Π·ΡΠ²Π°ΡΡΡΡ Π½Π° ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ;
π’Π΄Π°Π½Π½ΡΠ΅, ΡΠ³Π΅Π½Π΅ΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ ΡΠΈΠ»ΡΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΡΡ-ΡΡΠΈΡΠ΅Π»Π΅ΠΌ, ΠΏΡΠ΅Π²ΠΎΡΡ
ΠΎΠ΄ΡΡ ΠΏΠΎ ΠΊΠ°ΡΠ΅ΡΡΠ²Ρ Π΄Π°Π½Π½ΡΠ΅, ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΠΎΡ Π±ΠΎΠ»Π΅Π΅ ΡΠ»Π°Π±ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ;
π’ΠΏΡΠΎΡΠ΅ΡΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΡΡΡΠΎΠΉΡΠΈΠ² ΠΊ Π½Π°Π»ΠΈΡΠΈΡ Π΄ΠΎ 20% ΡΠ΅ΡΠ΅Π½ΠΈΠΉ Π½ΠΈΠ·ΠΊΠΎΠ³ΠΎ ΠΊΠ°ΡΠ΅ΡΡΠ²Π°;
π’ΡΠ°Π·Π½ΠΎΠΎΠ±ΡΠ°Π·ΠΈΠ΅ Π²ΠΎΠΏΡΠΎΡΠΎΠ² ΠΈΠΌΠ΅Π΅Ρ ΡΠ΅ΡΠ°ΡΡΠ΅Π΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π΄Π»Ρ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π΄Π°Π½Π½ΡΡ
.
ΠΡΠΎΠ³ΠΎΠ²ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅, Π²ΠΊΠ»ΡΡΠ΅Π½Π½ΡΠ΅ Π² Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΏΡΠΎΡΠ»ΠΈ ΡΡΠ°ΡΠ΅Π»ΡΠ½ΡΡ Π΄Π΅ΠΊΠΎΠ½ΡΠ°ΠΌΠΈΠ½Π°ΡΠΈΡ Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅ΡΠ° lm-sys ΠΈ ΡΡΡΠ½ΠΎΠΉ ΠΏΡΠΎΠ²Π΅ΡΠΊΠΈ Π½Π° ΠΏΠΎΠΈΡΠΊ Π΄ΡΠ±Π»ΠΈΠΊΠ°ΡΠΎΠ² Ρ ΡΠ΅ΡΡΠΎΠ²ΡΠΌΠΈ Π½Π°Π±ΠΎΡΠ°ΠΌΠΈ Π΄Π°Π½Π½ΡΡ
.
OpenMathInstruct-2 ΠΏΠΎΠΊΠ°Π·Π°Π» Π²ΡΡΠΎΠΊΡΡ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ ΠΏΡΠΈ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ LLM.
ΠΠΎΠ΄Π΅Π»Ρ Llama3.1-8B-Base, ΠΎΠ±ΡΡΠ΅Π½Π½Π°Ρ Π½Π° OpenMathInstruct-2, ΠΏΡΠ΅Π²Π·ΠΎΡΠ»Π° Llama3.1-8B-Instruct Π½Π° 15,9% ΠΏΠΎ ΡΠΎΡΠ½ΠΎΡΡΠΈ Π½Π° Π½Π°Π±ΠΎΡΠ΅ Π΄Π°Π½Π½ΡΡ
MATH, Π° OpenMath2-Llama3.1-70B ΠΎΠ±ΠΎΡΠ»Π° Llama3.1-70B-Instruct Π½Π° 3,9%.
ΠΠ°ΡΠ°ΡΠ΅Ρ Π²ΡΠΏΡΡΠ΅Π½ Π² 3-Ρ
ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΡΡ
: ΠΏΠΎΠ»Π½ΡΠΉ Π½Π°Π±ΠΎΡ (ΠΏΡΠΈΠΌΠ΅ΡΠ½ΠΎ 7.5 GB) ΠΈ ΡΠΌΠ΅Π½ΡΡΠ΅Π½Π½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ train_1M (640 Mb), train_2M (1.3 Gb) ΠΈ train_5M (3.1 Gb).
βΆοΈ ΠΠΎΠ΄Π΅Π»ΠΈ, Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½Π½ΡΠ΅ Π½Π° ΡΡΠΎΠΌ Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅:
π OpenMath2-Llama3.1-70B, Π² ΡΠΎΡΠΌΠ°ΡΠ΅ Nemo, ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½Π½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ GGUF (ΠΎΡ 3-bit Π΄ΠΎ 8-bit);
π OpenMath2-Llama3.1-8B, Π² ΡΠΎΡΠΌΠ°ΡΠ΅ Nemo, ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½Π½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ GGUF (ΠΎΡ 2-bit Π΄ΠΎ 8-bit).
πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ Π΄Π°ΡΠ°ΡΠ΅ΡΠ° : CC-BY-4.0 License.
πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: Llama 3.1 Community License.
π‘Arxiv
π‘ΠΠ°ΡΠ°ΡΠ΅Ρ
#AI #ML #LLM #MATH #NVIDIA #Dataset
1 ΠΌΠΈΠ½ΡΡΠ°
10Β ΠΎΠΊΡΡΠ±ΡΡΒ 2024