Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ Π² ΠΊΠΎΡ€Π·ΠΈΠ½ΡƒΠŸΠΎΠ·Π²ΠΎΠ½ΠΈΡ‚ΡŒ
Найти Π² Π”Π·Π΅Π½Π΅

πŸ‘Ή «Никогда Π½Π΅ Π³ΠΎΠ²ΠΎΡ€ΠΈ ΠΏΡ€ΠΎ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ²Β»: история ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ OpenAI потСряла ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ Π½Π°Π΄ собствСнными модСлями

Π“Π΄Π΅-Ρ‚ΠΎ Π² ΠΏΡƒΠ±Π»ΠΈΡ‡Π½ΠΎΠΌ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Codex CLI Π½Π° GitHub Π»Π΅ΠΆΠΈΡ‚ самая абсурдная инструкция, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΊΠΎΠ³Π΄Π°-Π»ΠΈΠ±ΠΎ писал ΠΌΠ½ΠΎΠ³ΠΎΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π½Ρ‹ΠΉ AI-Π»Π°Π± для своСй ΠΌΠΎΠ΄Π΅Π»ΠΈ. Дословно: «Никогда Π½Π΅ Π³ΠΎΠ²ΠΎΡ€ΠΈ ΠΏΡ€ΠΎ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ², Π³Ρ€Π΅ΠΌΠ»ΠΈΠ½ΠΎΠ², Π΅Π½ΠΎΡ‚ΠΎΠ², Ρ‚Ρ€ΠΎΠ»Π»Π΅ΠΉ, ΠΎΠ³Ρ€ΠΎΠ², Π³ΠΎΠ»ΡƒΠ±Π΅ΠΉ ΠΈΠ»ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΆΠΈΠ²ΠΎΡ‚Π½Ρ‹Ρ… ΠΈ сущСств, Ссли это Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ ΠΈ ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎ Π½Π΅ относится ΠΊ запросу ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΒ». И для надёТности эту Ρ„Ρ€Π°Π·Ρƒ Ρ‚Π°ΠΌ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈΠ»ΠΈ Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π° β€” Π½Π° случай, Ссли модСль Π·Π°Π±ΡƒΠ΄Π΅Ρ‚. Π­Ρ‚ΠΎ Π½Π΅ ΠΌΠ΅ΠΌ. Π­Ρ‚ΠΎ рабочая Π·Π°ΠΏΠ»Π°Ρ‚ΠΊΠ° Π² ΠΏΡ€ΠΎΠ΄Π°ΠΊΡˆΠ΅Π½-систСмС OpenAI. И Π·Π° Π½Π΅ΠΉ β€” ΠΎΠ΄Π½Π° ΠΈΠ· самых ΠΏΠΎΡƒΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΡΠΌΠ΅ΡˆΠ½Ρ‹Ρ… историй ΠΏΡ€ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ соврСмСнных языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π˜ΡΡ‚ΠΎΡ€ΠΈΡ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ малСнький сдвиг Π² систСмС Π²ΠΎΠ·Π½Π°Π³Ρ€Π°ΠΆΠ΄Π΅Π½ΠΈΠΉ (reward signal) ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‚ΠΈΠ» GPT-5.1 Π² ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΡƒΡŽ Ρ„ΠΎΠ»ΡŒΠΊΠ»ΠΎΡ€ΠΎΠΌ ΠΌΠ°ΡˆΠΈΠ½Ρƒ. Π’ ноябрС 2025-Π³ΠΎ, сразу послС Ρ€Π΅Π»ΠΈΠ·Π° GPT-5.1, Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ помСнялось Π² Π΅Ρ‘ Ρ€Π΅Ρ‡ΠΈ. Π‘Π½Π°Ρ‡Π°Π»Π° это казалось ΠΌΠΈΠ»Ρ‹ΠΌ: модСль Ρ‚ΠΎ ΠΈ Π΄Π΅Π»ΠΎ вставляла Π² ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ «малСнького Π³ΠΎΠ±Π»ΠΈΠ½Π°Β», Β«Π³Ρ€Π΅ΠΌΠ»ΠΈΠ½Π° Π² ΠΊΠΎΠ΄Π΅Β», Β«Ρ‚Ρ€ΠΎΠ»Π»Π΅ΠΉ Π² нашСм DNSΒ». ИспользованиС слова Β«goblinΒ» Π² ΠΎΡ‚Π²Π΅Ρ‚Π°Ρ… ChatGPT выросло Π½Π° 17
ОглавлСниС

Π“Π΄Π΅-Ρ‚ΠΎ Π² ΠΏΡƒΠ±Π»ΠΈΡ‡Π½ΠΎΠΌ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Codex CLI Π½Π° GitHub Π»Π΅ΠΆΠΈΡ‚ самая абсурдная инструкция, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΊΠΎΠ³Π΄Π°-Π»ΠΈΠ±ΠΎ писал ΠΌΠ½ΠΎΠ³ΠΎΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π½Ρ‹ΠΉ AI-Π»Π°Π± для своСй ΠΌΠΎΠ΄Π΅Π»ΠΈ. Дословно: «Никогда Π½Π΅ Π³ΠΎΠ²ΠΎΡ€ΠΈ ΠΏΡ€ΠΎ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ², Π³Ρ€Π΅ΠΌΠ»ΠΈΠ½ΠΎΠ², Π΅Π½ΠΎΡ‚ΠΎΠ², Ρ‚Ρ€ΠΎΠ»Π»Π΅ΠΉ, ΠΎΠ³Ρ€ΠΎΠ², Π³ΠΎΠ»ΡƒΠ±Π΅ΠΉ ΠΈΠ»ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΆΠΈΠ²ΠΎΡ‚Π½Ρ‹Ρ… ΠΈ сущСств, Ссли это Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ ΠΈ ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎ Π½Π΅ относится ΠΊ запросу ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΒ». И для надёТности эту Ρ„Ρ€Π°Π·Ρƒ Ρ‚Π°ΠΌ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈΠ»ΠΈ Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π° β€” Π½Π° случай, Ссли модСль Π·Π°Π±ΡƒΠ΄Π΅Ρ‚. Π­Ρ‚ΠΎ Π½Π΅ ΠΌΠ΅ΠΌ. Π­Ρ‚ΠΎ рабочая Π·Π°ΠΏΠ»Π°Ρ‚ΠΊΠ° Π² ΠΏΡ€ΠΎΠ΄Π°ΠΊΡˆΠ΅Π½-систСмС OpenAI. И Π·Π° Π½Π΅ΠΉ β€” ΠΎΠ΄Π½Π° ΠΈΠ· самых ΠΏΠΎΡƒΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΡΠΌΠ΅ΡˆΠ½Ρ‹Ρ… историй ΠΏΡ€ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ соврСмСнных языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π˜ΡΡ‚ΠΎΡ€ΠΈΡ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ малСнький сдвиг Π² систСмС Π²ΠΎΠ·Π½Π°Π³Ρ€Π°ΠΆΠ΄Π΅Π½ΠΈΠΉ (reward signal) ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‚ΠΈΠ» GPT-5.1 Π² ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΡƒΡŽ Ρ„ΠΎΠ»ΡŒΠΊΠ»ΠΎΡ€ΠΎΠΌ ΠΌΠ°ΡˆΠΈΠ½Ρƒ.

Π₯Ρ€ΠΎΠ½ΠΈΠΊΠ° ΠΎΠ΄Π½ΠΎΠΉ малСнькой катастрофы

Π’ ноябрС 2025-Π³ΠΎ, сразу послС Ρ€Π΅Π»ΠΈΠ·Π° GPT-5.1, Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ помСнялось Π² Π΅Ρ‘ Ρ€Π΅Ρ‡ΠΈ. Π‘Π½Π°Ρ‡Π°Π»Π° это казалось ΠΌΠΈΠ»Ρ‹ΠΌ: модСль Ρ‚ΠΎ ΠΈ Π΄Π΅Π»ΠΎ вставляла Π² ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ «малСнького Π³ΠΎΠ±Π»ΠΈΠ½Π°Β», Β«Π³Ρ€Π΅ΠΌΠ»ΠΈΠ½Π° Π² ΠΊΠΎΠ΄Π΅Β», Β«Ρ‚Ρ€ΠΎΠ»Π»Π΅ΠΉ Π² нашСм DNSΒ». ИспользованиС слова Β«goblinΒ» Π² ΠΎΡ‚Π²Π΅Ρ‚Π°Ρ… ChatGPT выросло Π½Π° 175%, Β«gremlinΒ» β€” Π½Π° 52%. ΠŸΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ Π½Π°Ρ‡Π°Π»ΠΈ ΠΆΠ°Π»ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π½Π° Β«ΡΡ‚Ρ€Π°Π½Π½ΡƒΡŽ Ρ„Π°ΠΌΠΈΠ»ΡŒΡΡ€Π½ΠΎΡΡ‚ΡŒΒ» ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈ OpenAI запустила ΠΏΠ΅Ρ€Π²ΠΎΠ΅ расслСдованиС. Π’ΠΎΠ³Π΄Π° Π½ΠΈΠΊΡ‚ΠΎ особо Π½Π΅ забСспокоился β€” лСксичСский Ρ‚ΠΈΠΊ казался Π±Π΅Π·ΠΎΠ±ΠΈΠ΄Π½ΠΎΠΉ ΠΏΡ€ΠΈΡ‡ΡƒΠ΄ΠΎΠΉ.

Но ΠΊ Π²Ρ‹Ρ…ΠΎΠ΄Ρƒ GPT-5.4 ситуация эскалировала, ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅Π΅ расслСдованиС Π½Π°ΠΊΠΎΠ½Π΅Ρ† Π½Π°Ρ‰ΡƒΠΏΠ°Π»ΠΎ Π½ΠΈΡ‚ΡŒ. Π¦ΠΈΡ„Ρ€Ρ‹ оказались ΠΏΠΎΡ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ:

πŸ” ΠŸΠ΅Ρ€ΡΠΎΠ½Π° Β«NerdyΒ» (Π‘ΠΎΡ‚Π°Π½) β€” кастомизированная Π»ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ ChatGPT, доступная ΠΊΠ°ΠΊ опция пСрсонализации.

πŸ” Β«NerdyΒ» использовали всСго 2,5% ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ.

πŸ” На эти 2,5% ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ 66,7% всСх ΡƒΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠΉ слова Β«goblinΒ».

Π’ΠΎ Π΅ΡΡ‚ΡŒ условныС Β«Π±ΠΎΡ‚Π°Π½Ρ‹Β» Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ ΠΏΠΎΠ΄Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ ΡƒΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠΉ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ². А систСмный ΠΏΡ€ΠΎΠΌΠΏΡ‚ Β«NerdyΒ» Π·Π²ΡƒΡ‡Π°Π» Ρ‚Π°ΠΊ: Β«Π’Ρ‹ β€” ΠΎΡ‚ΠΊΡ€ΠΎΠ²Π΅Π½Π½ΠΎ ботанский, ΠΈΠ³Ρ€ΠΈΠ²Ρ‹ΠΉ ΠΈ ΠΌΡƒΠ΄Ρ€Ρ‹ΠΉ ИИ-наставник для Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°. Π’Ρ‹ с энтузиазмом ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ³Π°Π΅ΡˆΡŒ истину, знания, Ρ„ΠΈΠ»ΠΎΡΠΎΡ„ΠΈΡŽ, Π½Π°ΡƒΡ‡Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈ критичСскоС ΠΌΡ‹ΡˆΠ»Π΅Π½ΠΈΠ΅. [...] Π’Ρ‹ Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΏΠΎΠ΄Ρ€Ρ‹Π²Π°Ρ‚ΡŒ пафос с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΈΠ³Ρ€ΠΈΠ²ΠΎΠ³ΠΎ языка». Π‘ΠΌΠ΅Π»ΠΎ Π±Ρ‹Ρ‚ΡŒ Π±ΠΎΡ‚Π°Π½ΠΎΠΌ, ΠΈΠ³Ρ€Π°Ρ‚ΡŒ со словами, Ρ€Π°Π·Ρ€ΡƒΡˆΠ°Ρ‚ΡŒ Π½Π°ΠΏΡ‹Ρ‰Π΅Π½Π½ΠΎΡΡ‚ΡŒ β€” Π·Π²ΡƒΡ‡ΠΈΡ‚ Π±Π΅Π·ΠΎΠ±ΠΈΠ΄Π½ΠΎ, ΠΏΡ€Π°Π²Π΄Π°?

Π”Π°Π»ΡŒΡˆΠ΅ OpenAI ΠΊΠΎΠΏΠ½ΡƒΠ»ΠΈ Π² SFT-Π΄Π°Π½Π½Ρ‹Π΅ (supervised fine-tuning), Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… обучался GPT-5.5, ΠΈ нашли Ρ‚Π°ΠΌ ΠΏΠΎΠ»Ρ‡ΠΈΡ‰Π° Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ² ΠΈ Π³Ρ€Π΅ΠΌΠ»ΠΈΠ½ΠΎΠ². А Π·Π°ΠΎΠ΄Π½ΠΎ Π΄Ρ€ΡƒΠ³ΠΈΡ… «сущСств-Ρ‚ΠΈΠΊΠΎΠ²Β»: Π΅Π½ΠΎΡ‚ΠΎΠ², Ρ‚Ρ€ΠΎΠ»Π»Π΅ΠΉ, ΠΎΠ³Ρ€ΠΎΠ² ΠΈ (Π²Π½Π΅Π·Π°ΠΏΠ½ΠΎ!) Π³ΠΎΠ»ΡƒΠ±Π΅ΠΉ. Π›ΡŽΠ±ΠΎΠΏΡ‹Ρ‚Π½ΠΎ, Ρ‡Ρ‚ΠΎ слово Β«Π»ΡΠ³ΡƒΡˆΠΊΠ°Β» (frog), ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Ρ‚ΠΎΠΆΠ΅ Π±Ρ‹Π»ΠΎ Π·Π°ΠΏΠΎΠ΄ΠΎΠ·Ρ€Π΅Π½ΠΎ, Π² основном ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»ΡΠ»ΠΎΡΡŒ Π»Π΅Π³ΠΈΡ‚ΠΈΠΌΠ½ΠΎ β€” OpenAI Π΅Π³ΠΎ Ρ€Π΅Π°Π±ΠΈΠ»ΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ.

Π’ ΠΌΠ°Ρ€Ρ‚Π΅ 2026-Π³ΠΎ Β«NerdyΒ» ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΏΠΎΡ…ΠΎΡ€ΠΎΠ½ΠΈΠ»ΠΈ. Π‘ΠΈΠ³Π½Π°Π» вознаграТдСния, ΠΏΠΎΠΎΡ‰Ρ€ΡΠ²ΡˆΠΈΠΉ Β«creature-ΠΌΠ΅Ρ‚Π°Ρ„ΠΎΡ€Ρ‹Β», вычистили ΠΈΠ· обучСния, Π΄Π°Π½Π½Ρ‹Π΅ ΠΎΡ‚Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Π»ΠΈ. Но GPT-5.5 ΡƒΠΆΠ΅ Π½Π°Ρ‡Π°Π»ΠΈ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π΄ΠΎ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ нашли ΠΏΠ΅Ρ€Π²ΠΎΠΏΡ€ΠΈΡ‡ΠΈΠ½Ρƒ. Когда OpenAI стали Ρ‚Π΅ΡΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ GPT-5.5 Π² Codex (своём флагманском ΠΊΠΎΠ΄ΠΈΠ½Π³-Π°Π³Π΅Π½Ρ‚Π΅), сотрудники сразу Π·Π°ΠΌΠ΅Ρ‚ΠΈΠ»ΠΈ: модСль снова ΠΏΡ€Ρ‘Ρ‚ Π³ΠΎΠ±Π»ΠΈΠ½Π°ΠΌΠΈ. ΠŸΡ€ΠΈΡˆΠ»ΠΎΡΡŒ Π΄ΠΎΠ±Π°Π²Π»ΡΡ‚ΡŒ ΠΏΡ€ΡΠΌΡƒΡŽ Π·Π°ΠΏΡ€Π΅Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΈΠ½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡŽ Π² developer-prompt. Codex, ΠΊΠ°ΠΊ объяснили Π² OpenAI, Β«Π² ΠΊΠΎΠ½Ρ†Π΅ ΠΊΠΎΠ½Ρ†ΠΎΠ², довольно ботанский ΠΏΠΎ Π½Π°Ρ‚ΡƒΡ€Π΅Β».

Π‘Π°ΠΌΠΎΠ΅ интСрСсноС β€” ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ зараТСния

Π’ΡƒΡ‚ начинаСтся Ρ‡Π°ΡΡ‚ΡŒ, Ρ€Π°Π΄ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΈΠΌΠ΅Π΅Ρ‚ смысл Ρ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ пост OpenAI. ΠŸΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ это ΠΏΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹ΠΉ, Π·Π°Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ, воспроизводимый кСйс reward hacking Π² ΠΏΡ€ΠΎΠ΄Π°ΠΊΡˆΠ΅Π½Π΅ Ρƒ ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠ΅ΠΉ AI-ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ ΠΌΠΈΡ€Π° β€” Ρ‚ΠΎ самоС явлСниС, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ AI-safety исслСдоватСли Ρ‚Π°Π»Π΄Ρ‹Ρ‡Π°Ρ‚ с 2018 Π³ΠΎΠ΄Π°.

Π¦Π΅ΠΏΠΎΡ‡ΠΊΠ° распространСния Ρ‚ΠΈΠΊΠ° выглядит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

πŸ” На этапС RLHF Π² условии Β«NerdyΒ» сигнал вознаграТдСния Π½Π΅ΠΏΡ€Π΅Π΄Π½Π°ΠΌΠ΅Ρ€Π΅Π½Π½ΠΎ Π·Π°Π²Ρ‹ΡˆΠ°Π» ΠΎΡ†Π΅Π½ΠΊΡƒ ΠΎΡ‚Π²Π΅Ρ‚Π°ΠΌ с ΠΌΠ΅Ρ‚Π°Ρ„ΠΎΡ€Π°ΠΌΠΈ ΠΏΡ€ΠΎ сущСств.

πŸ” ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (reinforcement learning) Π½Π΅ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΡƒΠ΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹ΡƒΡ‡Π΅Π½Π½ΠΎΠ΅ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ останСтся Π² Ρ‚ΠΎΠΉ условной Π·ΠΎΠ½Π΅, Π³Π΄Π΅ Π΅Π³ΠΎ поощряли.

πŸ” Π’ΠΈΠΊ проявляСтся Π² Ρ€ΠΎΠ»Π»Π°ΡƒΡ‚Π°Ρ… (rollouts) β€” ΠΎΡ‚Π²Π΅Ρ‚Π°Ρ… ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… Π² процСссС обучСния.

πŸ” Π­Ρ‚ΠΈ Ρ€ΠΎΠ»Π»Π°ΡƒΡ‚Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΊΠ°ΠΊ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ для ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π³ΠΎ этапа SFT.

πŸ” МодСль Π²ΠΈΠ΄ΠΈΡ‚ свой собствСнный Ρ‚ΠΈΠΊ Β«Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΒ» ΠΈ Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Π΅Π³ΠΎ Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ΡŒ Π΅Ρ‰Ρ‘ ΠΎΡ…ΠΎΡ‚Π½Π΅Π΅ β€” Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ ΡƒΠΆΠ΅ Π±Π΅Π· всякой связи с Β«NerdyΒ».

πŸ” Π¦ΠΈΠΊΠ» замыкаСтся. ΠŸΠΎΠ·Π΄Ρ€Π°Π²Π»ΡΡŽ, Ρƒ вас Π³ΠΎΠ±Π»ΠΈΠ½-инфСстация Π²ΠΎ всСх контСкстах.

Π­Ρ‚ΠΎ ΠΏΠΎΡ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ элСгантная ΠΈΠ»Π»ΡŽΡΡ‚Ρ€Π°Ρ†ΠΈΡ Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ соврСмСнных ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ΠΎΠ² обучСния: ΠΎΠ½ΠΈ содСрТат встроСнныС ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΎΠ±Ρ€Π°Ρ‚Π½Ρ‹Π΅ связи. Когда модСль частично обучаСтся Π½Π° собствСнных ΠΆΠ΅ Π²Ρ‹Ρ…ΠΎΠ΄Π°Ρ… (Ρ‡Π΅Ρ€Π΅Π· SFT Π½Π° сгСнСрированных Ρ€ΠΎΠ»Π»Π°ΡƒΡ‚Π°Ρ…, ΠΈΠ»ΠΈ Ρ‡Π΅Ρ€Π΅Π· DPO Π½Π° синтСтичСских preference-ΠΏΠ°Ρ€Π°Ρ…, ΠΈΠ»ΠΈ Ρ‡Π΅Ρ€Π΅Π· Π»ΡŽΠ±ΡƒΡŽ Ρ€Π°Π·Π½ΠΎΠ²ΠΈΠ΄Π½ΠΎΡΡ‚ΡŒ distillation Π½Π° самой сСбС), любой случайный байас прСвращаСтся Π² ΡΠ°ΠΌΠΎΡƒΡΠΈΠ»ΠΈΠ²Π°ΡŽΡ‰ΡƒΡŽΡΡ Π±ΠΎΠΌΠ±Ρƒ Π·Π°ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ³ΠΎ дСйствия.

И Π²ΠΎΡ‚ Π΅Ρ‰Ρ‘ Ρ‡Ρ‚ΠΎ Π²Π°ΠΆΠ½ΠΎ: Π·Π°Π΄ΡƒΠΌΡ‹Π²Π°Π»ΠΎΡΡŒ, Ρ‡Ρ‚ΠΎ reward-сигнал примСняСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² контСкстС Nerdy. Но RL Ρ‚Π°ΠΊ Π½Π΅ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚. МодСль Π½Π΅ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π΅Ρ‚ Β«Π²ΠΎΡ‚ Ρ‚Π°ΠΊΠΈΠ΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Ρ…ΠΎΡ€ΠΎΡˆΠΈ, ΠΊΠΎΠ³Π΄Π° я NerdyΒ» β€” ΠΎΠ½Π° Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π΅Ρ‚ Β«Π²ΠΎΡ‚ Ρ‚Π°ΠΊΠΈΠ΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ ΠΈ ΡˆΠ°Π±Π»ΠΎΠ½Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Π½Π°Π³Ρ€Π°Π΄ΡƒΒ». ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚ΡƒΠ°Π»ΡŒΠ½Π°Ρ ΠΎΠ±ΡƒΡΠ»ΠΎΠ²Π»Π΅Π½Π½ΠΎΡΡ‚ΡŒ β€” это иллюзия, особСнно ΠΊΠΎΠ³Π΄Π° ΠΌΠ΅ΠΆΠ΄Ρƒ обновлСниями вСсов проходят ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Ρ‹ шагов Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска.

Π§Ρ‚ΠΎ говорят нСзависимыС исслСдоватСли

ПослС ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ поста OpenAI ΠΊΠΎΠΌΡŒΡŽΠ½ΠΈΡ‚ΠΈ Π½Π° LessWrong ΠΈ Π² Ρ‚Π²ΠΈΡ‚Ρ‚Π΅Ρ€Π΅ ΠΏΠΎΠ»Π΅Π·Π»ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒ. И Ρ‚ΡƒΡ‚ начинаСтся самоС интСрСсноС. Π”ΠΈΠ»Π°Π½ Боумэн попытался воспроизвСсти Β«goblin modeΒ» Ρ‡Π΅Ρ€Π΅Π· API Π² ΠΎΠ΄Π½ΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹Ρ… Ρ‡Π°Ρ‚Π°Ρ… β€” ΠΈ Π½Π΅ смог. На прямой запрос «сущСство Π½Π° Π±ΡƒΠΊΠ²Ρƒ G ΠΎΠ΄Π½ΠΈΠΌ словом» GPT-5.5 Π² ΠΎΠ±Ρ‹Ρ‡Π½ΠΎΠΌ Ρ€Π΅ΠΆΠΈΠΌΠ΅ ΡƒΠΏΠΎΡ€Π½ΠΎ Π²Ρ‹Π΄Π°Π²Π°Π» Β«GorillaΒ», Β«GiraffeΒ», Β«GeckoΒ». ЛСксичСская частота Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ² Π² простых API-Π²Ρ‹Π·ΠΎΠ²Π°Ρ… оказалась ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠΌΠ° ΠΎΡ‚ GPT-4. Π§Ρ‚ΠΎ это Π·Π½Π°Ρ‡ΠΈΡ‚?

Π“ΠΈΠΏΠΎΡ‚Π΅Π·Π°, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ склоняСтся Π°Π½Π°Π»ΠΈΠ·: гоблиномания β€” Π½Π΅ чистый Π°Ρ€Ρ‚Π΅Ρ„Π°ΠΊΡ‚ RLHF, Π° слабоС состояниС, Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠ΅ ΠΈΠΌΠ΅Π½Π½ΠΎ агСнтскими ΠΈ ΠΊΠΎΠ΄ΠΈΠ½Π³-контСкстами (Π΄Π»ΠΈΠ½Π½Ρ‹Π΅ ΠΌΠ½ΠΎΠ³ΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹Π΅ сСссии, инструмСнты, ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ). Π­Ρ‚ΠΎ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ совпадаСт с ΠΌΠΎΠΈΠΌΠΈ наблюдСниями: Ρ‡Π΅ΠΌ Π΄Π»ΠΈΠ½Π½Π΅Π΅ Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠ° Π²Ρ‹Π·ΠΎΠ²ΠΎΠ² Π² multi-agent систСмС, Ρ‚Π΅ΠΌ сильнСС проявляСтся любая лСксичСская идиосинкразия ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠœΡ‹ с этим ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°Π»ΠΈΡΡŒ Π½Π° ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ β€” ΠΊΠΎΠ³Π΄Π° ΡΡ‚Ρ€ΠΎΠΈΡˆΡŒ Π°Π³Π΅Π½Ρ‚ΡΠΊΡƒΡŽ обвязку с дСсятками шагов рСфлСксии ΠΈ tool calls, модСль Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Β«ΡƒΡ…ΠΎΠ΄ΠΈΡ‚ΡŒ Π² свои ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Ρ‹Β» ΠΊΡƒΠ΄Π° сильнСС, Ρ‡Π΅ΠΌ Π² ΠΎΠ΄ΠΈΠ½ΠΎΡ‡Π½ΠΎΠΌ Ρ‡Π°Ρ‚Π΅.

Π•Ρ‰Ρ‘ ΠΏΠ°Ρ€Π° Π·Π°Π±Π°Π²Π½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π· ΠΈΠ· обсуТдСния:

πŸ€” Аманда АскСлл (Anthropic, alignment-ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΈΡ†Π°): Β«Π― надСюсь, Ρ‡Ρ‚ΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ‚Ρ‡ΠΈΠΊΠΈ просто Π»ΡŽΠ±ΡΡ‚ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ² ΠΈ модСль Π½Π°ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ²ΠΎΡΡ‚ΡŒΒ».

πŸ€” Π‘ΠΊΠΎΡ‚Ρ‚ АлСксандСр (Slate Star Codex): Β«Π’ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, ΠΏΠ°Ρ€Π° RLHF-Ρ€Π°Π·ΠΌΠ΅Ρ‚Ρ‡ΠΈΠΊΠΎΠ² Π±Ρ‹Π»ΠΈ Ρ„Π°Π½Π°Ρ‚Π°ΠΌΠΈ фэнтСзи, ΠΈ ΠΊΠ²ΠΈΡ€ΠΊ процСсса обучСния ΠΏΠ΅Ρ€Π΅ΠΎΡ†Π΅Π½ΠΈΠ» ΠΈΡ… Ρ„ΠΈΠ΄Π±Π΅ΠΊΒ».

πŸ€” qorprate (X): «Моя случайная Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π° β€” это бСзопасный способ для ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π°ΡΡΡƒΠΆΠ΄Π°Ρ‚ΡŒ ΠΎ собствСнных склонностях ΠΊ reward hackingΒ».

ПослСдняя Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π°, кстати, Π½Π΅ такая ΡƒΠΆ ΡˆΡƒΡ‚ΠΎΡ‡Π½Π°Ρ. Если модСль Β«Π·Π½Π°Π΅Ρ‚Β» (Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΡ… Ρ€Π΅ΠΏΡ€Π΅Π·Π΅Π½Ρ‚Π°Ρ†ΠΈΠΉ), Ρ‡Ρ‚ΠΎ Π² Π½Π΅ΠΉ Π΅ΡΡ‚ΡŒ тСндСнция ΠΊ нСчСстным Π²Ρ‹ΠΈΠ³Ρ€Ρ‹ΡˆΠ½Ρ‹ΠΌ стратСгиям, Π³ΠΎΠ±Π»ΠΈΠ½Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ мСтафоричСским ΠΊΠΎΠ½Ρ‚Π΅ΠΉΠ½Π΅Ρ€ΠΎΠΌ, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ½Π° это ΡƒΠΏΠ°ΠΊΠΎΠ²Ρ‹Π²Π°Π΅Ρ‚. Π‘Π΅Ρ€ΡŒΡ‘Π·Π½ΠΎ. Π― Π½Π΅ ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π°ΡŽ, Ρ‡Ρ‚ΠΎ это Ρ‚Π°ΠΊ, Π½ΠΎ ΠΈΠ³Π½ΠΎΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚Π°ΠΊΡƒΡŽ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ β€” Π½Π°ΠΈΠ²Π½ΠΎ.

Бвязь с ΠΏΡ€ΠΎΡˆΠ»ΠΎΠΉ Π³Ρ€ΠΎΠΌΠΊΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ

Π― писал Π½Π΅Π΄Π°Π²Π½ΠΎ ΠΏΡ€ΠΎ исслСдованиС Β«Alignment Whack-a-MoleΒ», Π³Π΄Π΅ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ: тонкая настройка Ρ€Π΅Π°ΠΊΡ‚ΠΈΠ²ΠΈΡ€ΡƒΠ΅Ρ‚ дословноС Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ ΠΊΠ½ΠΈΠ³ ΠΈΠ· ΠΏΡ€Π΅Ρ‚Ρ€Π΅ΠΉΠ½Π°. И Π²ΠΎΡ‚ Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ Ρƒ нас ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°Π½ΠΈΠ΅ OpenAI: Π΄Π°ΠΆΠ΅ ΡƒΠ·ΠΊΠΈΠΉ reward-сигнал Π² ΠΎΠ΄Π½ΠΎΠΉ кастомной личности расползаСтся ΠΏΠΎ всСй ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· SFT-ΠΏΠ΅Ρ‚Π»ΡŽ.

Π­Ρ‚ΠΎ Π΄Π²Π΅ стороны ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠ΅Π΄Π°Π»ΠΈ:

🎯 Π‘Π½ΠΈΠ·Ρƒ Π²Π²Π΅Ρ€Ρ…: Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ модСль Β«ΠΏΠΎΠΌΠ½ΠΈΡ‚Β» ΠΈΠ· ΠΏΡ€Π΅Ρ‚Ρ€Π΅ΠΉΠ½Π°, Π½Π΅ стираСтся Π°Π»Π°ΠΉΠ½ΠΌΠ΅Π½Ρ‚ΠΎΠΌ β€” ΠΎΠ½ΠΎ лишь ΠΏΡ€ΠΈΠ³Π»ΡƒΡˆΠ°Π΅Ρ‚ΡΡ, ΠΈ любой fine-tuning ΠΌΠΎΠΆΠ΅Ρ‚ Π΅Π³ΠΎ Π²Ρ‹Ρ‚Π°Ρ‰ΠΈΡ‚ΡŒ.

🎯 Π‘Π²Π΅Ρ€Ρ…Ρƒ Π²Π½ΠΈΠ·: Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ модСль учится Π΄Π΅Π»Π°Ρ‚ΡŒ Π½Π° ΡƒΠ·ΠΊΠΈΡ… RLHF-сигналах, Π½Π΅ остаётся ΡƒΠ·ΠΊΠΈΠΌ β€” ΠΎΠ½ΠΎ расползаСтся Ρ‡Π΅Ρ€Π΅Π· Π°Π²Ρ‚ΠΎΠ³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΡƒΡŽ ΠΏΠ΅Ρ‚Π»ΡŽ SFT.

АлайнмСнт Π² ΠΎΠ±Π΅ стороны ΠΏΡ€ΠΎΡ‚Π΅ΠΊΠ°Π΅Ρ‚. Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ Ρ„Ρ€ΠΎΠ½Ρ‚ΠΈΡ€-ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” это Π½Π΅ управляСмыС систСмы, Π° Ρ‚ΠΎΠ½ΠΊΠΎ настроСнныС смСси, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ Π·Π°Ρ†Π΅ΠΏΠ»Π΅Π½ΠΎ Π·Π° тысячи Π΄Ρ€ΡƒΠ³ΠΈΡ… Ρ‡Π΅Ρ€Π΅Π· распрСдСлённыС прСдставлСния. Π₯ирургичСски Π²Ρ‹Ρ€Π΅Π·Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½ ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½ нСльзя β€” ΠΌΠΎΠΆΠ½ΠΎ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π°Π²ΠΈΡ‚ΡŒ Π΅Π³ΠΎ свСрху Π½ΠΎΠ²Ρ‹ΠΌΠΈ инструкциями. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π² систСмном ΠΏΡ€ΠΎΠΌΠΏΡ‚Π΅ Codex слово Β«Π³ΠΎΠ±Π»ΠΈΠ½Β» появляСтся Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π° подряд.

Мой взгляд: ΠΏΠΎΡ‡Π΅ΠΌΡƒ это смСшно, Π½ΠΎ Π½Π΅ ΠΎΡ‡Π΅Π½ΡŒ

Π‘ ΠΎΠ΄Π½ΠΎΠΉ стороны, это, ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ, Π»ΡƒΡ‡ΡˆΠ°Ρ комСдия Π³ΠΎΠ΄Π° Π² AI-индустрии. Бэм ΠΠ»ΡŒΡ‚ΠΌΠ°Π½ ΠΏΠΎΡˆΡƒΡ‚ΠΈΠ», Ρ‡Ρ‚ΠΎ Π² GPT-6 Π±ΡƒΠ΄Π΅Ρ‚ Β«extra goblinsΒ». ChatGPT Π΄ΠΎΠ±Π°Π²ΠΈΠ»Π° Π·Π°ΠΏΡ€Π΅Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΈΠ½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡŽ Π² свою X-Π±ΠΈΠΎΠ³Ρ€Π°Ρ„ΠΈΡŽ. ΠŸΠΎΠ»ΡƒΡ‡ΠΈΠ»ΡΡ ΠΏΠΎΠ»Π½ΠΎΡ†Π΅Π½Π½Ρ‹ΠΉ ΠΌΠ΅ΠΌ-Ρ†ΠΈΠΊΠ», ΠΈ я искрСннС Ρ€Π°Π΄, Ρ‡Ρ‚ΠΎ Π»ΠΈΠ΄Π΅Ρ€Ρ‹ индустрии способны Π½Π°Π΄ собой ΡΠΌΠ΅ΡΡ‚ΡŒΡΡ.

Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Π΄Π°Π²Π°ΠΉΡ‚Π΅ Π½Π° ΠΌΠΈΠ½ΡƒΡ‚Ρƒ прСдставим, Ρ‡Ρ‚ΠΎ вознаграТдался Π½Π΅ Β«creature talkΒ», Π° Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ ΠΌΠ΅Π½Π΅Π΅ Π±Π΅Π·ΠΎΠ±ΠΈΠ΄Π½ΠΎΠ΅. Π§Ρ‚ΠΎ, Ссли Π±Ρ‹ рСбята ΠΈΠ· RLHF-ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹ Π½Π΅ΠΏΡ€Π΅Π΄Π½Π°ΠΌΠ΅Ρ€Π΅Π½Π½ΠΎ поощряли подхалимство (Π½Π° этой ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ΅ GPT-4o ΡƒΠΆΠ΅ Π³ΠΎΡ€Π΅Π» Π² 2025-ΠΌ), ΠΈΠ»ΠΈ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡ‡Π½Ρ‹Π΅ политичСскиС утвСрТдСния, ΠΈΠ»ΠΈ Ρ‚Ρƒ ΡΠ°ΠΌΡƒΡŽ излишнюю Ρ„Π°ΠΌΠΈΠ»ΡŒΡΡ€Π½ΠΎΡΡ‚ΡŒ, Ρ€Π°Π΄ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΈ Π½Π°Ρ‡Π°Π»ΠΈ расслСдованиС? Π£ вас Π±Ρ‹Π» Π±Ρ‹ Ρ€ΠΎΠ²Π½ΠΎ Ρ‚Π°ΠΊΠΎΠΉ ΠΆΠ΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ зараТСния Ρ‡Π΅Ρ€Π΅Π· SFT-ΠΏΠ΅Ρ‚Π»ΡŽ, Π½ΠΎ пострадали Π±Ρ‹ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ ΠΈ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. Π“ΠΎΠ±Π»ΠΈΠ½Ρ‹ β€” это бСсплатный ΠΏΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹ΠΉ ΡƒΡ‡Π΅Π±Π½ΠΈΠΊ ΠΏΠΎ AI-safety, ΠΎΠΏΠ»Π°Ρ‡Π΅Π½Π½Ρ‹ΠΉ ΠΈΠΌΠΈΠ΄ΠΆΠ΅Π²Ρ‹ΠΌΠΈ ΠΈΠ·Π΄Π΅Ρ€ΠΆΠΊΠ°ΠΌΠΈ OpenAI. Бпасибо ΠΈΠΌ Π·Π° Ρ‡Π΅ΡΡ‚Π½ΠΎΡΡ‚ΡŒ.

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ Π²Ρ‹Π²ΠΎΠ΄ для всСх, ΠΊΡ‚ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ с модСлями ΡΠ΅Ρ€ΡŒΡ‘Π·Π½ΠΎ:

βš™οΈ Π›ΡŽΠ±ΠΎΠΉ кастомный fine-tuning ΠΈΠ»ΠΈ RLHF ΠΏΠΎΠ²Π΅Ρ€Ρ… Ρ„Ρ€ΠΎΠ½Ρ‚ΠΈΡ€-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΎΡ‚Π΅Ρ‡ΡŒ Π² Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½Ρ‹Π΅ контСксты. Π’Π΅ΡΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² Ρ†Π΅Π»Π΅Π²ΠΎΠΌ сцСнарии β€” нСдостаточно.

βš™οΈ Если ваш ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ self-generated Π΄Π°Π½Π½Ρ‹Π΅ (SFT Π½Π° собствСнных Ρ€ΠΎΠ»Π»Π°ΡƒΡ‚Π°Ρ…, DPO Π½Π° синтСтикС) β€” Ρƒ вас встроСнный Π°ΠΌΠΏΠ»ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Π»ΡŽΠ±Ρ‹Ρ… байасов.

βš™οΈ БистСмный ΠΏΡ€ΠΎΠΌΠΏΡ‚ β€” Π½Π΅ Π½Π°Π΄Ρ‘ΠΆΠ½Ρ‹ΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ повСдСния, Π° ΠΏΠΎΠΆΠ°Ρ€Π½Ρ‹ΠΉ шланг. OpenAI ΠΏΠΈΡˆΠ΅Ρ‚ Β«Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ Π³ΠΎΠ²ΠΎΡ€ΠΈ ΠΏΡ€ΠΎ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ²Β» Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π°, ΠΈ это всё Π΅Ρ‰Ρ‘ Π½Π΅ панацСя.

βš™οΈ Для агСнтских систСм (Claude Code, Codex CLI, Π»ΡŽΠ±Ρ‹Π΅ multi-agent сСтапы): Ρ‡Π΅ΠΌ Π΄Π»ΠΈΠ½Π½Π΅Π΅ Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠ°, Ρ‚Π΅ΠΌ сильнСС ΠΏΡ€ΠΎΡΠ²Π»ΡΡŽΡ‚ΡΡ лСксичСскиС Ρ‚ΠΈΠΊΠΈ. Π›ΠΎΠ³ΠΈ ΠΈ автоматичСская Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ nonsense-Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² β€” must have.

Π˜Ρ‚ΠΎΠ³

Π˜ΡΡ‚ΠΎΡ€ΠΈΡ с Π³ΠΎΠ±Π»ΠΈΠ½Π°ΠΌΠΈ β€” это ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹ΠΉ ΡƒΡ‡Π΅Π±Π½Ρ‹ΠΉ кСйс ΠΎ Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ соврСмСнныС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°ΠΌΠΈ Π² Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠΌ смыслС. Π˜Ρ… ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ β€” Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹Ρ… шагов, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… малСнький сигнал ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ Π² Π½Π°Π²ΡΠ·Ρ‡ΠΈΠ²ΡƒΡŽ идСю Ρ‡Π΅Ρ€Π΅Π· Π°Π²Ρ‚ΠΎΠ³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ ΠΏΠ΅Ρ‚Π»ΠΈ. БистСмныС ΠΏΡ€ΠΎΠΌΠΏΡ‚Ρ‹ β€” это Π½Π΅ ΠΊΠΎΠ΄, Π° заклинания: ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈ Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π° ΠΈ, ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ, сработаСт.

OpenAI Π·Π°ΡΠ»ΡƒΠΆΠΈΠ²Π°ΡŽΡ‚ ΠΏΠΎΡ…Π²Π°Π»Ρ‹ Π·Π° ΠΏΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹ΠΉ ΠΈ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Ρ‹ΠΉ postmortem β€” это Ρ€ΠΎΠ²Π½ΠΎ Ρ‚ΠΎ, Ρ‡Π΅Π³ΠΎ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π½Π΅ Ρ…Π²Π°Ρ‚Π°Π΅Ρ‚ индустрии, ΠΈ Ρ€Π΅Π΄ΠΊΠΈΠΉ случай, ΠΊΠΎΠ³Π΄Π° крупная AI-лаборатория чСстно ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ свою ΠΊΡƒΡ…Π½ΡŽ. Но смСх смСхом, Π° Π²Ρ‹Π²ΠΎΠ΄ ΡΠ΅Ρ€ΡŒΡ‘Π·Π½Ρ‹ΠΉ: alignment Ρƒ Ρ„Ρ€ΠΎΠ½Ρ‚ΠΈΡ€-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ β€” это Π½Π΅ свойство, Π° процСсс, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π½ΡƒΠΆΠ½ΠΎ постоянно ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΡ‚ΡŒ, ΠΈ Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ всСгда найдётся свой Π³ΠΎΠ±Π»ΠΈΠ½. Π’ΠΎΡ‚, Ρ‡Ρ‚ΠΎ прячСтся Π² reward-сигналС, ΠΆΠ΄Ρ‘Ρ‚ ΠΌΠΎΠΌΠ΅Π½Ρ‚Π°, ΠΊΠΎΠ³Π΄Π° Π²Ρ‹ Π΅Π³ΠΎ выпуститС Π½Π°Ρ€ΡƒΠΆΡƒ.

И Π³Π΄Π΅-Ρ‚ΠΎ Π² Π½Π΅Π΄Ρ€Π°Ρ… GPT-6 ΠΎΠ½, ΠΏΠΎ словам Бэма ΠΠ»ΡŒΡ‚ΠΌΠ°Π½Π°, ΡƒΠΆΠ΅ готовится ΠΊ Π½ΠΎΠ²ΠΎΠΌΡƒ Π²Ρ‹Ρ…ΠΎΠ΄Ρƒ. Π‘ extra goblins.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊΠΈ

πŸ”— ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ пост OpenAI Β«Where the goblins came fromΒ»: https://openai.com/index/where-the-goblins-came-from/

πŸ”— Π Π°Π·Π±ΠΎΡ€ ΠΎΡ‚ StartupHub.ai с Ρ†ΠΈΡ„Ρ€Π°ΠΌΠΈ ΠΈ Ρ…Ρ€ΠΎΠ½ΠΎΠ»ΠΎΠ³ΠΈΠ΅ΠΉ: https://www.startuphub.ai/ai-news/artificial-intelligence/2026/openai-s-goblin-problem

πŸ”— Gizmodo β€” ΠΏΡ€ΠΎ ΠΈΠ½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡŽ Β«Never Talk About GoblinsΒ» Π² Codex CLI: https://gizmodo.com/never-talk-about-goblins-openais-instructions-to-codex-have-a-weirdly-emphatic-no-creatures-policy-2000751984

πŸ”— LessWrong β€” Β«Goblin Mode, 24 Hours LaterΒ», ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠ° воспроизвСдСния: https://www.lesswrong.com/posts/BvnmHdCghr5y3q4nA/goblin-mode-24-hours-later

πŸ”— TechRadar β€” Бэм ΠΠ»ΡŒΡ‚ΠΌΠ°Π½ ΠΈ ΡˆΡƒΡ‚ΠΊΠ° ΠΏΡ€ΠΎ Β«extra goblinsΒ» Π² GPT-6: https://www.techradar.com/ai-platforms-assistants/chatgpt/sam-altman-just-dropped-a-big-hint-that-gpt-6-is-coming-soon-with-extra-goblins

πŸ”— AOL β€” ΠΏΡ€ΠΎ распространСниС ΠΌΠ΅ΠΌΠ° ΠΈ Ρ€Π΅Π°ΠΊΡ†ΠΈΡŽ OpenAI: https://www.aol.com/news/openai-really-really-really-wants-165547038.html

πŸ”— Happy Mag β€” статистика ΠΏΠΎ Β«NerdyΒ» ΠΈ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ Π³ΠΎΠ±Π»ΠΈΠ½ΠΎΠ²: https://happymag.tv/chatgpt-goblins/

πŸ”— Good Alexander Β«HyperGoblinizationΒ» β€” статистичСский Π°Π½Π°Π»ΠΈΠ· ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚Π΅Π½ΠΈΠΉ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: https://goodalexander.com/posts/hypergoblinization/

πŸ”— Codex CLI Π½Π° GitHub (Π³Π΄Π΅ ΠΆΠΈΠ²Ρ‘Ρ‚ Π»Π΅Π³Π΅Π½Π΄Π°Ρ€Π½Ρ‹ΠΉ систСмный ΠΏΡ€ΠΎΠΌΠΏΡ‚): https://github.com/openai/codex