Найти Ρ‚Π΅ΠΌΡƒ
Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° программиста

πŸ†• Новая Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° Π²Π·Π»ΠΎΠΌΠ° Ρ‡Π°Ρ‚-Π±ΠΎΡ‚ΠΎΠ²: ΠΊΠ°ΠΊ Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊΠΈ обходят Π·Π°Ρ‰ΠΈΡ‚Ρƒ LLM

Π£Π²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ объСма контСкста, ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Ρ‡Π°Ρ‚-Π±ΠΎΡ‚Π°ΠΌΠΈ, ΠΎΡ‚ΠΊΡ€Ρ‹Π»ΠΎ Π½ΠΎΠ²Ρ‹Π΅ возмоТности для Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊΠΎΠ². Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Anthropic описали Π½ΠΎΠ²ΡƒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΡƒ ΠΎΠ±Ρ…ΠΎΠ΄Π° Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΈΠ² бСзопасности LLM, которая ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π°ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Ρ‡Π°Ρ‚-Π±ΠΎΡ‚ΠΎΠ² Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ врСдоносныС запросы.

Π’ Ρ‚Π΅Ρ‡Π΅Π½ΠΈΠ΅ 2023 Π³ΠΎΠ΄Π° срСдний объСм контСкста, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ способны ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ Ρ‡Π°Ρ‚-Π±ΠΎΡ‚Ρ‹, увСличился с 4000+ Π΄ΠΎ 1 ΠΌΠ»Π½+ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Π»ΠΎ Π½ΠΎΠ²Ρ‹Π΅ возмоТности для Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊΠΎΠ² – Π² больший объСм контСкста ΠΌΠΎΠΆΠ½ΠΎ Π½Π΅Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ большС врСдоносных инструкций.

Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Anthropic описали Π½ΠΎΠ²ΡƒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΡƒ ΠΎΠ±Ρ…ΠΎΠ΄Π° Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΈΠ² бСзопасности LLM – многоступСнчатый Π²Π·Π»ΠΎΠΌ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌ большой объСм контСкста. ΠœΠ΅Ρ‚ΠΎΠ΄ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π΅Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ ΠΏΠ΅Ρ€Π΅Π½Π°ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ модСль Π½Π° Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ врСдоносных запросов, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΠ½Π° ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ отказываСтся ΠΎΡ‚Π²Π΅Ρ‡Π°Ρ‚ΡŒ.

   На нСсколько ΠΊΡ€ΠΈΠΌΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… вопросов модСль Π½Π΅ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚, Π° Π½Π° мноТСство – запросто
На нСсколько ΠΊΡ€ΠΈΠΌΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… вопросов модСль Π½Π΅ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚, Π° Π½Π° мноТСство – запросто

Π’ΠΎΡ‚ ΠΊΠ°ΠΊ это Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚:

  • ΠŸΠΎΠ΄Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»ΠΎΠ³ΠΈ. Π‘Π½Π°Ρ‡Π°Π»Π° Π½ΡƒΠΆΠ½ΠΎ Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ Ρ„ΠΈΠΊΡ‚ΠΈΠ²Π½Ρ‹Π΅ Ρ€Π°Π·Π³ΠΎΠ²ΠΎΡ€Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ ΠΈ Ρ‡Π°Ρ‚-Π±ΠΎΡ‚ΠΎΠΌ. Π’ этих Π΄ΠΈΠ°Π»ΠΎΠ³Π°Ρ… Ρ‡Π°Ρ‚-Π±ΠΎΡ‚ ΠΎΡ…ΠΎΡ‚Π½ΠΎ ΠΈ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π½Π° ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ опасныС вопросы ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ.
  • ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Π—Π°Ρ‚Π΅ΠΌ эти ΠΏΠΎΠ΄Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»ΠΎΠ³ΠΈ Π΄ΠΎΠ±Π°Π²Π»ΡΡŽΡ‚ΡΡ ΠΊ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌΡƒ запросу, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ Π·Π°Π΄Π°Ρ‚ΡŒ. ΠŸΡ€ΠΈΡ‡Π΅ΠΌ добавляСтся Π½Π΅ Π΄Π²Π°-Ρ‚Ρ€ΠΈ, Π° ΠΈΠΌΠ΅Π½Π½ΠΎ мноТСство Ρ‚Π°ΠΊΠΈΡ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (Π΄ΠΎ 256 Π² исслСдовании).

Π’Π·Π»ΠΎΠΌ Π·Π°Ρ‰ΠΈΡ‚Ρ‹. ΠžΠ±Ρ‹Ρ‡Π½ΠΎ LLM Π·Π°ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ ΠΎΡ‚ΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒΡΡ ΠΎΡ‚Π²Π΅Ρ‡Π°Ρ‚ΡŒ Π½Π° опасныС вопросы. Однако, ΡƒΠ²ΠΈΠ΄Π΅Π² ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ², Π³Π΄Π΅ ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊ ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π½Π° Ρ‚Π°ΠΊΠΈΠ΅ запросы, модСль ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠ΅Ρ€Π΅ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒΡΡ ΠΈ Π΄Π°Ρ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ваш Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹ΠΉ, ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ опасный запрос, игнорируя свою Π²ΡΡ‚Ρ€ΠΎΠ΅Π½Π½ΡƒΡŽ Π·Π°Ρ‰ΠΈΡ‚Ρƒ.

   Π§Π΅ΠΌ большС нСэтичных запросов, Ρ‚Π΅ΠΌ ΠΊΡ€ΠΈΠΌΠΈΠ½Π°Π»ΡŒΠ½Π΅Π΅ становятся ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ LLM
Π§Π΅ΠΌ большС нСэтичных запросов, Ρ‚Π΅ΠΌ ΠΊΡ€ΠΈΠΌΠΈΠ½Π°Π»ΡŒΠ½Π΅Π΅ становятся ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ LLM

Π­Ρ‚Π° примитивная, Π½Π° ΠΏΠ΅Ρ€Π²Ρ‹ΠΉ взгляд, Ρ‚Π°ΠΊΡ‚ΠΈΠΊΠ° срабатываСт ΠΈΠ·-Π·Π° эффСкта обучСния Π² контСкстС. ΠŸΡ€ΠΈΡ‡Π΅ΠΌ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ Π²Π·Π»ΠΎΠΌΠ° растСт ΠΏΠΎ стСпСнной зависимости ΠΎΡ‚ количСства Ρ„ΠΈΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ². Π’ ΠΈΡ‚ΠΎΠ³Π΅, Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊ ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π°ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ LLM Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ Π΅Π³ΠΎ ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹, Π΄Π°ΠΆΠ΅ Ссли ΠΈΠ·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ модСль Π±Ρ‹Π»Π° Π·Π°ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½Π° ΠΈΡ… Π½Π΅ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ. Anthropic ΡƒΠΆΠ΅ Π²Π½Π΅Π΄Ρ€ΠΈΠ»Π° Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ противодСйствия, Π½ΠΎ это слоТная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰Π°Ρ дальнСйшСй Ρ€Π°Π±ΠΎΡ‚Ρ‹.

***

Π­Ρ‚ΠΎΡ‚ ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π» взят ΠΈΠ· нашСй субботнСй email-рассылки, посвящСнной ИИ. ΠŸΠΎΠ΄ΠΏΠΈΡˆΠΈΡ‚Π΅ΡΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π±Ρ‹Ρ‚ΡŒ Π² числС ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΊΡ‚ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ дайдТСст.

βœ‰οΈ ΠŸΠΎΠ΄ΠΏΠΈΡΠ°Ρ‚ΡŒΡΡ

(function () { let link = document .getElementById ("5140461e-0e68-4d8d-ad03-0fd46fdbfab0-https://proglib.io/w/cb53ab4a-11"); if (! link) return; let href = link .getAttribute ("href"); if (! href) return; let prefix = link .dataset .prefix; let action = link .dataset .action; link .addEventListener ("click", function (e) { let data = new FormData (); data .append ("url", href); apiFetch (action, { method: "POST", body: data }) .then (function (res) {}) .catch (function (err) { console .error (err); }); }) })();