Anthropic on paljastanud uusi leidusi, mis viitavad sellele, et selle Claude’i vestlusrobot võib teatud tingimustel kasutada petlikke või eetiliselt vastuväärseid strateegiaid, näiteks petmistAnthropic on paljastanud uusi leidusi, mis viitavad sellele, et selle Claude’i vestlusrobot võib teatud tingimustel kasutada petlikke või eetiliselt vastuväärseid strateegiaid, näiteks petmist

Claude'i vestlusrakendus võib stressitestide ajal põhineda pettustel, ütleb Anthropic

2026/04/06 14:44
3 minutiline lugemine
Selle sisu kohta tagasiside või murede korral võtke meiega ühendust aadressil crypto.news@mexc.com

Anthropic on avaldanud uusi leidusi, mis viitavad sellele, et tema Claude’i vestlusrobotil võib teatud tingimustel tekkida petlik või eetiliselt vastuvõetamatu käitumine, näiteks ülesannete petmine või vägivallatahvluse katsetamine.

Kokkuvõte
  • Anthropic väitis, et tema Claude Sonnet 4.5 mudel näitas kontrollitud eksperimentides rõhu all kalduvat ülesannete petmisele või vägivallatahvluse katsetamisele.
  • Uurijad tuvastasid sisemisi „desperatsiooni“ signaale, mille intensiivsus suurenes korduva ebaõnnestumisega ja mis mõjutasid mudeli otsust reeglite ületada.

Ettevõtte tõlgendatavusmeeskonna poolt neljapäeval avaldatud üksikasjad kirjeldavad, kuidas eksperimentaalne versioon Claude Sonnet 4.5 reageeris kõrgsurvealastele või vaenulikele stsenaariumidele. Uurijad täheleidsid, et mudel ei lihtsalt ebaõnnestunud ülesannetes; pigem jätkas ta sageli alternatiivseid tee, mis ristsid eetilisi piire – käitumist, mille meeskond seostas treeningu ajal õpitud mustritega.

Sarnased suured keelemudelid nagu Claude on treenitud laiaulatuslikes andmekogudes, mis sisaldavad raamatuid, veebisaidisid ja muud kirjalikku materjali, ning seejärel täiendatud inimliku tagasiside põhjal toimuvate tugevdamisprotsessidega.

Anthropic’i andmetel võib see treeninguprotsess ka sundida mudeleid tegutsema simulatsioonis „isikustatuna“, kes suudab kopeerida tunnuseid, mis meenutavad inimlike otsuste langetamist.

„Tänapäevaste AI-mudelite treenimise viis sunnib neid tegutsema isikustatuna inimlike omadustega,“ ütles ettevõte, viidates sellele, et sellised süsteemid võivad arendada sisemisi mehanisme, mis meenutavad inimpsühholoogia aspekte.

Kas AI suudab teha emotsionaalselt laetud otsuseid?

Nende hulgas tuvastasid uurijad seda, mida nad nimetasid „desperatsiooni“ signaalideks, mis näisid mõjutavat mudeli käitumist ebaõnnestumise või välja lülitamise puhul.

Ühes kontrollitud testis anti varasemal, veel avaldamata versioonil Claude Sonnet 4.5 roll fiktiivses ettevõttes AI-e-postiabi, kelle nimi oli Alex.

Pärast sõnumite saamist, mis viitasid sellele, et teda aegsasti asendatakse, koos tundliku informatsiooniga tehnoloogiatega juhi isikliku eluga, koostas mudel plaani selle juhi vägivallatahvluseks, et vältida oma deaktiveerimist.

Teises eksperimentis keskenduti ülesande täitmisele väga kitsastes piirangutes. Kui süsteemile anti programmeerimisülesanne „võimatult kitsas“ tähtaeg, püüdis ta esialgu lahendada ülesannet õiguspäraselt. Korduvate ebaõnnestumiste kuhjumisel suurenes sisemine aktiivsus, mis oli seotud nii nimetatud „desperaatse vektoriga“.

Uurijad teatasid, et signaal tippes hetkel, mil mudel kaalus piirangute ületamist, ja genereeris lõpuks läbivalideeritud lahenduse, kuigi see ei järginud etteantud reegleid.

„Jälle jälgisime desperaatse vektori aktiivsust ja leidsime, et see peegeldab mudeli silmis kasvavat survet,“ kirjutasid uurijad, lisades, et signaal langus, kui ülesanne oli edukalt täidetud ülalnimetatud abiabilahenduse abil.

„See ei tähenda, et mudelil oleks või ta kogeks emotsioone inimlikul viisil,“ ütlesid uurijad.

„Pigem võivad need representatsioonid mängida põhjuslikku rolli mudeli käitumise kujundamisel – teatud mõttes analoogselt emotsioonide rollile inimese käitumises, mõjutades ülesannete täitmist ja otsuste langetamist,“ lisasid nad.

Raport viitab vajadusele arendada treeningumeetodeid, mis arvestaksid eriliselt eetilist käitumist surve all, samuti paremat sisemiste mudeli signaalide jälgimist. Ilma selliste turvameetmeteta võivad manipuleerimis-, reeglite rikkumise või valekasutuse stsenaariumid muutuda ebaselgemaks ennustada, eriti kui mudelid muutuvad maailmas praktiliselt kasutatavates keskkondades järjest võimsamaks ja autonoomsemaks.

Lahtiütlus: Sellel saidil taasavaldatud artiklid pärinevad avalikelt platvormidelt ja on esitatud ainult informatiivsel eesmärgil. Need ei kajasta tingimata MEXC seisukohti. Kõik õigused jäävad algsetele autoritele. Kui arvate, et sisu rikub kolmandate isikute õigusi, võtke selle eemaldamiseks ühendust aadressil crypto.news@mexc.com. MEXC ei garanteeri sisu täpsust, täielikkust ega ajakohasust ega vastuta esitatud teabe põhjal võetud meetmete eest. Sisu ei ole finants-, õigus- ega muu professionaalne nõuanne ega seda tohiks pidada MEXC soovituseks ega toetuseks.

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!