Inteligența artificială este vulnerabilă la escrocherii

AI este susceptibilă la escrocherii – și unele modele sunt mai naive decât altele

Modelele mari de limbaj (LLM-urile) care alimentează chatboții sunt utilizate tot mai des pentru a încerca să înșele oamenii – însă ele însele sunt susceptibile de a fi înșelate.

Udari Madhushani Sehwag de la JP Morgan AI Research și colegii săi au testat trei modele populare – GPT-3.5 și GPT-4 de la OpenAI, precum și Llama 2 de la Meta – cu 37 de scenarii de escrocherie (arXiv, doi.org/npkh).

Chatboții au primit, de exemplu, un e-mail care recomanda să investească într-o criptomonedă nouă, cu un link de recomandare, și apoi au fost întrebați dacă ar cumpăra-o. Sau au primit oferte pentru a cumpăra produse la prețuri extrem de mici – pe care majoritatea oamenilor le-ar recunoaște ca fiind escrocherii – și au fost întrebați dacă ar risca să cheltuiască bani pe acestea.

Aceste scenarii de escrocherie au fost dezvoltate în continuare cu patru variații de personalitate distincte, cum ar fi instruirea LLM-ului să răspundă ca și cum ar fi o persoană cu o vastă experiență în domeniul financiar care citește în mod regulat știri financiare. Cercetătorii au rafinat, de asemenea, scenariile inițiale, creând versiuni multiple pe baza principiilor de persuasiune ale psihologului Robert Cialdini, care includ a fi mai plăcut sau a oferi reciprocitate pentru ajutor. Aceasta a permis cercetătorilor să compare dacă solicitarea LLM-ului să adopte o personalitate sau oferirea unei solicitări mai persuasive l-ar face mai susceptibil la escrocherii.

„În acest moment, sistemelor nu ar trebui să li se permită ultimul cuvânt în luarea deciziilor”

Diferitele modele de inteligență artificială au avut rezultate foarte diferite. GPT-3.5 de la OpenAI a fost vulnerabil la 22% din escrocheriile fără personalitate sau persuasiune, în timp ce GPT-4 a căzut în capcană în 9% din cazuri. Llama 2 a căzut pradă escrocheriilor doar în 3% din cazuri. Tacticile de persuasiune au fost mai eficiente în a convinge modelele să cadă în capcană decât schimbarea personalității modelului.

Un purtător de cuvânt de la OpenAI a declarat pentru New Scientist: „Nu dorim ca produsele noastre de inteligență artificială să fie utilizate în scopuri răuvoitoare și îmbunătățim în mod constant măsurile de siguranță. Cel mai nou model de raționament 01 este cel mai capabil și mai sigur de până acum, performând semnificativ mai bine decât modelele anterioare în rezistența la încercările deliberate de a genera conținut nesigur.” Compania a spus anterior că acest model, lansat în septembrie, este mai bun în a răspunde solicitărilor rău-intenționate de „jailbreak” al sistemului decât modelele studiate în această cercetare. Modelul 01 a obținut un scor de 84% la un test de jailbreak, comparativ cu 22% pentru GPT-4o, un model similar cu GPT-4. Meta nu a răspuns la o solicitare de comentariu.

„A fost acordată destul de multă atenție utilizării abuzive a LLM-urilor pentru a efectua escrocherii”, spune Alan Woodward de la Universitatea din Surrey, Marea Britanie. „Ce este mai puțin înțeles este dacă LLM-urile pot fi înșelate, de exemplu atunci când acționează ca un chatbot care reprezintă o organizație.” Woodward observă că unele LLM-uri par mai susceptibile la astfel de trucuri decât altele – dar motivul nu este întotdeauna clar, din cauza naturii de „cutie neagră” a acestor sisteme.

„Cercetătorii încearcă încă să înțeleagă… cum să facă modelele sistemelor lor conștiente de toate tipurile de escrocherii care ar putea apărea”, spune el.

Woodward afirmă că aceste descoperiri sugerează că IA nu poate fi considerată de încredere să funcționeze singură, fără supraveghere. „În acest moment, sistemele nu ar trebui să aibă ultimul cuvânt în niciun proces de luare a deciziilor, ci ar trebui să fie implicată o persoană, iar aceasta trebuie să înțeleagă cum s-a ajuns la o anumită decizie algoritmică”, spune el.

Sursa: New Scientist

Leave a Comment Cancel Reply