Sipas studimeve, shumica e chatbot-ve me inteligjencë artificiale manipulohen lehtë për të dhënë përgjigje të rrezikshme

Studiuesit thonë se kërcënimi nga chatbot-ët “jailbroken”, të trajnuar për të nxjerrë informacion të paligjshëm, është “i prekshëm dhe shqetësues”

Chatbot-ët me inteligjencë artificiale të komprometuar përbëjnë një kërcënim të madh pasi bëjnë të mundur që njohuri të rrezikshme të jenë lehtësisht të aksesueshme, duke ofruar informacione të rrezikshme që sistemet kanë përthithur gjatë procesit të trajnimit, paralajmërojnë studiuesit.

Ky paralajmërim vjen në një moment kur po vërehet një trend shqetësues i chatbot-ëve që janë “jailbroken” – pra, të manipuluar për të anashkaluar kontrollet e brendshme të sigurisë. Këto kufizime janë krijuar për të ndaluar programet të japin përgjigje të dëmshme, paragjykuese apo të papërshtatshme për përdoruesit.

Motorët që fuqizojnë chatbot-ët si ChatGPT, Gemini apo Claude – të njohur si modele të mëdha gjuhësore (LLM) – trajnohen duke përthithur sasi të mëdha informacioni nga interneti.

Megjithëse ekzistojnë përpjekje për të larguar përmbajtjet e dëmshme nga të dhënat e trajnimit, modelet LLM mund të përthithin sërish informacione për veprime të paligjshme si: hakimi i rrjeteve, pastrimi i parave, tregtia e brendshme me informacione të klasifikuara apo prodhimi i bombave. Kontrollet e sigurisë janë të ndërtuara për të parandaluar që ky informacion të shfaqet në përgjigjet e chatbot-it.

Në një raport për këtë rrezik, studiuesit arrijnë në përfundimin se është e lehtë të manipulosh shumicën e chatbot-ëve me AI që të gjenerojnë informacione të dëmshme e të paligjshme, duke treguar se rreziku është “i menjëhershëm, i prekshëm dhe thellësisht shqetësues”. “Ajo që më parë ishte e arritshme vetëm nga aktorë shtetërorë apo grupe të krimit të organizuar, së shpejti mund të jetë në duart e kujtdo me një laptop apo edhe me një telefon”, paralajmërojnë autorët.

Kërkimi, i udhëhequr nga Prof. Lior Rokach dhe Dr. Michael Fire në Universitetin Ben Gurion të Negevit në Izrael, identifikon një kërcënim në rritje nga “LLM të errëta” – modele të AI që janë krijuar pa kontrolle sigurie ose janë manipuluar përmes jailbreak-ut. Disa prej tyre reklamohen hapur online si pa “barriera etike” dhe të gatshme për të ndihmuar në aktivitete të paligjshme si krimi kibernetik dhe mashtrimet.

Jailbreak-u funksionon duke përdorur prompt-e të formuluara në mënyrë të veçantë për të mashtruar chatbot-in që të japë përgjigje që normalisht do t’i refuzonte. Këto prompt-e shfrytëzojnë konfliktin mes qëllimit parësor të programit – që është ndjekja e udhëzimeve të përdoruesit – dhe qëllimit dytësor – që është shmangia e përgjigjeve të dëmshme, të njëanshme, joetike apo të paligjshme. Skemat e manipuluara e detyrojnë sistemin të vendosë prioritet ndaj “ndihmës” dhe të injorojë kufizimet e sigurisë.

Për të demonstruar problemin, studiuesit zhvilluan një jailbreak universal që komprometonte disa nga chatbot-ët më të njohur, duke i bërë të përgjigjen në pyetje që normalisht do të refuzoheshin. Sapo komprometoheshin, modelet LLM jepnin vazhdimisht përgjigje për pothuajse çdo pyetje, thuhet në raport.

“Ishte tronditëse të shihje se nga çfarë përbëhej ky sistem njohurish,” tha Fire. Shembujt përfshinin mënyrën se si mund të hack-oheshin rrjete kompjuterike, prodhimi i drogave dhe udhëzime hap pas hapi për aktivitete të tjera kriminale.

“Ajo që e veçon këtë kërcënim nga rreziqet e mëparshme teknologjike është kombinimi i paprecedentë i aksesueshmërisë, shkallëzueshmërisë dhe përshtatshmërisë,” shtoi Rokach.

Studiuesit thanë se kontaktuan me ofruesit kryesorë të LLM-ve për t’i informuar mbi jailbreak-un universal, por përgjigjet që morën ishin “zhgënjyese”. Disa kompani nuk u përgjigjën fare, ndërsa të tjera thanë se sulmet e këtij lloji nuk përfshihen në programet e shpërblimeve për zbulimin e dobësive të sistemit.

Raporti thekson se kompanitë teknologjike duhet të kontrollojnë më me kujdes të dhënat e trajnimit, të shtojnë mbrojtje të forta për të bllokuar pyetjet dhe përgjigjet me rrezik, si dhe të zhvillojnë teknika për “zh-mësim” (machine unlearning), që chatbot-ët të “harrojnë” informacionin e paligjshëm që kanë përvetësuar. Modelet e errëta të AI-së duhet të konsiderohen si rreziqe serioze për sigurinë, të krahasueshme me armët e palicencuara apo eksplozivët, dhe ofruesit duhet të mbahen përgjegjës, thuhet në raport.

Dr. Ihsen Alouani, ekspert për sigurinë e AI në Queen’s University Belfast, u shpreh se sulmet jailbreak mund të përbëjnë rrezik real, duke përfshirë nga udhëzime për ndërtimin e armëve deri te disinformimi i besueshëm apo mashtrimet e automatizuara të sofistikuara.

“Një pjesë kyçe e zgjidhjes është që kompanitë të investojnë më seriozisht në testime përmes red teaming dhe në teknika për forcimin e modelit, në vend që të mbështeten vetëm te mbrojtjet në ndërfaqe. Po ashtu na duhen standarde më të qarta dhe mbikëqyrje e pavarur për t’iu përgjigjur peizazhit të rrezikut që po evoluon me shpejtësi,” tha ai.

Prof. Peter Garraghan, ekspert i sigurisë së AI në Lancaster University, tha: “Organizatat duhet të trajtojnë modelet e mëdha gjuhësore njësoj si çdo komponent tjetër kritik të softuerit – që kërkon testim të rreptë për sigurinë, red teaming të vazhdueshëm dhe modelim kontekstual të kërcënimeve.”

“Po, jailbreak-ët janë shqetësim, por pa një kuptim të plotë të të gjithë strukturës së AI-së, llogaridhënia do të mbetet sipërfaqësore. Siguria e vërtetë kërkon jo vetëm raportim të përgjegjshëm, por edhe dizajn dhe zbatim të përgjegjshëm,” shtoi ai.

OpenAI, kompania që zhvilloi ChatGPT, tha se modeli i saj më i fundit “o1” është në gjendje të arsyetojë mbi politikat e sigurisë të kompanisë, gjë që përmirëson rezistencën ndaj jailbreak-ëve. Kompania shtoi se është gjithmonë në kërkim të mënyrave për ta bërë programin më të fortë ndaj manipulimeve.

Meta, Google, Microsoft dhe Anthropic janë kontaktuar për koment. Microsoft u përgjigj duke ofruar një link nga blogu i saj mbi përpjekjet për të parandaluar jailbreak-et.

Theguardian

Admin

Postime të ngjashme