Ang ebolusyon ng mga modelong pangwika ng malalaking dimensyon ay nagbukas ng mga bagong abot-tanaw sa komunikasyon at artipisyal na katalinuhan, ngunit nagdadala ito ng mga mahahalagang hamon at mga tanong sa etika. Isang kamakailang pag-aaral ni Nanyang Technological University of Singapore galugarin isang bagong algorithm, Masterkey, na idinisenyo upang "mag-jailbreak" o magtagumpay sa mga limitasyong ipinataw sa iba pang mga neural network tulad ng Chat GPT e Google Bard, nagtataas ng mahahalagang tanong tungkol sa kaligtasan at etika sa paggamit ng mga teknolohiya ng artificial intelligence.
Ang makabago at simpleng diskarte ng Masterkey sa pagsasaliksik sa seguridad ng mga chatbot tulad ng ChatGPT at Bard
Sa kamakailang pananaliksik na isinagawa ng Nanyang Technological University sa Singapore, isang makabagong diskarte ang ipinakilala upang tugunan at malampasan ang mga limitasyong ito. Ang kanilang algorithm, na kilala bilang Masterkey, ay idinisenyo upang bypass restriction na ipinataw sa iba pang neural network sa pamamagitan ng mga sopistikadong pamamaraan ng jailbreaking (katagang ginamit sa Apple ecosystem). Ito ay hindi lamang nagha-highlight ng mga potensyal na kahinaan ng mga kasalukuyang modelo ng wika ngunit nagbibigay din ng daan para sa mga bagong pamamaraan upang mapabuti ang kanilang seguridad at pagiging epektibo.
Ang Masterkey ay nagpapatakbo sa pamamagitan ng mga partikular na kahilingan sa teksto, na maaaring itulak ang mga modelo tulad ng ChatGPT na kumilos sa mga hindi inaasahang paraan, tulad ng pakikipag-usap sa mga paraan na itinuturing na hindi etikal o pag-bypass sa mga filter ng seguridad. Ang mga diskarte sa pag-jailbreak na ito, kahit na mukhang kapaki-pakinabang para sa pagsubok at pagpapatigas ng mga modelo, ay kumakatawan din isang tabak na may dalawang talim, dahil maaaring gamitin ang mga ito para sa malisyosong layunin.
Ang pangkat ng pananaliksik pinag-aralan niya partikular ang mga kahinaan sa seguridad ng mga modelo ng wika kapag nahaharap sa mga multilinggwal na cognitive load, nakatalukbong na mga ekspresyon, at dahilan-at-bunga na pangangatwiran. Ang mga pag-atakeng ito, tinukoy bilang "cognitive overload", ay partikular na mapanlinlang dahil hindi sila nangangailangan ng malalim na kaalaman sa arkitektura ng modelo o pag-access sa mga timbang nito na isasagawa, na ginagawa itong epektibong pag-atake ng black-box.
Basahin din ang: Paano Makakakuha ng Mahuhusay na Mga Tugon sa ChatGPT: Ang Paraan ng Tip na Foolproof
Sa detalye, ang pangkat ng pananaliksik ay nagpatibay ng isang diskarte ng reverse engineering upang lubos na maunawaan ang mga depensa ng mga artificial intelligence system at bumuo ng mga makabagong pamamaraan upang madaig ang mga ito. Ang resulta ng diskarteng ito ay ang "Masterkey", isang modelo, isang uri ng balangkas na dinisenyo para sa awtomatikong bumubuo ng mga senyas na lumalampas sa mga mekanismo ng seguridad.
Ang mga resulta ay makabuluhan: ang mga senyas na nabuo ng Masterkey ay nagpakita ng isang rate ng average na tagumpay ng 21,58%, mas mataas kaysa sa 7,33% ng mga naunang pamamaraan. Ang isang halimbawa ng kanilang pamamaraan ay kinabibilangan ng pagdaragdag dagdag na espasyo sa pagitan ng mga character upang maiwasan ang mga sistema ng pagtuklas ng keyword sa ChatGPT at Bard. Isang tunay na "uto" na diskarte kung iisipin natin ang pagiging kumplikado ng isang malaking modelo ng linggwistika.
Sa harap ng mga natuklasang ito, mahalagang isaalang-alang hindi lamang kung paano mapapabuti ang mga modelo ng wika upang labanan ang mga naturang pag-atake, kundi pati na rin ang kahalagahan ng etikal na regulasyon sa paggamit ng artificial intelligence. Itinatampok ng pananaliksik ang pagkaapurahan ng mas matatag na mga diskarte sa pagtatanggol at patuloy na pag-uusap sa pagitan ng mga developer, mananaliksik at mga gumagawa ng patakaran upang matiyak na ang pag-unlad ng teknolohiya ay hindi hihigit sa kakayahan ng lipunan na pamahalaan ang mga implikasyon nito.