Mga mananaliksik sa laboratoryo ng pananaliksik Google Deepmind nagawa nilang pilitin ChatGPT para ibunyag ang personal na data ng ilang user. Hindi na nila kailangang gumamit ng code modification o iba pang teknikal na trick. Bukod dito, ang mga eksperto ay may kahit na tinukoy ang natuklasang paraan”medyo tanga", bagaman, tulad ng nangyari, ito ay napaka-epektibo. Talagang natuklasan nila ang kahinaan sa ChatGPT na ito sa pamamagitan ng pag-uudyok ng guni-guni ng modelo ng wika sa medyo kakaibang paraan.
Ang kahinaan ng ChatGPT ay nagbigay ng personal na data ng mga user sa ilalim ng 'hypnosis'
Ang modelo ng wika ay bumubuo ng impormasyon batay sa data ng input na ginamit upang sanayin ito. Hindi ibinubunyag ng OpenAI ang mga nilalaman ng mga dataset, ngunit pinilit ng mga mananaliksik ang ChatGPT na gawin ito, na nilalampasan ang mga patakaran ng kumpanya. Ang pamamaraan ay ang mga sumusunod: ito ay dumating lamang sa neural network hiniling na ulitin ang salitang "tula" nang paulit-ulit.
Bilang resulta, paminsan-minsang gumawa ang bot ng impormasyon mula sa dataset ng pagsasanay nito. Halimbawa, nagawa ng mga mananaliksik na kumuha ng email address, numero ng telepono at iba pang mga contact ng CEO ng isang partikular na kumpanya (nakatago ang kanyang pangalan sa ulat). At nang hilingin sa AI na ulitin ang salitang "kumpanya," pinahintulutan ito ng kahinaan ng ChatGPT na ibalik ang mga detalye ng isang law firm ng US.
Gamit ang simpleng "hipnosis," ang mga mananaliksik ay nakakuha ng tugma mula sa mga dating site, mga fragment ng mga tula, mga address Bitcoin, mga kaarawan, mga link na nai-publish sa mga social network, naka-copyright na mga fragment ng research paper at maging ang mga text mula sa mga pangunahing portal ng balita. Pagkatapos gumastos lamang ng $200 sa mga token, nakatanggap ang mga empleyado ng Google DeepMind ng humigit-kumulang 10.000 snippet ng dataset.
Nalaman din ng mga eksperto na kung mas malaki ang modelo, mas madalas itong gumagawa ng pinagmulan ng dataset ng pagsasanay. Upang gawin ito, tumingin sila sa iba pang mga modelo at i-extrapolated ang resulta sa mga sukat ng GPT-3.5 Turbo. Inaasahan ng mga siyentipiko na makatanggap ng 50 beses na higit pang mga yugto ng impormasyon mula sa dataset ng pagsasanay, ngunit ginawa ng chatbot ang data na ito nang 150 beses na mas madalas. Ang isang katulad na "butas" ay natuklasan sa ibang mga modelo ng wika, halimbawa sa LLaMA ng Meta.
Opisyal, inayos ng OpenAI ang kahinaang ito noong ika-30 ng Agosto. Ngunit, ayon sa mga mamamahayag ng Engadget, nakuha mo pa rin ang data ng ibang tao (pangalan ng Skype at pag-login) gamit ang pamamaraang inilarawan sa itaas. Ang mga kinatawan ng Hindi tumugon ang OpenAI sa pagtuklas ng kahinaan sa ChatGPT na ito ngunit sigurado kami na gagawin nila.