Interesado ka ba sa kanila MGA ALOK? I-save gamit ang aming mga kupon sa WHATSAPP o telegrama!

Ano ang Mamba, ang arkitektura na naglalayong ganap na madaig ang GPT. Bagong panahon ng AI?

Ngayon gusto kong pumunta ng kaunti pang teknikal. Pinag-uusapan natin ang tungkol sa artificial intelligence araw-araw ngunit tama na malaman kung ano ang batayan nito at kung paano ito gumagana. Sa bagay na ito nais kong ipakilala sa iyo Mamba, isang bagong arkitektura na nangangako ng pagbabago i mga modelong pangwika gaya ng pagkakakilala natin sa kanila ngayon. Ang mga tampok ng Mamba, kumpara sa GPT, ay napakahusay pati na rin ang pinapayagan nitong gawin mo.

Ang Mamba ay isang bagong abot-tanaw para sa artificial intelligence

Ang arkitektura ng Transformer, na ipinakilala noong 2016 sa pamamagitan ng papel na "Atensyon ang Kailangan Mo” ng Google, ay kumakatawan sa isang tagumpay para sa mga modelo ng wika, na nagpapahintulot sa kanila na mapanatili ang konteksto sa mga pakikipag-ugnayan. Sa madaling salita: arkitektura Ang Transformer ay isang modelo ng AI na ginagamit para sa paggawa ng mga modelo tulad ng GPT (Generative Pretrained Transformer).

PAANO GUMAGANA ANG TRANSFORMER ARCHITECTURE

Ang puso ng arkitektura ng Transformer ay ang mekanismo ng "pansin“, na nagpapahintulot sa modelo na tumuon sa mga partikular na bahagi ng isang teksto habang bumubuo o nagpoproseso ng isa pa. Ginagawa ng mekanismong ito ang mga Transformer na partikular na epektibo sa pag-unawa sa konteksto at mga kumplikadong relasyon sa loob ng isang teksto. Sa pagsasagawa, ang mga modelong batay sa arkitektura ng Transformer, tulad ng GPT, natututo silang bumuo at umunawa ng wika sa pamamagitan ng dalawang yugto mga pangunahing: pagsasanay (pagsasanay) at hinuha (pagbuo ng teksto).
Sa panahon ng pagsasanay, ang modelo ay sinanay sa malalaking dataset ng teksto upang maunawaan ang mga istrukturang pangwika, mga ugnayan sa pagitan ng mga salita, konteksto, atbp. Sa yugto ng hinuha, ginagamit ng modelo ang natutunan nito upang makabuo ng bagong teksto, sumagot ng mga tanong, magsalin ng mga wika, at iba pang mga gawain sa pagproseso ng wika.

Gayunpaman, ang paglitaw ng Mamba ay maaaring markahan ang simula ng isang bagong panahon. Nangangako ang arkitektura na ito più mahusay, na may kakayahang malampasan ang ilang pangunahing hamon na kinakaharap ng mga kasalukuyang modelo gaya ng GPT. Sa partikular, tatlong pangunahing aspeto ang gumagawa ng Mamba na isang promising architecture:

  • nabawasan ang mga gastos sa hinuha: Ang isang mahalagang aspeto ng Mamba ay ang makabuluhang pagbawas sa mga gastos sa hinuha. Tulad ng sinabi ko dati, ang inference ay ang proseso kung saan ang isang modelo ng AI, pagkatapos na sanayin, ay inilalapat ang natutunan nito sa bagong data, pagbuo ng teksto o mga imahe. Sa mga kumplikadong modelo tulad ng GPT-3 o GPT-4, ang prosesong ito ay maaaring magastos sa mga tuntunin ng mga mapagkukunang computational. Nangako si Mamba bawasan ang mga gastos na ito hanggang limang beses kumpara sa mga modelong nakabatay sa Transformer, na maaaring magkaroon ng malaking epekto, lalo na para sa mga application na nangangailangan ng mabilis na pagbuo ng pagtugon o gumagana sa malalaking dataset;
  • linear attention computation cost: Ang pangalawang bentahe ng Mamba ay may kinalaman sa kahusayan sa pagkalkula ng atensyon. Sa mga modelo ng Transformer, lumalaki ang gastos potensyal (eksaktong sa antas ng kapangyarihan, ito ay hindi isang pigura ng pananalita) habang ang haba ng teksto ay tumataas. Nangangahulugan ito na kung mas mahaba ang teksto, mas maraming mapagkukunan ang kinakailangan upang maproseso ito, na nililimitahan ang pagiging praktikal ng mga modelo sa ilang mga aplikasyon. Nagmumungkahi si Mamba ng solusyon kung saan ang gastos ay lumalaki nang linearly kumpara sa laki ng window ng atensyon, na ginagawang mas mapapamahalaan ang pagproseso ng mga mahahabang teksto at hindi gaanong mabigat sa mga terminong computational;
  • lubhang mas malaking input: Kakayanin ng Mamba ang isang maximum na window ng pag-input hanggang 1 milyong tokenn, higit pa sa posible sa arkitektura ng Transformer. Nangangahulugan ito na ang Mamba ay maaaring, sa teorya, pag-aralan at unawain ang mga napakahabang teksto, tulad ng buong aklat, pagpapanatili ng pagkakaugnay-ugnay at mga detalye sa konteksto. Halimbawa, maaari niyang suriin ang isang buong nobela habang pinapanatili ang isang malinaw na pag-unawa sa mga karakter, plot, at mga tema mula simula hanggang wakas.

Sa kabila ng mga pangako ni Mamba, ang papel nagtataas pagdududa tungkol sa scalability nito, lalo na kung ihahambing sa napakalaking modelo tulad ng GPT-4, na mayroong 175 bilyong parameter. Ang scalability, sa napakasimpleng termino, ay tumutukoy sa kakayahan ng isang sistema na hawakan ang pagtaas ng trabaho o paglaki nang hindi nawawala ang bisa. Isipin ang isang maliit na restaurant na mahusay sa kakaunting customer. Kung magiging tanyag ang restaurant at magsisimulang magkaroon ng mas maraming customer, dapat nitong mahawakan ang pagtaas na ito nang hindi nakompromiso ang kalidad ng serbisyo o pagkain. Kung magtagumpay ito, ito ay "scalable".

Ang Mamba, sa kasalukuyang estado nito, ay nasubok na lamang na may 3 bilyong mga parameter. Kaya, nananatiling hindi tiyak kung ang pagganap at kahusayan nito ay maaaring mapanatili o mapabuti kapag ini-scale sa mas malalaking sukat.

Gianluca Cobucci
Gianluca Cobucci

Masigasig tungkol sa code, mga wika at wika, mga interface ng tao-machine. Lahat ng may kinalaman sa teknolohikal na ebolusyon ay interesado sa akin. Sinusubukan kong ipalaganap ang aking pagnanasa nang may sukdulang kalinawan, umaasa sa mga mapagkakatiwalaang mapagkukunan at hindi "lamang ang unang sumama".

sumuskribi
Abisuhan ako
bisita

0 Comments
Mga Paunang puna sa Inline
Tingnan ang lahat ng mga komento
XiaomiToday.it
logo