Interesado ka ba sa kanila MGA ALOK? I-save gamit ang aming mga kupon sa WHATSAPP o telegrama!

Mayroong isang malaking problema na pumipigil sa pagsasanay ng mga neural network

Sa dinamikong mundo ngkatalinuhan artipisyal, ang mga nangungunang kumpanya ng teknolohiya ay nahaharap sa isang hindi inaasahang hamon na maaaring makapagpabagal sa bilis ng pagbabago: ang paglaki kahirapan sa paghahanap ng datos ng kalidad para sa pagsasanay ng kanilang mga modelo. Ang kakulangan ng data na ito ay nakakaapekto sa pagbuo ng mga advanced na teknolohiya tulad ng GPT-5, habang ang mga kumpanyang may kalibre ng Microsoft at OpenAI ay naghahanap ng mga makabagong solusyon para malampasan ang balakid na ito.

Mga hamon sa pagsasanay sa AI: May kagutuman para sa data at nagpapabagal ito sa pag-unlad

Sa isang panahon na minarkahan ng isang walang uliran na pagtaas sa kapangyarihan sa pag-compute at ang pagsulong ng mga diskarte sa pag-aaral ng machine, ang OpenAI at ang mga katulad nito ay nahaharap sa isang kabalintunaan: Ang kasaganaan ng online na data ay hindi awtomatikong naisasalin sa isang magagamit na mapagkukunan para sa pagsasanay sa AI. Ang kailangan ng tumpak na data, ang nauugnay at napapanahon ay mas kritikal kaysa dati, lalo na pagdating sa pagsasanay sa mga nagiging kumplikadong modelo tulad ng nakaplanong GPT-5.

Ang paglipat mula sa GPT-4 patungo sa GPT-5 ay naglalarawan ng exponential na paglaki na ito sa demand ng data: habang ang una ay nangangailangan ng "lamang" ng 12 trilyong token, ang mga pagtatantya para sa kahalili ay nasa paligid. 60-100 trilyon. Ang pagkakaiba sa pagitan ng pagkakaroon at pangangailangan para sa mataas na kalidad na data ay lumilitaw bilang isang malaking balakid, na tinatantya ang isang kakulangan na maaaring nasa pagitan ng 10 at 20 trilyong token.

openai logo sa smartphone sa puting background

Ang kakulangan sa kalidad ng data ay isinasalin sa isang tunay na bottleneck para sa pagsulong ng AI. Ang madalas na hindi na ginagamit o mababang kalidad na data na namumuno sa web ay kumakatawan sa isang seryoso limitasyon para sa pagiging epektibo ng machine learning. Bilang karagdagan, ang mga paghihigpit na ipinataw ng pag-access ng data ng malalaking platform ay nagpapalala lamang sa problema, na lalong naglilimita sa mga mapagkukunang magagamit para sa pagsasanay. mga modelong pangwika.

Bilang tugon sa hamon na ito, ang mga diskarte na pinagtibay ay nag-iiba mula sa mga teknikal na inobasyon hanggang sa madiskarteng pakikipagsosyo. Ang OpenAI, halimbawa, ay naglalayong pahusayin anggamit ang data ng audio at video sa pamamagitan ng Whispe speech recognition tool nitor, upang mapalawak ang pool ng magagamit na data. Kaayon, tinutuklasan ng kumpanya ang posibilidad ng bumuo ng sintetikong data ng kalidad na maaaring magsilbi upang punan ang umiiral na puwang.

Gianluca Cobucci
Gianluca Cobucci

Masigasig tungkol sa code, mga wika at wika, mga interface ng tao-machine. Lahat ng may kinalaman sa teknolohikal na ebolusyon ay interesado sa akin. Sinusubukan kong ipalaganap ang aking pagnanasa nang may sukdulang kalinawan, umaasa sa mga mapagkakatiwalaang mapagkukunan at hindi "lamang ang unang sumama".

sumuskribi
Abisuhan ako
bisita

0 Comments
Mga Paunang puna sa Inline
Tingnan ang lahat ng mga komento
XiaomiToday.it
logo