Noul AI al lui Google transformă textul în muzică

Tripon Alin
6 Min Read

Cercetătorii Google au creat un AI care poate genera piese muzicale de câteva minute din solicitări de text și poate chiar transforma o melodie fluierată sau fredonată în alte instrumente, similar modului în care sistemele precum DALL-E generează imagini din solicitări scrise (prin TechCrunch). Modelul se numește MusicLM și, deși nu vă puteți juca singur cu el, compania a încărcat o grămadă de mostre pe care le-a produs folosind modelul.

Exemplele sunt impresionante. Există fragmente de 30 de secunde din ceea ce sună a cântece reale create din descrieri lungi de paragrafe care prescriu un gen, o atmosferă și chiar instrumente specifice, precum și piese de cinci minute generate din unul sau două cuvinte precum „tehno melodic. ” Poate că preferatul meu este o demonstrație a „modului poveste”, în care modelului i se oferă practic un script pentru a se transforma între solicitări. De exemplu, acest prompt:

cântec electronic jucat într-un joc video (0:00-0:15)

cântec de meditație jucat lângă un râu (0:15-0:30)

foc (0:30-0:45)

artificii (0:45-0:60)

A rezultat audio pe care îl puteți asculta aici.

Poate că nu este pentru toată lumea, dar am putut vedea în totalitate această ființă compusă de un om (am ascultat-o și în buclă de zeci de ori în timp ce scriam acest articol). De asemenea, pe site-ul demonstrativ sunt prezentate exemple de ceea ce modelul produce atunci când i se cere să genereze clipuri de 10 secunde de instrumente precum violoncelul sau maracas (exemplul ulterioară este unul în care sistemul face o treabă relativ slabă), clipuri de opt secunde ale unui un anumit gen, muzică care s-ar potrivi cu o evadare de închisoare și chiar cum ar suna un pianist începător față de unul avansat. Include, de asemenea, interpretări ale unor fraze precum „club futurist” și „acordeon death metal”.

Citeste si  Google testează Apprentice Bard, o nouă pagină de căutare cu funcții AI precum ChatGPT

MusicLM poate simula chiar și vocea umană și, deși pare să obțină tonul și sunetul general al vocilor corecte, există o calitate a acestora care este cu siguranță dezactivată. Cel mai bun mod în care îl pot descrie este că sună granulat sau static. Această calitate nu este la fel de clară în exemplul de mai sus, dar cred că acesta o ilustrează destul de bine.

Acesta, apropo, este rezultatul faptului că i-am cerut să facă muzică care să cânte la o sală de sport. Poate ați observat, de asemenea, că versurile sunt prostii, dar într-un mod pe care s-ar putea să nu-l înțelegi neapărat dacă nu ești atent – cam ca și cum ai asculta pe cineva cântând în Simlish sau acea melodie care ar trebui să sune ca engleză, dar nu este.

Nu voi pretinde că știu cum a obținut Google aceste rezultate, dar a publicat o lucrare de cercetare care explică în detaliu dacă sunteți genul de persoană care ar înțelege această cifră:

O figură care explică „sarcina de modelare ierarhică secvență-la-secvență” pe care cercetătorii o folosesc împreună cu AudioLM, un alt proiect Google. Diagramă: Google

Muzica generată de AI are o istorie lungă care datează de zeci de ani; Există sisteme cărora li s-a atribuit compunerea de cântece pop, copierea lui Bach mai bine decât ar putea un om în anii 90 și însoțirea spectacolelor live. O versiune recentă folosește motorul de generare de imagini AI StableDiffusion pentru a transforma solicitările de text în spectrograme care sunt apoi transformate în muzică. Lucrarea spune că MusicLM poate depăși alte sisteme în ceea ce privește „calitatea și aderarea la legendă”, precum și faptul că poate prelua audio și copia melodia.

Ultima parte este poate una dintre cele mai tari demonstrații pe care le-au lansat cercetătorii. Site-ul vă permite să redați sunetul de intrare, în cazul în care cineva fredonează sau fluieră o melodie, apoi vă permite să auzi cum modelul îl reproduce ca sintetizator electronic, cvartet de coarde, solo de chitară etc. Din exemplele pe care le-am ascultat, gestionează sarcina foarte bine.

Citeste si  Reddit crede că chatbot-urile AI vor „complementa” conexiunea umană, nu o vor înlocui

Ca și în cazul altor incursiuni în acest tip de AI, Google este mult mai precaut cu MusicLM decât ar putea fi unii dintre colegii săi cu tehnologii similare. „Nu avem de gând să lansăm modele în acest moment”, conchide lucrarea, invocând riscuri de „potențială deturnare a conținutului creativ” (a se citi: plagiat) și potențiala apropriere culturală sau denaturare.

Este întotdeauna posibil ca tehnologia să apară la un moment dat într-unul dintre experimentele muzicale distractive ale Google, dar pentru moment, singurii oameni care vor putea folosi cercetarea sunt alți oameni care construiesc sisteme muzicale AI. Google spune că lansează public un set de date cu aproximativ 5.500 de perechi muzica-text, care ar putea ajuta la antrenarea și evaluarea altor AI muzicale.

Share This Article
2 comentarii

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *