Războiul AI. Google DeepMind dezvăluie noul său model video

Războiul AI. Google DeepMind dezvăluie noul său model videoDeepMind / sursa foto: dreamstime.com

Google DeepMind, laboratorul de cercetare AI de vârf al Google, prin Veo2, vrea să învingă OpenAI în jocul generării de videoclipuri — și s-ar putea să reușească, cel puțin pentru o vreme.

Veo2, un update al  aplicației Veo de la GoogleDeepMind

Luni, DeepMind a anunțat Veo2, o inteligență artificială de generație următoare pentru generarea de videoclipuri și succesorul Veo, care alimentează un număr tot mai mare de produse din portofoliul Google. Veo2 poate crea clipuri de peste două minute în rezoluții de până la 4k. (4096 x 2160 pixels).

În mod notabil, aceasta este de patru ori rezoluția — și de peste șase ori durata — pe care Sora de la OpenAI o poate atinge.

Este un avantaj teoretic pentru moment, desigur. În instrumentul experimental de creare video al Google, VideoFX, unde Veo2 este acum disponibil exclusiv, videoclipurile sunt limitate la 720p și opt secunde în lungime. (Sora can produce up to 1080p, 20-second-long clips.)

VideoFX se află pe o listă de așteptare, dar Google spune că extinde numărul de utilizatori care pot avea acces la el în această săptămână.

Veo2, disponibil pe VertexAI

Eli Collins, vice președintele de producție de la DeepMind, a declarat de asemenea pentru TechCrunch că Google va face Veo2 disponibil prin intermediul platformei sale pentru dezvoltatori Vertex AI „pe măsură ce modelul devine pregătit pentru utilizare la scară largă.”

„În următoarele luni, vom continua să iterăm pe baza feedback-ului de la utilizatori,” a spus Collins, „și [vom] căuta să integrăm capabilitățile actualizate ale Veo 2 în cazuri de utilizare convingătoare în întregul ecosistem Google … [Ne] așteptăm să împărtășim mai multe actualizări anul viitor.”

Veo2: „înțelegere” îmbunătățită a fizicii și a controalelor camerei

La fel ca Veo, Veo2 poate genera videoclipuri date cu un prompt text (de exemplu, „O mașină care aleargă pe o autostradă”) sau text și o imagine de referință.

Deci, ce este nou în Veo2? Ei bine, DeepMind spune că modelul, care poate genera clipuri într-o gamă variată de stiluri, are o „înțelegere” îmbunătățită a fizicii și a controalelor camerei și produce imagini „mai clare”.

Prin mai clare, DeepMind se referă la faptul că texturile și imaginile din clipuri sunt mai clare — în special în scenele cu multă mișcare.

În ceea ce privește controalele îmbunătățite ale camerei, acestea permit Veo 2 să poziționeze „camera” virtuală în videoclipurile pe care le generează mai precis și să mute acea cameră pentru a captura obiecte și persoane din unghiuri diferite.

Veo2 poate modela mai realist mișcarea și dinamica fluidelor

DeepMind susține, de asemenea, că Veo2 poate modela mai realist mișcarea, dinamica fluidelor (cum ar fi cafeaua turnată într-o cană) și proprietățile luminii. (such as shadows and reflections). Aceasta include diferite lentile și efecte cinematice, spune DeepMind, precum și expresia umană „nuanțată”.

Compania a împărtășit săptămâna trecută câteva exemple selectate cu atenție din Veo2 cu TechCrunch. Pentru videoclipurile generate de AI, arătau destul de bine — chiar excepțional de bine. Veo2 pare să aibă o înțelegere solidă a refracției și a lichidelor dificile, cum ar fi siropul de arțar, și un talent pentru a emula animația în stil Pixar.

Collins: Coerența și consistența sunt domenii în care putem crește

Dar, în ciuda insistențelor DeepMind că modelul este mai puțin probabil să halucineze elemente precum degete suplimentare sau „obiecte neașteptate”, Veo2 nu reușește să depășească complet valea stranie.

„Coerența și consistența sunt domenii în care putem crește. Veo poate respecta constant un prompt timp de câteva minute, dar [nu poate] respecta prompturi complexe pe termen lung. În mod similar, consistența personajelor poate fi o provocare. Există, de asemenea, loc de îmbunătățire în generarea detaliilor complexe, a mișcărilor rapide și complexe și în continuarea extinderii granițelor realismului”, a mai spus el.

Veo2 folosește YouTube pentru a se antrena

Veo2 a fost antrenat pe multe videoclipuri. Așa funcționează, în general, modelele de inteligență artificială: Furnizate cu exemplu după exemplu de o formă de date, modelele identifică tipare în datele respective care le permit să genereze date noi.

DeepMind nu va spune exact de unde a preluat videoclipurile pentru a antrena Veo2, dar YouTube este o posibilă sursă; Google deține YouTube, iar DeepMind a declarat anterior pentru TechCrunch că modelele Google, precum Veo, „pot” fi antrenate pe unele conținuturi de pe YouTube.

„Veo a fost antrenat pe perechi de videoclipuri-descriere de înaltă calitate,” a spus Collins. „Perechile video-descriere sunt un videoclip și descrierea asociată a ceea ce se întâmplă în acel videoclip.”

DeepMind consideră că nu este obligată să ceară permisiunea de la deținătorii de date

Deși DeepMind, prin intermediul Google, oferă instrumente care permit webmasterilor să blocheze roboții laboratorului de la extragerea datelor de antrenament de pe site-urile lor, DeepMind nu oferă un mecanism prin care creatorii să poată elimina lucrările din seturile sale de antrenament existente.

Laboratorul și compania sa mamă susțin că antrenarea modelelor folosind date publice este utilizare echitabilă, ceea ce înseamnă că DeepMind crede că nu este obligată să ceară permisiunea de la deținătorii de date.

Nu toți creatorii sunt de acord — mai ales în lumina studiilor care estimează că zeci de mii de locuri de muncă în film și televiziune ar putea fi afectate de IA în următorii ani.

Mai multe companii de inteligență artificială, inclusiv startup-ul omonim din spatele popularului aplicație de artă AI Midjourney, se află în vizorul proceselor care le acuză de încălcarea drepturilor artiștilor prin antrenarea pe conținut fără consimțământ.

„Suntem dedicați colaborării cu creatorii și partenerii noștri pentru a atinge obiective comune. Continuăm să colaborăm cu comunitatea creativă și cu oamenii din întreaga industrie, adunând informații și ascultând feedback-ul, inclusiv de la cei care folosesc VideoFX”, a spus Collins.

Actualizări pentru Image 3 anunțate de Google DeepMind

În plus față de Veo 2, Google DeepMind a anunțat în această dimineață actualizări pentru Imagen 3, modelul său comercial de generare a imaginilor.

O nouă versiune a Imagen 3 este disponibilă pentru utilizatorii ImageFX, instrumentul de generare a imaginilor al Google, începând de luni. Poate crea imagini și fotografii „mai luminoase, mai bine compuse” în stiluri precum fotorealism, impresionism și anime, conform DeepMind.

„Această actualizare [la Imagen 3] urmează de asemenea comenzile mai fidel și redă detalii și texturi mai bogate,” a scris DeepMind într-un post pe blog furnizat către TechCrunch.

Lansarea modelului vine împreună cu actualizări ale interfeței utilizatorului pentru ImageFX.

Acum, când utilizatorii introduc sugestii, termenii cheie din acele sugestii vor deveni „chipuri” cu un meniu derulant de cuvinte sugerate și relevante.

Utilizatorii pot folosi chipurile pentru a itera ceea ce au scris sau pot selecta dintr-o serie de descriptorii auto-generați de sub prompt.