Un nou sistem AI poate recrea perfect vocile umane. Cât de periculoasă va fi tehnologia

Un nou sistem AI poate recrea perfect vocile umane. Cât de periculoasă va fi tehnologiaInteligența artificială AI. Sursă foto: Dreamstime

Inteligența artificială schimbă regulile pe care le cunoaștem despre lume. VALL-E 2 de la Microsoft poate recrea în mod convingător vocile umane folosind doar câteva secunde de sunet, susțin creatorii săi. Microsoft a dezvoltat un nou generator de vorbire cu inteligență artificială (AI), care se pare că este atât de convingător încât nu poate fi făcut public.

VALL-E 2 este un generator text-to-speech (TTS) care poate reproduce vocea unui vorbitor uman folosind doar câteva secunde de sunet. Cercetătorii Microsoft au declarat că VALL-E 2 a fost capabil să genereze „o vorbire precisă și naturală în vocea exactă a vorbitorului original, comparabilă cu performanța umană". Cu alte cuvinte, noul generator de voce AI este suficient de convingător pentru a fi confundat cu o persoană reală - cel puțin, potrivit creatorilor săi.

Sistemul AI care poate recrea vocile umane

„VALL-E 2 este cel mai recent progres în modelele de limbaj cu codec neuronal care marchează o etapă importantă în sinteza text-to-speech (TTS) zero-shot. Acest sistem atinge pentru prima dată paritatea umană. În plus, VALL-E 2 sintetizează în mod constant un discurs de înaltă calitate. Pot fi interpretate și propoziții care sunt în mod tradițional dificile din cauza complexității lor sau a frazelor repetitive", au scris cercetătorii în lucrare.

Paritatea umană în acest context înseamnă că vorbirea generată de VALL-E 2 a egalat sau a depășit calitatea vorbirii umane în standardele de referință utilizate de Microsoft. Motorul AI este capabil de acest lucru datorită includerii a două caracteristici cheie: „Repetition Aware Sampling" și „Grouped Code Modeling".

Repetition Aware Sampling îmbunătățește modul în care AI-ul convertește textul în vorbire prin abordarea repetițiilor de „tokens". Acestea sunt unități mici de limbaj, cum ar fi cuvinte sau părți de cuvinte. Astfel, sunt prevenite buclele infinite de sunete sau fraze în timpul procesului de decodare. Cu alte cuvinte, această caracteristică ajută la varierea modelului de vorbire al lui VALL-E 2, făcându-l să sune mai fluid și mai natural.

Modelarea codurilor grupate, între timp, îmbunătățește eficiența prin reducerea lungimii secvenței pe care modelul le procesează într-o singură intrare. Acest lucru accelerează viteza cu care VALL-E 2 generează vorbirea și ajută la gestionarea dificultăților care apar la procesarea șirurilor lungi de sunete.

Mostre audio

Cercetătorii au folosit mostre audio din bibliotecile de vorbire LibriSpeech și VCTK. Scopul a fost de a evalua cât de bine se potrivește VALL-E 2 cu înregistrările vorbitorilor umani. De asemenea, au utilizat ELLA-V. Acesta este un cadru de evaluare conceput pentru a măsura precizia și calitatea discursului generat. Scopul este de a determina cât de eficient a gestionat VALL-E 2 sarcini mai complexe de generare a discursului.

„Experimentele noastre, efectuate pe seturile de date LibriSpeech și VCTK, au arătat că VALL-E 2 depășește sistemele TTS zero-shot anterioare. Acesta se remarcă prin claritatea discursului, naturalețea și similaritatea vorbitorului. Este primul de acest gen care atinge paritatea umană în aceste criterii de referință", au spus cercetătorii.

Calitatea rezultatului VALL-E 2 a depins de durata și de calitatea mostrelor vocale, precum și de factorii de mediu, cum ar fi zgomotul de fond.

Pur și simplu un proiect de cercetare

În ciuda capacităților sale, Microsoft nu va face public VALL-E 2 din cauza potențialelor riscuri de utilizare abuzivă. Acest lucru coincide cu preocupările tot mai mari legate de clonarea vocii și tehnologia deepfake. Alte companii de inteligență artificială, precum OpenAI, au impus restricții similare asupra tehnologiei lor vocale.

„VALL-E 2 este pur și simplu un proiect de cercetare. În prezent, nu avem planuri de a încorpora VALL-E 2 într-un produs sau de a extinde accesul la public", au scris cercetătorii într-o postare pe blog. „Acesta poate comporta riscuri potențiale în utilizarea abuzivă a modelului. Printre acestea se numără falsificarea identificării vocale sau impersonarea unui anumit vorbitor", au adăugat experții.

Aplicații practice în viitor

Acestea fiind spuse, ei au sugerat că tehnologia de vorbire AI ar putea vedea aplicații practice în viitor. "VALL-E 2 ar putea sintetiza vorbirea care menține identitatea vorbitorului. Ar putea fi utilizată pentru învățarea educațională, divertisment, jurnalism, conținut de autor, caracteristici de accesibilitate, sisteme interactive de răspuns vocal, traducere, chatbot și așa mai departe", au adăugat cercetătorii.

„Dacă modelul este generalizat la vorbitori nevăzuți din lumea reală, acesta ar trebui să includă un protocol. Scopul este de a asigura faptul că vorbitorul aprobă utilizarea vocii sale", conform Live Science.