International

Un nou sistem AI poate recrea perfect vocile umane. Cât de periculoasă va fi tehnologia

Bianca Pislaru
14 iulie 2024, 23:08

Comentează știrea

Un nou sistem AI poate recrea perfect vocile umane. Cât de periculoasă va fi tehnologia

Inteligența artificială AI. Sursă foto: Dreamstime

Adaugă-ne ca sursă preferată în Google

Urmărește-ne pe Google News

Din cuprinsul articolului

Sistemul AI care poate recrea vocile umane
Mostre audio
Pur și simplu un proiect de cercetare
Aplicații practice în viitor

Inteligența artificială schimbă regulile pe care le cunoaștem despre lume. VALL-E 2 de la Microsoft poate recrea în mod convingător vocile umane folosind doar câteva secunde de sunet, susțin creatorii săi. Microsoft a dezvoltat un nou generator de vorbire cu inteligență artificială (AI), care se pare că este atât de convingător încât nu poate fi făcut public.

VALL-E 2 este un generator text-to-speech (TTS) care poate reproduce vocea unui vorbitor uman folosind doar câteva secunde de sunet. Cercetătorii Microsoft au declarat că VALL-E 2 a fost capabil să genereze „o vorbire precisă și naturală în vocea exactă a vorbitorului original, comparabilă cu performanța umană". Cu alte cuvinte, noul generator de voce AI este suficient de convingător pentru a fi confundat cu o persoană reală - cel puțin, potrivit creatorilor săi.

Sistemul AI care poate recrea vocile umane

„VALL-E 2 este cel mai recent progres în modelele de limbaj cu codec neuronal care marchează o etapă importantă în sinteza text-to-speech (TTS) zero-shot. Acest sistem atinge pentru prima dată paritatea umană. În plus, VALL-E 2 sintetizează în mod constant un discurs de înaltă calitate. Pot fi interpretate și propoziții care sunt în mod tradițional dificile din cauza complexității lor sau a frazelor repetitive", au scris cercetătorii în lucrare.

Paritatea umană în acest context înseamnă că vorbirea generată de VALL-E 2 a egalat sau a depășit calitatea vorbirii umane în standardele de referință utilizate de Microsoft. Motorul AI este capabil de acest lucru datorită includerii a două caracteristici cheie: „Repetition Aware Sampling" și „Grouped Code Modeling".

Repetition Aware Sampling îmbunătățește modul în care AI-ul convertește textul în vorbire prin abordarea repetițiilor de „tokens". Acestea sunt unități mici de limbaj, cum ar fi cuvinte sau părți de cuvinte. Astfel, sunt prevenite buclele infinite de sunete sau fraze în timpul procesului de decodare. Cu alte cuvinte, această caracteristică ajută la varierea modelului de vorbire al lui VALL-E 2, făcându-l să sune mai fluid și mai natural.

Modelarea codurilor grupate, între timp, îmbunătățește eficiența prin reducerea lungimii secvenței pe care modelul le procesează într-o singură intrare. Acest lucru accelerează viteza cu care VALL-E 2 generează vorbirea și ajută la gestionarea dificultăților care apar la procesarea șirurilor lungi de sunete.

Mostre audio

Cercetătorii au folosit mostre audio din bibliotecile de vorbire LibriSpeech și VCTK. Scopul a fost de a evalua cât de bine se potrivește VALL-E 2 cu înregistrările vorbitorilor umani. De asemenea, au utilizat ELLA-V. Acesta este un cadru de evaluare conceput pentru a măsura precizia și calitatea discursului generat. Scopul este de a determina cât de eficient a gestionat VALL-E 2 sarcini mai complexe de generare a discursului.

„Experimentele noastre, efectuate pe seturile de date LibriSpeech și VCTK, au arătat că VALL-E 2 depășește sistemele TTS zero-shot anterioare. Acesta se remarcă prin claritatea discursului, naturalețea și similaritatea vorbitorului. Este primul de acest gen care atinge paritatea umană în aceste criterii de referință", au spus cercetătorii.

Calitatea rezultatului VALL-E 2 a depins de durata și de calitatea mostrelor vocale, precum și de factorii de mediu, cum ar fi zgomotul de fond.

Pur și simplu un proiect de cercetare

În ciuda capacităților sale, Microsoft nu va face public VALL-E 2 din cauza potențialelor riscuri de utilizare abuzivă. Acest lucru coincide cu preocupările tot mai mari legate de clonarea vocii și tehnologia deepfake. Alte companii de inteligență artificială, precum OpenAI, au impus restricții similare asupra tehnologiei lor vocale.

„VALL-E 2 este pur și simplu un proiect de cercetare. În prezent, nu avem planuri de a încorpora VALL-E 2 într-un produs sau de a extinde accesul la public", au scris cercetătorii într-o postare pe blog. „Acesta poate comporta riscuri potențiale în utilizarea abuzivă a modelului. Printre acestea se numără falsificarea identificării vocale sau impersonarea unui anumit vorbitor", au adăugat experții.

Aplicații practice în viitor

Acestea fiind spuse, ei au sugerat că tehnologia de vorbire AI ar putea vedea aplicații practice în viitor. "VALL-E 2 ar putea sintetiza vorbirea care menține identitatea vorbitorului. Ar putea fi utilizată pentru învățarea educațională, divertisment, jurnalism, conținut de autor, caracteristici de accesibilitate, sisteme interactive de răspuns vocal, traducere, chatbot și așa mai departe", au adăugat cercetătorii.

„Dacă modelul este generalizat la vorbitori nevăzuți din lumea reală, acesta ar trebui să includă un protocol. Scopul este de a asigura faptul că vorbitorul aprobă utilizarea vocii sale", conform Live Science.

Recomandările noastre

International Cum ironizează rușii performanțele roboților de luptă finanțați de Eric Trump. Vor fi testați în Ucraina.

Social Inteligența artificială poate deveni o armă. Pericolul dezvăluit după incidentul OpenAI

Politica Război între partide pe legea integrității. Cine a introdus, de fapt, prevederile controversate

Social Meta lansează o nouă aplicație. Anunțurile vor fi scrise automat cu inteligența artificială

Social România, la coada UE în agricultura modernă. Cum arată clasamentul european

Social Companiile americane încep să renunțe la CV. Testele și inteligența artificială cântăresc tot mai mult la angajare

Un nou sistem AI poate recrea perfect vocile umane. Cât de periculoasă va fi tehnologia

Sistemul AI care poate recrea vocile umane

Mostre audio

Pur și simplu un proiect de cercetare

Aplicații practice în viitor

Recomandările noastre

Stiri calde

08:55 - Cât muncește un profesor. De ce Ilie Bolojan ignoră adevărul despre norma didactică și „munca invizibilă”

08:48 - Ucraina-pacea imposibilă!

08:41 - Zelenski, convins că Rusia pregătește un nou atac cu rachete. Ce plan ar avea Putin pentru toamna 2026

08:35 - Ce a spus Trump la Cina corespondenților de la Casa Albă, reluată după atacul din aprilie

08:28 - Ciprian Ciucu neagă, DNA prezintă faptele de corupție. Denise Rifai a spus ce s-a întâmplat în biroul primarului

08:21 - Unul dintre cele trei centre globale de comunicații ale NASA, afectat de incendiile de vegetație din Spania

HAI România!

Ucraina-pacea imposibilă!

Spionul care a stat la masă cu Ceaușescu și regina Angliei

Cele două ipostaze ale sceleratului fanariot. Recitind dicționarul Khazar

Proiecte speciale

Utile

GDPR

Rețele sociale