Formatul PDF, deși omniprezent în mediul digital, rămâne dificil de procesat pentru sistemele de inteligență artificială (AI). Specialiștii avertizează că limitările tehnice ale acestui format ar putea, pe termen lung, să conducă la apariția unor alternative mai ușor de citit și interpretat de către mașini, potrivit ilpost.

PDF-ul (Portable Document Format) a fost dezvoltat de compania Adobe în 1993, cu scopul de a permite deschiderea și vizualizarea documentelor pe orice dispozitiv fără a altera aspectul lor. În deceniile care au urmat, formatul a devenit standardul preferat pentru documente oficiale, formulare administrative, lucrări academice și materiale de lucru.

Problema principală este că PDF-urile au fost concepute pentru citirea umană, nu pentru procesarea automată. Chiar și modelele moderne de AI, capabile să interpreteze texte complexe, întâmpină dificultăți atunci când încearcă să extragă informații din documente PDF structurate în coloane, cu tabele sau grafice.

În aceste cazuri, programele pot interpreta greșit ordinea informațiilor, generând rezultate confuze sau incomplete.

Din punct de vedere tehnic, un PDF se comportă mai degrabă ca o „fotografie” digitală a unei pagini. Fișierul conține instrucțiuni pentru redarea exactă a aspectului documentului, ceea ce face necesară utilizarea tehnologiilor de recunoaștere optică a caracterelor (OCR) pentru transformarea imaginii în text.

Sisteme OCR funcționează acceptabil pentru documente simple, însă întâmpină probleme majore când fișierele includ scanări, note scrise de mână sau elemente grafice complexe.

Alte formate, precum HTML, oferă avantaje semnificative pentru AI. Acestea includ etichete care marchează structura documentului — titluri, subtitluri, paragrafe — facilitând extragerea și analizarea datelor.

Limitările PDF-urilor reprezintă o provocare majoră pentru industria AI. Companiile se confruntă cu dificultăți în analizarea sau rezumarea documentelor și, în același timp, accesul la un volum imens de date „nestructurate” este restricționat. Estimările arată că între 80% și 90% din datele stocate în companii sunt greu de procesat automat, incluzând PDF-uri, înregistrări audio sau video.

Pentru a răspunde acestei nevoi, mai multe companii caută soluții inovatoare. Startup-ul israelian Factify a atras recent peste 70 de milioane de dolari pentru dezvoltarea unui nou format de document, conceput să păstreze avantajele PDF-ului, dar să fie mai prietenos cu AI.

În paralel, compania europeană Mistral lucrează la un sistem OCR bazat pe inteligență artificială, destinat să îmbunătățească citirea PDF-urilor, deși rezultatele actuale nu depășesc semnificativ tehnologiile existente.

În prezent, PDF-ul rămâne standardul dominant pentru documentele digitale, însă presiunea pentru dezvoltarea unor formate mai ușor de analizat de către mașini crește pe măsură ce AI-ul devine tot mai prezent în procesarea datelor.