Les Défis de l’IA avec les PDF

Vous avez probablement déjà fait l’expérience d’uploader un PDF dans un chatbot d’intelligence artificielle, espérant qu’il résume un rapport, extrait des tableaux ou déniche une donnée précise en quelques secondes. Dans certains cas, cela fonctionne admirablement. Cependant, il arrive fréquemment que le résultat soit déconcertant : colonnes mélangées, notes de bas de page insérées en plein milieu du texte, tableaux transformés en blocs illisibles ou réponses qui n’évoquent pas fidèlement le contenu du document. Ce phénomène met en relief une paradoxale réalité : alors que ces systèmes affichent des avancées notables en mathématiques et en programmation, ils continuent de rencontrer des obstacles avec un format aussi banal que le PDF.

Un Changement de Mentalité

Pour nous, un PDF peut sembler être un document bien structuré avec paragraphes, titres et tableaux. Cependant, pour l’IA qui tente de l’analyser, la situation est bien différente. Un PDF est principalement une représentation visuelle d’une page, et lorsque des chatbots comme Gemini ou ChatGPT s’y attaquent, ils n’accèdent pas toujours à une structure claire. Ils se retrouvent face à un ensemble d’instructions graphiques qu’ils doivent d’abord déchiffrer pour pouvoir donner une réponse cohérente. Cette complexité est renforcée par la manière dont l’information est stockée dans un PDF.

La Structure des Données dans un PDF

Contrairement à une page web où le contenu suit un ordre logique défini dans le code, un PDF peut contenir du texte comme des fragments isolés placés à des emplacements spécifiques. Souvent, l’archive conserve des coordonnées et des instructions de positionnement, mais sans nécessairement établir de relations explicites entre les phrases. Par conséquent, l’ordre dans lequel le texte apparaît lors de son extraction peut différer de l’ordre dans lequel nous le lisons. Dans le cas où le document contient plusieurs colonnes ou éléments superposés, le système doit déduire comment tout cela s’imbrique, ce qui n’est pas toujours trivial.

La Comparaison avec le HTML

Sur une page web, le contenu est organisé en une hiérarchie explicite. Des balises définissent ce qu’est un titre, un paragraphe ou un tableau, et comment ces éléments interagissent. Cette structure aide d’autres systèmes à lire, indexer et traiter l’information. En revanche, dans un PDF, cette couche sémantique peut être absente ou mal définie, rendant l’extraction d’informations bien plus complexe comparativement à une page web.

Le Rôle du OCR

La première solution qui vient à l’esprit est l’OCR (reconnaissance optique de caractères). Si le problème réside dans la structure ou si le texte est présenté comme une image, l’OCR devrait le rendre lisible. En partie, c’est effectivement ce qu’il fait. L’OCR est utilisé depuis des décennies pour transformer des images de mots en texte, mais transformer une image en texte ne garantit pas la reconstruction de la logique du document. Avec des éléments variés, le système peut reconnaître chaque mot sans savoir comment ils s’assemblent. Par conséquent, l’échec ne réside pas tant dans la lecture des caractères, mais dans l’organisation des informations.

Pourquoi Rester avec le Format PDF?

La réponse à cette question est plus pragmatique que technologique. Comme l’indique The Verge, le format PDF a été consolidé précisément pour garantir qu’un document apparaîtra de la même façon dans dix ou vingt ans, peu importe le dispositif ou logiciel utilisé pour l’ouvrir. Contrairement à une page web, qui peut changer selon le navigateur, un PDF préserve son apparence et son intégrité visuelle. C’est cette stabilité qui est cruciale pour divers métiers, tels que les avocats ou les ingénieurs, ainsi que les administrations publiques qui doivent conserver des dossiers fiables. Le véritable défi réside donc dans notre capacité à mieux interpréter ce format, plutôt que de tenter de le remplacer.

Images | Xataka avec Nano Bana



F1-ES