Geçtiğimiz Kasım ayında, Temsilciler Meclisi Gözetim Komitesi Jeffrey Epstein’ın mirasına ait 20,000 sayfalık belgeyi açıkladı. Luke Igel ve arkadaşları, karmaşık e-posta zincirleri ve kullanışsız bir PDF görüntüleyici aracılığıyla konuşma ipuçlarını takip etmeye çalışıyordu. İlerleyen aylarda, Adalet Bakanlığı kendi dosya setlerini yayınladı; bunların sayısı üç milyondan fazlaydı ve hepsi PDF formatındaydı. Bu durum arama yapmayı neredeyse imkansız hale getiriyordu. Igel, hükümetin belgeleri özetlemek için optik karakter tanıma (OCR) uyguladığını ancak bunun pek işe yaramadığını belirtti.
Igel, tüm bu iletişimi daha sezgisel bir şekilde görüntülemek ve aramak için bir Gmail klonu geliştirmeyi düşündü. Bunun için PDF’lerdeki bilgileri çıkarmak gerekiyordu ve bu, görünenden çok daha karmaşık bir süreçti. Edwin Chen, veri şirketi Surge’in CEO’su, PDF formatını yapay zekanın “seksi olmayan başarısızlıkları” arasında sayıyor ve bu durumun gerçek dünya kullanımını sınırladığını ifade ediyor. Son yıllarda, PDF’lerden bilgi çıkarmaya yönelik hızlı ilerlemelere rağmen, bu format hala zorlu bir sorun olarak kalıyor.
İlk olarak, Igel’in arkadaşı “teknoloji şakacısı” Riley Walz, Google’ın Gemini’de kalan kredilerini kullandı. Ancak bu yalnızca temiz tarama örneklerinde güvenilir çalıştığı için Igel, eski MIT sınıf arkadaşı Adit Abraham’a ulaştı. Abraham, Igel’in ofisinin hemen üstünde, PDF çözümleme alanında çalışan Reducto adlı bir şirkette işe başlamıştı.
Reducto, e-posta zincirlerinden redakte edilmiş çağrı kayıtlarına kadar bilgi çıkarımında başı çeken birkaç şirketten biri. Veriler kullanılabilir bir formata aktarıldıktan sonra, Igel ve Walz, Epstein temalı uygulama ekosistemini inşa etmeye başladı. Jmail, Epstein’ın gelen kutusunun arama yapılabilir bir prototipi; Jflights, uçuş verileri ve yolcu listeleri gibi alt PDF’leri görüntülemek için tıklanabilir çizgilerle dolu etkileşimli bir küre; Jamazon, Epstein’ın Amazon alışverişleri için arama; Jikipedia, dosyalarda yer alan işletmeleri ve insanları bulmak için tasarlanmıştı.
PDF’ler makineler için oldukça zorlayıcıydı çünkü aslen insanların okuyabilmesi için tasarlanmışlardı. Adobe, PDF’yi 1990’ların başında belgeleri görsel açıdan tutarlı bir şekilde üretmek amacıyla geliştirdi. Textin mantıksal bir sırayla temsil edildiği HTML gibi formatların aksine, PDF karakter kodları ve hangi noktada hangi öğe yer alması gerektiğine dair talimatlar içeriyor. Optik karakter tanıma (OCR) bu sayfaların görüntülerini metne dökebilse de, çoklu sütunlarda görüntülenen metinlerle karşılaştığında sıklıkla anlam veremeyen bir karışıklık yaratıyor.
Kendine özgü zorlukları nedeniyle PDF’ler için özel modellerin geliştirilmesi gerekti. Allen Institute for AI araştırmacıları, 100,000 PDF ile bir görsel dil modeli oluşturdu. Bu model, tablo oluşturan öğeleri doğru bir şekilde ayırma yeteneği kazanmıştı. Hugging Face ekibi ise 5 milyar belgeden oluşan çok dilli modellere yönelik bir veri seti yayınladıktan sonra PDF’leri daha kaliteli bir kaynak olarak değerlendirdi. Araştırmalar, hala büyük bir potansiyel sunduklarını gösterdi.
PDF formatı, dijital iş dünyasında yerini sağlamlaştırmaya devam ediyor. Bu formatla ilgili çalışmaların artması, gelecekte PDF’lerin daha iyi anlaşılmasını sağlamakta. PDF’ler, kullanılabilirliği ve kalitesi nedeniyle her zaman önemli olacak. Sizce önümüzdeki dönemde PDF ile ilgili gelişmeleri nasıl değerlendiriyorsunuz?


