Mistral Perşembe günü Mistral Optik Karakter Tanıma (OCR) Uygulama Programlama Arayüzü’nü (API) tanıttı. Yapay Zeka (AI) modeli, PDF belgelerini analiz edip işleyebilir ve bunu markdown veya ham metin dosyası gibi AI’ye hazır bir metin biçimine dönüştürebilir. Araç, AI modelleri için sindirilebilir hale getirmek için PDF’lerden veri çıkarabilir. Paris merkezli AI firması, Mistral OCR API’sının geliştiricilerin PDF dosyaları için AI uygulamaları oluşturmasına ve yeni AI modellerini eğitmek için veri kümeleri oluşturmalarına izin vereceğini iddia etti.
Mistral OCR API tanıtıldı
PDF belgeleri AI modelleri için benzersiz bir zorluk oluşturmaktadır. Bu dosya formatındaki içeriğe, veriler tarafından işlenemediğinden, geleneksel geri alınmış artırılmış nesil (RAG) teknikleri kullanılarak büyük dil modelleri (LLMS) tarafından erişilemez. Örneğin, bir AI uygulamasının bir bilgi parçası bulmak için dizüstü bilgisayarınızdaki PDF belgelerini taramasını isterseniz, bunu yapmak için mücadele edebilir.
Bu, AI uygulamaları oluşturan geliştiricilerin PDF-analiz yeteneği sunmada sınırlı olacağı anlamına gelir. Google’ın DeNbook, Adobe’nin AI asistanı ve diğer bazı araçlar bu zorluğun üstesinden gelmek için özel OCR araçlarını kullanırken, açık kaynaklı topluluktaki geliştiricilerin yüksek verimli bir araca erişimi yoktur.
Mistral OCR API, geliştiricilerin PDF verilerini AI’ye hazır bir formata çıkarmasına izin vererek bu zorluğu çözer. Şirket bir haber odasında iddia ediyor postalamak Aracın, medya, metin, tablolar ve yüksek doğrulukla denklemler dahil olmak üzere belgelerdeki ayrı öğeleri anlayabilmesi. Analiz edildikten sonra, bilgileri işaretleme veya ham metin dosyası biçiminde çıkarabilir ve sunabilir.
AI modelleri daha sonra bu çıkarılan metni giriş olarak kullanabilir ve RAG sistemleri bunlara kolayca erişebilir ve onlar hakkındaki sorguları yanıtlayabilir. “Mistral OCR, ara eklenmiş görüntüler, matematiksel ifadeler, tablolar ve lateks biçimlendirme gibi gelişmiş düzenler dahil olmak üzere karmaşık belge öğelerini anlamada mükemmeldir. Model, grafikler, grafikler, denklemler ve figürlere sahip bilimsel makaleler gibi zengin belgelerin daha iyi anlaşılmasını sağlıyor ”dedi.
Şirket, Mistral OCR’nin tek bir düğümde dakikada 2.000 sayfaya kadar işleyebileceğini iddia etti. API ayrıca geliştiricilerin belgeyi istemi ve işlev çağırma araçları ve AI aracıları oluşturmak için zincir çıkışlarını kullanmasına olanak tanır.
Dahili testlere dayanarak, “sadece metin” belgeleri için Google Document AI, Azure OCR ve GPT-4O sürüm 2024-11-20 gibi Mistral OCR’den daha iyi performans gösterdi. Ayrıca çok dilli yeteneklerde Google ve Azure’dan daha iyi performans gösterdi.
Modelin yeteneğini denemek isteyenler Mistral’ın LE sohbet platformuna gidebilir. API’ye LA Platforme’den erişilebilir.
Barcelona’daki Mobil Dünya Kongresi’ndeki Samsung, Xiaomi, Realme, OnePlus, Oppo ve diğer şirketlerden gelen son lansmanların ve haberlerin ayrıntıları için MWC 2025 merkezimizi ziyaret edin.

Donald Trump Stratejik Bitcoin Reserve, Crypto Stockpile’ı ele geçiren varlıkları kullanarak kurar

