Perşembe günü Fransızca Büyük Dil Modeli (LLM) Geliştirici Fatura Karmaşık PDF belgelerini ele alan geliştiriciler için yeni bir API başlattı. Mistral ocr AI modellerinin yutulmasını kolaylaştırmak için herhangi bir PDF’yi bir metin dosyasına dönüştürebilen optik karakter tanıma (OCR) API’sıdır.
Openai’nin chatgpt gibi popüler genai araçlarını destekleyen llms, özellikle ham metinle iyi çalışır. Dolayısıyla, kendi AI iş akışlarını oluşturmak isteyen şirketler, bu verilerin AI işleme için yeniden kullanılabilmesi için verileri temiz bir biçimde saklamanın ve dizin verilerinin son derece önemli hale geldiğini bilirler.
Çoğu OCR API’lerinin aksine, Mistral OCR multimodal bir API’dır, yani metin bloklarıyla iç içe çizilmiş çizim ve fotoğraflar olduğunu tespit edebileceği anlamına gelir. OCR API, bu grafik öğelerin etrafında sınırlayıcı kutular oluşturur ve bunları çıktıya içerir.
Mistral OCR ayrıca sadece büyük bir metin duvarı çıkmaz; Çıktı, geliştiricilerin düz bir metin dosyasına bağlantılar, başlıklar ve diğer biçimlendirme öğeleri eklemek için kullandıkları bir biçimlendirme sözdizimi olan Markdown’da biçimlendirilir.
LLM’ler eğitim veri kümeleri için büyük ölçüde Markdown’a güveniyor. Benzer şekilde, Mistral’ın Le Chat veya Openai’nin chatgpt gibi bir AI asistanı kullandığınızda, genellikle mermi listeleri oluşturmak, bağlantılar eklemek veya bazı öğeleri kalınlaştırmak için işaretleme oluşturmaktadır. Yardımcı uygulamalar, işaretleme çıkışını zengin bir metin çıkışında sorunsuz bir şekilde biçimlendirir. Bu yüzden RAW metin – ve Markdown – Genai’nin patlamasıyla son yıllarda daha önemli hale geldi.
“Yıllar boyunca kuruluşlar, genellikle PDF veya slayt formatlarında, özellikle RAG sistemlerine erişilemeyen çok sayıda belge biriktirdiler. Mistral OCR ile müşterilerimiz artık zengin ve karmaşık belgeleri tüm dillerde okunabilir içeriğe dönüştürebilir ”dedi.
“Bu, AI asistanlarının geniş iç belgelerine erişimi basitleştirmesi gereken şirketlerde yaygın olarak benimsenmesine yönelik önemli bir adımdır” diye ekledi.
Mistral OCR, Mistral’ın kendi API platformunda veya bulut ortakları (AWS, Azure, Google Cloud Vertex, vb.) Ve sınıflandırılmış veya hassas verilerle çalışan şirketler için Mistral, şirket içi dağıtım sunar.
Paris merkezli AI şirketine göre Mistral OCR, Google, Microsoft ve Openai’den API’lerden daha iyi performans gösteriyor. Şirket, OCR modelini matematiksel ifadeler (lateks biçimlendirme), gelişmiş düzenler veya tablolar içeren karmaşık belgelerle test etti. Ayrıca İngilizce olmayan belgelerle daha iyi performans göstermesi gerekiyor.

Mistral OCR’nin sadece bir şey ve bir şey yaptığı göz önüne alındığında, şirket bunun orada olduğundan daha hızlı olduğuna inanıyor. OCR özelliklerine sahip olan GPT-4O gibi bir multimodal LLM ile karşılaştırırsanız bu bir sürpriz değil ( birçok diğer özellikler).
Mistral ayrıca kendi AI asistanı için Mistral OCR kullanıyor Lech Sohbet. Bir kullanıcı bir PDF dosyası yüklediğinde, şirket metni işlemeden önce belgede ne olduğunu anlamak için arka planda Mistral OCR kullanır.
Şirketler ve geliştiriciler büyük olasılıkla multimodal belgeleri bir LLM’de girdi olarak kullanmak için bir paçavra (diğer adıyla geri kazanım yaratılmış nesil) sistemi ile Mistral OCR kullanacaklar. Ve birçok potansiyel kullanım durumu vardır. Örneğin, hukuk firmalarını büyük miktarlarda belgeleri hızla sürmelerine yardımcı olmak için kullanmayı öngörebiliriz.
RAG, verileri almak ve üretken bir AI modeliyle bağlam olarak kullanmak için kullanılan bir tekniktir.

