Teknologi

API OCR baru Mistral mengubah dokumen PDF menjadi file penurunan harga siap-AI

Model bahasa besar bekerja sangat baik dengan teks mentah. Perusahaan yang ingin membuat alur kerja AI mereka sendiri tahu bahwa menjadi sangat penting untuk menyimpan dan mengindeks data dalam format bersih sehingga data ini dapat digunakan kembali untuk pemrosesan AI.

Itu sebabnya Mistral meluncurkan API baru hari ini untuk pengembang yang menangani dokumen PDF yang kompleks. Mistral OCR adalah API pengenalan karakter optik yang dapat mengubah PDF menjadi file teks.

Tidak seperti kebanyakan API OCR, Mistral OCR adalah API multimodal, yang berarti bahwa ia dapat mendeteksi ketika ada ilustrasi dan foto yang terkait dengan blok teks. OCR API membuat kotak pembatas di sekitar elemen grafis ini dan memasukkannya ke dalam output.

Demikian pula, OCR Mistral tidak hanya mengeluarkan dinding teks besar. Output diformat dalam markdown, sintaks pemformatan yang digunakan pengembang untuk menambahkan tautan, header, dan elemen pemformatan lainnya ke file teks biasa.

Model bahasa besar sangat bergantung pada penurunan harga untuk set data pelatihan mereka. Demikian pula, ketika Anda menggunakan asisten AI, seperti Mistral’s Le Chat atau Openai’s ChatGPT, mereka sering menghasilkan markdown untuk membuat daftar peluru, menambahkan tautan atau menempatkan beberapa elemen dalam huruf tebal. Asisten Aplikasi dengan mulus memformat output penurunan harga menjadi output teks yang kaya. Itu sebabnya teks mentah – dan penurunan harga – telah menjadi lebih penting dalam beberapa tahun terakhir.

“Selama bertahun -tahun, organisasi telah mengumpulkan banyak dokumen, seringkali dalam format PDF atau slide, yang tidak dapat diakses oleh LLMS, terutama sistem kain. Dengan Mistral OCR, pelanggan kami sekarang dapat mengubah dokumen yang kaya dan kompleks menjadi konten yang dapat dibaca dalam semua bahasa, ”kata salah satu pendiri dan Chief Science Officer Guillaume Lample.

“Ini adalah langkah penting menuju adopsi luas asisten AI di perusahaan yang perlu menyederhanakan akses ke dokumentasi internal mereka yang luas,” tambahnya.

Mistral OCR tersedia di platform API Mistral sendiri atau melalui mitra cloud -nya (AWS, Azure, Google Cloud Vertex, dll.). Dan untuk perusahaan yang bekerja dengan data rahasia atau sensitif, Mistral juga menawarkan penyebaran di tempat.

Menurut perusahaan AI yang berbasis di Paris, Mistral OCR berkinerja lebih baik daripada API dari Google, Microsoft dan Openai. Perusahaan telah menguji model OCR -nya dengan dokumen kompleks yang mencakup ekspresi matematika (format lateks), tata letak atau tabel lanjutan. Seharusnya juga berkinerja lebih baik dengan dokumen non-Inggris.

Kredit gambar:Mistral

Mengingat bahwa Mistral OCR melakukan satu hal dan satu hal saja, perusahaan percaya itu juga lebih cepat dari apa yang ada di luar sana. Itu tidak mengherankan jika Anda membandingkannya dengan model bahasa multimodal besar seperti GPT-4O, yang juga memiliki kemampuan OCR (di antara banyak fitur lainnya).

Mistral juga menggunakan Mistral OCR untuk asisten AI sendiri Kucing itu. Ketika pengguna mengunggah file PDF, perusahaan menggunakan Mistral OCR di latar belakang untuk memahami apa yang ada dalam dokumen sebelum memproses teks.

Perusahaan dan pengembang kemungkinan besar akan menggunakan Mistral OCR dengan sistem RAG untuk menggunakan dokumen multimodal sebagai input dalam LLM. Dan ada banyak kasus penggunaan potensial. Misalnya, saya bisa melihat firma hukum menggunakannya untuk membantu mereka dengan cepat melalui volume dokumen yang sangat besar.

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button