يضيف Mistral واجهة برمجة تطبيقات جديدة تحول أي مستند PDF إلى ملف تخفيض جاهز لـ AI

في يوم الخميس ، أطلقت مطور Mistral Mistral Mistral Mistral من طرازات اللغة الفرنسية الفرنسية للمطورين الذين يتعاملون مع وثائق PDF المعقدة. MISTRAL OCR هي واجهة برمجة تطبيقات التعرف على الأحرف البصرية (OCR) يمكنها تحويل أي ملف PDF إلى ملف نصي لتسهيل استيعاب نماذج الذكاء الاصطناعي.
تعمل LLMS ، التي تدعم أدوات Genai الشائعة مثل Openai’s ChatGpt ، بشكل جيد مع النص الخام. لذا فإن الشركات التي ترغب في إنشاء سير عمل منظمة العفو الدولية الخاصة بها تعرف أنه من المهم للغاية تخزين وفهرسة البيانات بتنسيق نظيف بحيث يمكن إعادة استخدام هذه البيانات لمعالجة الذكاء الاصطناعي.
على عكس معظم واجهات برمجة تطبيقات OCR ، فإن OCR MISTRAL هو واجهة برمجة تطبيقات متعددة الوسائط ، مما يعني أنه يمكن أن يكتشف عندما تكون هناك رسوم توضيحية وصور متشابكة مع كتل من النص. تقوم API على مرأى OCR بإنشاء صناديق محيطة حول هذه العناصر الرسومية وتتضمنها في الإخراج.
كما أن OCR الخاطئة لا يخرج جدارًا كبيرًا من النص ؛ يتم تنسيق الإخراج في Markdown ، وهو بناء جملة تنسيق يستخدمه المطورون لإضافة الروابط والرؤوس وعناصر التنسيق الأخرى إلى ملف نصي عادي.
تعتمد LLMS اعتمادًا كبيرًا على تخفيضات مجموعات بيانات التدريب الخاصة بهم. وبالمثل ، عندما تستخدم مساعد AI ، مثل Mistral’s Le Chat أو Openai’s ChatGpt ، فإنها غالبًا ما تنشئ تخفيضًا لإنشاء قوائم رصاصة أو إضافة روابط أو وضع بعض العناصر بالخط العريض. تطبيقات مساعد تنسيق بسلاسة الإخراج الترددي في إخراج نص غني. لهذا السبب أصبح النص الخام – والتخفيض – أكثر أهمية في السنوات الأخيرة حيث ازدهر Genai.
“على مر السنين ، تراكمت المنظمات العديد من المستندات ، غالبًا في تنسيقات PDF أو الشرائح ، والتي لا يمكن الوصول إليها إلى LLMs ، وخاصة أنظمة RAG. مع Mistral OCR ، يمكن لعملائنا الآن تحويل المستندات الغنية والمعقدة إلى محتوى قابل للقراءة بجميع اللغات “.
وأضاف: “هذه خطوة حاسمة نحو التبني على نطاق واسع لمساعدي الذكاء الاصطناعى في الشركات التي تحتاج إلى تبسيط الوصول إلى وثائقهم الداخلية الواسعة”.
تتوفر Mistral OCR على منصة API الخاصة بـ Mistral أو من خلال شركاءها السحابيين (AWS ، Azure ، Google Cloud Vertex ، إلخ). وبالنسبة للشركات التي تعمل مع البيانات المصنفة أو الحساسة ، تقدم Mistral النشر المحلي.
وفقًا لشركة الذكاء الاصطناعى ومقرها باريس ، فإن Mistral OCR أفضل من واجهات برمجة التطبيقات من Google و Microsoft و Openai. اختبرت الشركة نموذج OCR الخاص بها مع مستندات معقدة تشمل التعبيرات الرياضية (تنسيق اللاتكس) أو التخطيطات المتقدمة أو الجداول. من المفترض أيضًا أن يكون أداء أفضل مع المستندات غير الإنجليزية.
بالنظر إلى أن Mistral OCR يفعل شيئًا واحدًا وشيءًا واحدًا فقط ، تعتقد الشركة أنه أسرع أيضًا مما هو موجود. هذه ليست مفاجأة إذا قارنتها مع LLM متعددة الوسائط مثل GPT-4O ، والتي لديها أيضًا قدرات OCR (بين كثير ميزات أخرى).
تستخدم Mistral أيضًا Mistral OCR لمساعد AI الخاص به LE Chat. عندما يقوم المستخدم بتحميل ملف PDF ، تستخدم الشركة OCR MISTRAL في الخلفية لفهم ما هو موجود في المستند قبل معالجة النص.
من المرجح أن تستخدم الشركات والمطورين نظام OCR Mistral مع نظام RAG (ويعرف أيضًا باسم توليد REVIVAL-AUGMENTY) لاستخدام المستندات متعددة الوسائط كمدخلات في LLM. وهناك العديد من حالات الاستخدام المحتملة. على سبيل المثال ، يمكننا أن نتصور استخدام شركات المحاماة التي تستخدمها لمساعدتها بسرعة من خلال كميات كبيرة من المستندات.
RAG هي تقنية تستخدم لاسترداد البيانات واستخدامها كسياق مع نموذج AI التوليدي.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.