Zach Anderson
1404/12/08 16:58
یکپارچهسازی جدید پردازش توزیعشده Ray Data را با تجزیه اسناد Docling ترکیب میکند تا بیش از 10 هزار فایل پیچیده را برای برنامههای RAG در عرض ساعات به جای روزها پردازش کند.
تیمهای سازمانی که در حال ساخت برنامههای مبتنی بر هوش مصنوعی هستند، اکنون راهحلی برای مشکلسازترین گلوگاه خود دریافت کردهاند. Anyscale به تفصیل توضیح داده است که چگونه ترکیب Ray Data با Docling میتواند هفتهها پردازش اسناد را به ساعات تبدیل کند - پیشرفتی که میتواند زمانبندی استقرار را برای شرکتهایی که روی بایگانیهای عظیم اسناد نشستهاند، تسریع کند.
یکپارچهسازی فنی به آنچه متخصصان آن را "گلوگاه داده" در سیستمهای Retrieval-Augmented Generation مینامند، میپردازد. در حالی که نسخههای نمایشی، هوش مصنوعی تولیدی را ساده نشان میدهند، واقعیت شامل دست و پنجه نرم کردن با هزاران فایل PDF قدیمی، جداول پیچیده و تصاویر جاسازیشده است که ابزارهای پردازش سنتی به ضعف با آنها برخورد میکنند.
چه چیزی واقعاً تغییر میکند
موتور اجرای جریانی Ray Data، دادهها را به طور همزمان در وظایف CPU و GPU پایپلاین میکند. معماری بومی Python، سربار سریالسازی را که سایر فریمورکها را هنگام ترجمه دادهها بین محیطهای زبانی آزار میدهد، از بین میبرد. برای تیمهایی که استنباط دستهای یا پیشپردازش مجموعه دادههای عظیم را اجرا میکنند، این به معنای چرخههای تکرار سریعتر است.
Docling با پیچیدگی تجزیهای که بیشتر ابزارهای سنتی را از کار میاندازد، برخورد میکند - استخراج دقیق جداول و طرحبندیها در حالی که ساختار معنایی را حفظ میکند. هنگامی که با Ray Data یکپارچه میشود، هر گره کارگر یک نمونه Docling با مدلهای مبتنی بر هوش مصنوعی جاسازیشده در حافظه اجرا میکند و پردازش موازی اسناد در مقیاس را امکانپذیر میسازد.
معماری به این صورت کار میکند: یک درایور Ray Data اجرا را مدیریت میکند و کد وظیفه را برای توزیع سریالسازی میکند. کارگرها بلوکهای داده را مستقیماً از حافظه میخوانند و فایلهای JSON پردازششده را در مقصد مینویسند. درایور هرگز به یک گلوگاه تبدیل نمیشود زیرا توان عملیاتی واقعی داده را مدیریت نمیکند.
پایه Kubernetes
KubeRay کلاسترهای Ray را بر روی Kubernetes هماهنگ میکند و مقیاسبندی خودکار پویا از 10 تا 100 گره را به طور شفاف مدیریت میکند. سیستم شامل بازیابی خودکار زمانی که گرههای کارگر از کار میافتند است - بحرانی برای کارهای جذب بزرگ که نمیتوانند از ابتدا راهاندازی مجدد شوند.
جریان سرتاسر اسناد را از ذخیرهسازی شیء از طریق تجزیه و تکهبندی جابهجا میکند، تعبیهها را روی گرههای GPU تولید میکند و به پایگاههای داده برداری مانند Milvus مینویسد. سپس برنامههای RAG از پایگاه داده پرس و جو میکنند تا زمینه را به LLMها تغذیه کنند.
شرکتهایی از جمله Pinterest، DoorDash و Instacart از قبل از Ray Data برای پردازش مرحله نهایی و آموزش مدل استفاده میکنند که نشان میدهد این فناوری قابلیت تولید اثباتشده دارد.
فراتر از جستجوی ساده
بازی گستردهتر در اینجا گردشهای کاری مبتنی بر هوش مصنوعی عامل را هدف قرار میدهد که در آن عوامل خودمختار وظایف چند مرحلهای را اجرا میکنند. کیفیت دادههای پردازششده با تکیه عوامل بر مستندات دقیق برای عمل از طرف کاربران، حیاتیتر میشود. سازمانهایی که معماریهای مقیاسپذیر میسازند، اکنون خود را برای زنجیرههای استنباط پیشرفته با فراخوانیهای متوالی متعدد LLM آماده میکنند.
پلتفرمهای Red Hat OpenShift AI و Anyscale گزینههای استقرار با الزامات حاکمیت سازمانی را ارائه میدهند. پایه متنباز به این معنی است که تیمها میتوانند بدون موانع تدارکاتی عمده شروع به آزمایش کنند.
برای تیمهای مبتنی بر هوش مصنوعی که در حال حاضر زمان بیشتری را برای آمادهسازی داده به جای تنظیم مدل صرف میکنند، این یکپارچهسازی مسیر عملی را به جلو ارائه میدهد. سؤال این نیست که آیا پردازش توزیعشده اسناد مهم است - بلکه این است که آیا زیرساخت شما میتواند آنچه در پیش است را مدیریت کند.
منبع تصویر: Shutterstock
منبع: https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing
