Gemma گوگل از قبل مثل Gemini عمل می‌کند—کسی آن را وادار کرد مثل Claude Opus هم فکر کند

اگر صحنه هوش مصنوعی محلی را دنبال کرده‌اید، احتمالاً Qwopus را می‌شناسید—مدل متن‌باز که سعی کرد استدلال Claude Opus 4.6 را به Qwen علی‌بابا تقطیر کند، تا بتوانید چیزی شبیه به Opus را روی سخت‌افزار خودتان به‌صورت رایگان اجرا کنید. به‌طرز شگفت‌انگیزی خوب کار کرد. نکته بدیهی: Qwen یک مدل چینی است و همه با آن احساس راحتی نمی‌کنند.

Jackrong، همان توسعه‌دهنده تحت نام مستعار پشت آن پروژه، بازخوردها را شنید. پاسخ او Gemopus است—خانواده جدیدی از تنظیمات دقیق به سبک Claude Opus که به‌طور کامل بر روی Gemma 4 متن‌باز گوگل ساخته شده است. DNA کاملاً آمریکایی، همان ایده: استدلال سطح پیشرفته، اجرا به‌صورت محلی روی سخت‌افزاری که از قبل دارید.

این خانواده در دو نوع ارائه می‌شود. Gemopus-4-26B-A4B گزینه سنگین‌تر است—یک مدل ترکیبی از متخصصان که 26 میلیارد پارامتر کل دارد اما تنها حدود 4 میلیارد را در طول استنتاج فعال می‌کند، که به این معنی است که در سخت‌افزار محدود بسیار بالاتر از وزن خود عمل می‌کند.

پارامترها چیزی هستند که ظرفیت یک هوش مصنوعی برای یادگیری، استدلال و ذخیره‌سازی اطلاعات را تعیین می‌کنند. داشتن 26 میلیارد پارامتر کل به مدل وسعت عظیمی از دانش می‌دهد. اما با فقط "بیدار کردن" 4 میلیارد پارامتر مرتبط با درخواست خاص شما، نتایج با کیفیت بالای یک هوش مصنوعی عظیم را ارائه می‌دهد در حالی که به‌اندازه کافی سبک باقی می‌ماند تا به‌صورت روان روی سخت‌افزار روزمره اجرا شود.

دیگری Gemopus-4-E4B است، یک مدل لبه با 4 میلیارد پارامتر که طراحی شده تا به‌راحتی روی یک iPhone مدرن یا MacBook نازک و سبک اجرا شود—بدون نیاز به GPU.

انتخاب مدل پایه در اینجا اهمیت دارد. Gemma 4 گوگل، که در 2 آوریل منتشر شد، مستقیماً از همان تحقیقات و فناوری Gemini 3 ساخته شده است—شرکت این را صریحاً در زمان راه‌اندازی اعلام کرد. این بدان معناست که Gemopus چیزی را حمل می‌کند که هیچ تنظیم دقیق مبتنی بر Qwen نمی‌تواند ادعا کند: DNA مدل بسته پیشرفته خود گوگل در زیرساخت، پوشیده شده در سبک تفکر Anthropic در بالا. بهترین هر دو دنیا، کم و بیش.

چیزی که Gemopus را با موج سایر تنظیمات دقیق Gemma که در حال حاضر Hugging Face را پر می‌کنند متفاوت می‌کند، فلسفه پشت آن است. Jackrong عمداً انتخاب کرد که ردپاهای استدلال زنجیره‌ای تفکر Claude را به وزن‌های Gemma تحمیل نکند—میانبری که بیشتر انتشارهای رقیب انجام می‌دهند.

استدلال او، که توسط تحقیقات اخیر پشتیبانی می‌شود، این است که پر کردن یک مدل دانش‌آموز با متن استدلال سطحی یک معلم در واقع توانایی استدلال واقعی را منتقل نمی‌کند. تقلید را می‌آموزد، نه منطق را. "نیازی به تخیل بیش از حد یا تکرار خرافی زنجیره تفکر به سبک Claude نیست"، کارت مدل می‌خواند. در عوض، او بر کیفیت پاسخ، وضوح ساختاری و طبیعی بودن مکالمه تمرکز کرد—اصلاح لحن سخت ویکی‌پدیا Gemma و تمایل آن به سخنرانی درباره چیزهایی که نپرسیده‌اید.

مهندس زیرساخت هوش مصنوعی Kyle Hessling معیارهای مستقل را اجرا کرد و نتایج را مستقیماً روی کارت مدل منتشر کرد. حکم او درباره نوع 26B کاملاً مطلوب بود. "خوشحالم که این یکی را کاملاً سخت آزمایش کردم و این یک تنظیم دقیق عالی از یک مدل استثنایی است"، او در X نوشت. "در درخواست‌های تک‌تیر روی زمینه‌های طولانی عالی است، و به لطف معماری MOE (ترکیب متخصصان) فوق‌العاده سریع اجرا می‌شود."

نوع کوچک‌تر E4B از تمام 14 آزمون صلاحیت اصلی عبور کرد—پیروی از دستورات، کدنویسی، ریاضیات، استدلال چند مرحله‌ای، ترجمه، امنیت، ذخیره‌سازی—و تمام 12 آزمون زمینه طولانی را در 30K و 60K توکن پاک کرد. در بازیابی سوزن در انبار کاه، از 13 مورد از 13 کاوش عبور کرد از جمله یک آزمون کششی در یک میلیون توکن با مقیاس‌بندی YaRN 8× RoPE.

26B به‌طور بومی به زمینه 131K گسترش می‌یابد و تا 524K با YaRN، که Hessling نیز آن را تست استرس کرد: "همچنین آزمایش‌های ساده سوزن در انبار کاه من را تا زمینه گسترده‌یافته 524k در هم شکست!"

روی سخت‌افزار لبه، E4B واقعاً سریع است. Jackrong 45–60 توکن در ثانیه روی iPhone 17 Pro Max، و 90–120 توکن در ثانیه روی MacBook Air M3/M4 از طریق MLX را گزارش می‌دهد. معماری 26B MoE به این معنی است که به‌طور شکیل روی سیستم‌های حافظه یکپارچه یا GPUهای با کمتر از 10GB از VRAM تخلیه می‌شود. Hessling آن را توصیه راننده روزانه خود برای تنظیمات گرسنه VRAM نامید.

هر دو مدل در فرمت GGUF در دسترس هستند، که به این معنی است که می‌توانید آن‌ها را مستقیماً به LM Studio یا llama.cpp بدون پیکربندی بیاندازید. کد آموزشی کامل و راهنمای تنظیم دقیق گام به گام در GitHub Jackrong است—همان خط لوله که او برای Qwopus استفاده کرد، همان تنظیم Unsloth و LoRA، قابل تکرار روی Colab.

Gemopus بدون لبه‌های ناهموار نیست. فراخوانی ابزار در کل سری Gemma 4 در llama.cpp و LM Studio شکسته باقی می‌ماند—شکست فراخوانی، عدم تطابق فرمت، حلقه‌ها—بنابراین اگر گردش کار شما به عوامل استفاده از ابزارهای خارجی بستگی دارد، این هنوز مدل شما نیست. خود Jackrong آن را "یک مرجع کاوش مهندسی به جای یک راه‌حل کاملاً آماده تولید" می‌نامد، و سری Qwopus 3.5 خود را به هر کسی که به چیزی پایدارتر برای بارهای کاری واقعی نیاز دارد توصیه می‌کند.

و چون Jackrong عمداً از تقطیر زنجیره‌ای تفکر تهاجمی به سبک Claude اجتناب کرد، انتظار نداشته باشید که به عمق Opus-brained مانند Qwopus احساس کند—این یک معامله آگاهانه برای ثبات بود، نه یک نظارت.

برای کسانی که می‌خواهند عمیق‌تر به تنظیم دقیق Gemma برای استدلال به‌طور خاص بپردازند، یک پروژه جامعه جداگانه نیز وجود دارد که ارزش تماشا دارد: Ornstein توسط توسعه‌دهنده تحت نام مستعار DJLougen، که همان پایه Gemma 4 26B را می‌گیرد و به‌طور خاص بر بهبود زنجیره‌های استدلال آن بدون تکیه بر منطق یا سبک هر مدل شخص ثالث خاص تمرکز می‌کند.

یک هشدار صادقانه: دینامیک‌های آموزشی Gemma برای تنظیم‌کننده‌های دقیق نسبت به Qwen درهم‌تر است—نوسانات زیان گسترده‌تر، حساسیت فراپارامتر بیشتر. خود Jackrong این را می‌گوید. اگر به یک مدل محلی آزموده‌شده‌تر برای گردش‌های کاری تولید نیاز دارید، سری Qwopus 3.5 او همچنان به‌طور قوی‌تر اعتبارسنجی شده باقی می‌ماند. اما اگر یک مدل آمریکایی با پرداخت به سبک Opus می‌خواهید، Gemopus در حال حاضر بهترین گزینه موجود شما است. یک نوع 31B متراکم‌تر Gemopus نیز در خط لوله است، با Hessling که آن را به‌عنوان "یک موفقیت مطمئن" معرفی می‌کند.

اگر می‌خواهید مدل‌های محلی را روی سخت‌افزار خودتان اجرا کنید، راهنمای ما را درباره نحوه شروع با هوش مصنوعی محلی بررسی کنید.

خبرنامه گزارش روزانه

هر روز را با مهم‌ترین داستان‌های خبری در حال حاضر، به علاوه ویژگی‌های اصلی، یک پادکست، ویدیوها و موارد دیگر شروع کنید.

منبع: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma گوگل از قبل مثل Gemini عمل می‌کند—کسی آن را وادار کرد مثل Claude Opus هم فکر کند

خبرنامه گزارش روزانه

محتوای پیشنهادی

رئیس‌جمهور ترامپ آمریکا: در حال فکر کردن درباره تمدید آتش‌بس نیستم

به‌روزرسانی ارتقا نود شبکه Pi پیشرفت پایدار به سمت تکامل شبکه اصلی را تأیید می‌کند

روی صحنه در کنسنسوس ۲۰۲۶ حضور می‌یابد: دوران جدیدی برای کریپتو، هوش مصنوعی و کاربرد واقعی

اخبار محبوب

پیش‌بینی قیمت XRP: بازگشت سنا به جلسه با قانون CLARITY در دستور کار اما پیش‌فروش Pepeto می‌تواند عملکرد بهتری داشته باشد

معامله‌گران XRP به طور متوسط 41% ضرر کرده‌اند – چرا برخی به پیش‌فروش کریپتوی BMIC روی آورده‌اند

بررسی Word 2 Kindle: آیا این سرویس قالب‌بندی معتبر است؟

شاخص دلار آمریکا بالای 98.00 در حال نوسان است علیرغم افزایش خوش‌بینی بازار

شراکت بزرگ بین XRP و غول تجارت الکترونیک ژاپنی Rakuten اعلام شد – "میلیاردها دلار پتانسیل"

اخبار زنده 24/7

قیمت‌ های ارز دیجیتال