Gemma від Google вже діє як Gemini — хтось змусив її думати як Claude Opus теж

Якщо ви стежите за локальною ШІ-сценою, ви напевно знаєте Qwopus — модель з відкритим кодом, яка намагалася дистилювати логіку Claude Opus 4.6 у Qwen від Alibaba, щоб ви могли безкоштовно запускати щось схоже на Opus на власному обладnanні. Це працювало напрочуд добре. Очевидний підводний камінь: Qwen — це китайська модель, і не всі почуваються з цим комфортно.

Jackrong, той самий розробник під псевдонімом, який стоїть за тим проєктом, почув відгуки. Його відповідь — Gemopus — нове сімейство тонких налаштувань у стилі Claude Opus, повністю побудованих на основі відкритого коду Google Gemma 4. Суто американська ДНК, та сама ідея: міркування на передовому рівні, що працює локально на обладнанні, яке ви вже маєте.

Сімейство представлено у двох варіантах. Gemopus-4-26B-A4B — більш важкий варіант — модель Mixture of Experts, яка має 26 мільярдів загальних параметрів, але активує лише близько 4 мільярдів під час виведення, що означає, що вона працює набагато краще, ніж можна очікувати на обмеженому обладнанні.

Параметри визначають здатність ШІ вчитися, міркувати та зберігати інформацію. Наявність 26 мільярдів загальних параметрів надає моделі величезний обсяг знань. Але, «пробуджуючи» лише 4 мільярди параметрів, релевантних до вашого конкретного запиту, вона надає високоякісні результати масивного ШІ, залишаючись достатньо легкою для плавної роботи на повсякденному обладнанні.

Інший — Gemopus-4-E4B, периферійна модель з 4 мільярдами параметрів, розроблена для комфортної роботи на сучасному iPhone або тонкому MacBook — без потреби у GPU.

Вибір базової моделі тут має значення. Google Gemma 4, випущена 2 квітня, побудована безпосередньо на основі тих самих досліджень і технологій, що й Gemini 3 — компанія чітко заявила про це під час запуску. Це означає, що Gemopus має щось, чого не може стверджувати жодне тонке налаштування на основі Qwen: ДНК власної передової закритої моделі Google під капотом, обгорнута стилем мислення Anthropic зверху. Найкраще з обох світів, більш-менш.

Те, що відрізняє Gemopus від хвилі інших тонких налаштувань Gemma, які зараз заполонили Hugging Face, це філософія, що стоїть за ним. Jackrong навмисно вирішив не вмонтовувати сліди ланцюжка міркувань Claude у ваги Gemma — ярлик, який використовує більшість конкуруючих випусків.

Його аргумент, підкріплений останніми дослідженнями, полягає в тому, що наповнення студентської моделі поверхневим текстом міркувань викладача насправді не передає реальної здатності міркувати. Це навчає імітації, а не логіці. «Немає потреби в надмірній уяві чи забобонному копіюванні ланцюжка міркувань у стилі Claude», — йдеться в картці моделі. Натомість він зосередився на якості відповідей, структурній чіткості та природності розмови — виправляючи жорсткий тон Вікіпедії у Gemma та її схильність читати лекції про те, чого ви не питали.

Інженер інфраструктури ШІ Kyle Hessling провів незалежні тести продуктивності та опублікував результати безпосередньо на картці моделі. Його вердикт щодо варіанта 26B був досить сприятливим. «Радий, що ретельно протестував цю модель, і це чудове тонке налаштування вже винятковою моделі», — написав він у X. «Вона відмінно працює з одноразовими запитами у довгих контекстах і працює неймовірно швидко завдяки архітектурі MOE (mixture of experts)».

Менший варіант E4B пройшов усі 14 основних тестів компетенції — виконання інструкцій, програмування, математика, багатоетапні міркування, переклад, безпека, кешування — і пройшов усі 12 тестів довгого контексту на 30K і 60K токенів. При пошуку голки в стозі сіна він пройшов 13 з 13 перевірок, включаючи розширений тест на один мільйон токенів з масштабуванням YaRN 8× RoPE.

26B нативно розширюється до контексту 131K і аж до 524K з YaRN, що Hessling також протестував під навантаженням: «Він також впорався з моїми простими тестами голки в стозі сіна аж до розширеного контексту 524k!»

На периферійному обладнанні E4B справді швидкий. Jackrong повідомляє про 45–60 токенів за секунду на iPhone 17 Pro Max і 90–120 токенів за секунду на MacBook Air M3/M4 через MLX. Архітектура 26B MoE означає, що вона витончено розвантажується на системах з уніфікованою пам'яттю або GPU з менш ніж 10GB VRAM. Hessling назвав її своєю щоденною рекомендацією для налаштувань з дефіцитом VRAM.

Обидві моделі доступні у форматі GGUF, що означає, що ви можете завантажити їх прямо в LM Studio або llama.cpp без налаштування. Повний навчальний код і покроковий посібник з тонкого налаштування є на GitHub Jackrong — той самий конвеєр, який він використовував для Qwopus, те саме налаштування Unsloth і LoRA, відтворюване на Colab.

Gemopus не позбавлений шорсткості. Виклик інструментів залишається зламаним у всій серії Gemma 4 в llama.cpp і LM Studio — збої викликів, невідповідності форматів, цикли — тому якщо ваш робочий процес залежить від агентів, що використовують зовнішні інструменти, це поки не ваша модель. Сам Jackrong називає її «довідковим інженерним дослідженням, а не повністю готовим для продакшену рішенням», і рекомендує власну серію Qwopus 3.5 для тих, кому потрібно щось стабільніше для реальних робочих навантажень.

І оскільки Jackrong навмисно уникав агресивної дистиляції ланцюжка міркувань у стилі Claude, не очікуйте, що вона відчуватиметься настільки ж глибоко Opus-орієнтованою, як Qwopus — це був свідомий компроміс заради стабільності, а не недогляд.

Для тих, хто хоче глибше зануритися в тонке налаштування Gemma для міркувань, також варто стежити за окремим спільнотним проєктом: Ornstein від розробника під псевдонімом DJLougen, який бере ту саму базу Gemma 4 26B і зосереджується конкретно на покращенні її ланцюжків міркувань без покладання на логіку чи стиль будь-якої конкретної сторонньої моделі.

Одне чесне застереження: динаміка навчання Gemma більш хаотична, ніж у Qwen, для тих, хто налаштовує — ширші коливання втрат, більша чутливість до гіперпараметрів. Сам Jackrong так каже. Якщо вам потрібна більш перевірена локальна модель для продакшн-робочих процесів, його серія Qwopus 3.5 залишається більш надійно валідованою. Але якщо ви хочете американську модель з полірованістю в стилі Opus, Gemopus наразі є вашим найкращим доступним варіантом. Більш щільний варіант Gemopus 31B також у розробці, а Hessling натякає, що це буде «точно вистріл».

Якщо ви хочете спробувати запускати локальні моделі на власному обладнанні, перегляньте наш посібник про те, як почати роботу з локальним ШІ.

Щоденна розсилка Daily Debrief

Починайте кожен день з головних новин прямо зараз, а також оригінальних матеріалів, подкасту, відео та багато іншого.

Джерело: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma від Google вже діє як Gemini — хтось змусив її думати як Claude Opus теж

Щоденна розсилка Daily Debrief

Вам також може сподобатися

Оновлення вузла Pi Network підтверджує стабільний прогрес у напрямку еволюції основної мережі

Виступ на Consensus 2026: нова ера для криптовалют, ШІ та реальної корисності

SEC скасовує правило Pattern Day Trader на $25,000 у реформі роздрібної торгівлі

Популярні новини

Прогноз ціни XRP: Сенат повернувся до роботи з законопроєктом CLARITY Act на порядку денному, але передпродаж Pepeto може показати кращі результати

Новини XRP: Ripple стала піонером першого врегулювання токенізованих державних облігацій Кореї

Огляд Word 2 Kindle: Чи є ця служба форматування легітимною?

Індекс долара США тримається вище 98,00 попри зростаючий ринковий оптимізм

Президент США Трамп: не думає про продовження перемир'я

Новини в реальному часі 24/7

Ціни на криптовалюту