Microsoft 24 ноября официально представила новейшую ИИ-модель Fara-7B. Эта модель с 7 миллиардами параметров позиционируется как «агент использования компьютера» (Computer Use Agent, CUA), отличающийся возможностью работы непосредственно на локальном устройстве без необходимости в облачных вычислениях, одновременно обеспечивая высокую производительность и конфиденциальность данных.
Ориентация на безопасность корпоративных данных с поддержкой «визуального восприятия»
Основа дизайна Fara-7B заключается в удовлетворении требований корпоративных клиентов к конфиденциальности и соответствию при обработке конфиденциальной информации. Благодаря компактности модели, она может работать на персональных компьютерах, что не только снижает задержки, но и предотвращает загрузку данных в облако, способствуя реализации локальной автоматизации, например, для управления внутренними учетными записями и обработки конфиденциальных документов.
Главная особенность этой модели — взаимодействие с веб-сайтами через «наблюдение за экраном» — чтение макета экрана через скриншоты и прогнозирование действий, таких как клики мышью, ввод или прокрутка. В отличие от традиционных методов, зависящих от структуры браузера, Fara-7B полностью основывается на данных на уровне пикселей для вывода, поэтому она может нормально работать даже с веб-сайтами, имеющими запутанную структуру кода.
По словам менеджера по продуктам исследовательского института Microsoft Яша Лара, Fara-7B обрабатывает визуальный ввод на локальном устройстве, реализуя так называемый «пиксельный суверенитет», что позволяет использовать его даже в строго регулируемых отраслях, таких как здравоохранение и финансы.
Тестирование показывает превосходство над GPT-4o, малая модель более эффективна
В тестовом эталоне WebVoyager, Fara-7B достигла 73,5% завершения задач, что выше, чем 65,1% у GPT-4o и 66,4% у UI-TARS-1.5-7B. Кроме того, Fara-7B в среднем требует всего 16 шагов для выполнения задачи, что значительно лучше, чем 41 шаг у UI-TARS-1.5-7B, достигая оптимального баланса между точностью и эффективностью.
Fara-7B также вводит механизм «критических контрольных точек» (critical checkpoints), который автоматически приостанавливает работу и запрашивает подтверждение при столкновении с личными данными пользователя или необратимыми операциями (например, отправкой писем или переводом денег), в сочетании с интерфейсом взаимодействия «Magentic-UI», обеспечивая безопасное взаимодействие человека и машины.
Дистилляция знаний и обучение на примерах экспертов усиливают потенциал самообучения
Fara-7B использует метод обучения «дистилляция знаний», интегрируя 145 000 успешных примеров навигации, созданных мультиагентной системой Magentic-One, и сжимая их для обучения в единой модели. Кроме того, базовая модель основана на Qwen2.5-VL-7B с контекстным окном до 128 000 токенов, обладающим превосходными возможностями выравнивания изображений и текста, а процесс обучения в основном фокусируется на имитации действий человека-эксперта.
Microsoft заявляет, что в будущем они не будут слепо стремиться к созданию более крупных моделей, а сосредоточатся на разработке более «маленьких, умных и безопасных» моделей, планируя внедрить обучение с подкреплением (RL) для самообучения в синтетической песочнице.
Уже с открытым исходным кодом, доступна для свободного тестирования и коммерческого использования, но еще не является официальным продуктом
В настоящее время Fara-7B выпущена с открытым исходным кодом по лицензии MIT и доступна для загрузки на платформах Hugging Face и Microsoft Foundry, разрешено коммерческое использование. Однако Microsoft предупреждает, что модель еще не соответствует стандартам развертывания в производственной среде и в настоящее время в основном подходит для разработчиков для тестирования прототипов и проверки функциональности.
- Дополнительное чтение: Google представляет WeatherNext 2, ИИ-модель прогнозирования погоды нового поколения, уже доступную на Pixel, в поиске и Gemini
- Дополнительное чтение: Исследователи обнаружили ленивый способ задавать вопросы, делающий ИИ более креативным, работающий с любыми ИИ-моделями, включая ChatGPT и Gemini
- Дополнительное чтение: Anthropic представляет малую ИИ-модель Claude Haiku 4.5: всего 1/3 стоимости, производительность на уровне Sonnet 4, с даже немного лучшими результатами в программировании


