Статья Character.ai представляет эффективные методы крупномасштабного предобучения опубликована на BitcoinEthereumNews.com. Тони Ким 23 декабря 2025 21:56 Character.aiСтатья Character.ai представляет эффективные методы крупномасштабного предобучения опубликована на BitcoinEthereumNews.com. Тони Ким 23 декабря 2025 21:56 Character.ai

Character.ai представляет эффективные методы крупномасштабного предобучения



Tony Kim
21:56, 23 декабря 2025

Character.ai раскрывает инновационные методы оптимизации крупномасштабного предобучения, сосредоточившись на таких техниках, как Squinch, динамическое ограничение и Gumbel Softmax, для повышения эффективности обучения моделей ИИ.

Character.ai, заметный игрок в сфере ИИ, недавно поделился информацией о своих ранних усилиях по оптимизации крупномасштабного обучения трансформеров. Компания, которая с тех пор переключила свое внимание на основы моделей с открытым исходным кодом, изначально изучала различные техники для повышения эффективности и скорости обучения, согласно блогу Character.AI.

Сжатие градиентов: Squinch

Одной из ключевых инноваций, выделенных в усилиях Character.ai, является алгоритм сжатия градиентов, известный как Squinch. Разработанная соучредителем Ноамом Шазиром, эта техника 6-битного сжатия была создана для значительного сокращения пропускной способности связи во время распределенного обучения при сохранении точности модели. Алгоритм эффективно сжимает градиенты до 6 бит на элемент, оптимизируя использование пропускной способности обучающих кластеров.

Регуляризация точности: Attention Z-Reg

Character.ai также разработал Attention Z-Reg, метод регуляризации, применяемый к логитам внимания для обеспечения численной стабильности. Эта техника помогает поддерживать точность представлений bfloat16, что критически важно для оптимизации обучения больших моделей.

Стабильность квантования: динамическое ограничение

Динамическое ограничение - это еще одна техника, используемая для повышения стабильности квантования. Она предотвращает схлопывание малых значений активации к нулю путем динамического вычисления диапазона ограничения на основе среднеквадратичного значения входных весов. Этот метод улучшает стабильность обучения за счет снижения ошибок квантования.

Эффективный API внимания: Visibility Mask

Внедрение Visibility Mask, инструмента для представления межтокенных отношений во время обучения и вывода, улучшило эффективность обучающих систем. Этот API помогает управлять диапазонами внимания в пакетах, поддерживая древовидные структуры документов и двунаправленное внимание.

Оптимизация дистилляции: Gumbel Softmax

В области дистилляции моделей Character.ai использовал технику Gumbel Softmax для снижения затрат на хранение и пропускную способность при сохранении точности моделей-учителей. Этот подход включает в себя выборку подмножеств выходных данных модели-учителя, сохраняя мягкие целевые значения для более эффективного обучения модели-ученика.

Усилия Character.ai по оптимизации предобучения проложили путь для более эффективного обучения моделей ИИ, даже когда компания переходит к обучению с подкреплением после обучения для моделей с открытым исходным кодом. Эти техники, включая Squinch и Gumbel Softmax, подчеркивают приверженность компании повышению эффективности и масштабируемости ИИ.

Источник изображения: Shutterstock

Источник: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Возможности рынка
Логотип Sleepless AI
Sleepless AI Курс (AI)
$0.03703
$0.03703$0.03703
+1.14%
USD
График цены Sleepless AI (AI) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.