Генеративные нейросети с нами уже почти 3 года. В начале казалось, что они будут именно генерировать новые смыслы, комбинируя все знания мира, но реальность оказалась другой. Комбинирование смыслов не приводило к реально креативному результату, иными словами, создать что-то новое, креативное, необычное, прорывное — то, что будет читать человек с интересом, не получалось.
При этом генеративность отлично работала там, где не нужны новые смыслы, например те же RAG-системы для извлечения знаний, где обычно temperature ставится в 0.0 (aka нулевая креативность), а в промпте явно указывается «не выдумывай, используй только знания из контекста». Поверх этого создавались сложные мультиагентные системы, которые должны были понять, что хочет пользователь, и выполнить эту задачу. Здесь всё тоже работало хорошо.
LLM отлично научились писать код, здесь очень сильно помогает детерминированность результата — код либо работает, либо нет. При этом LLM, конечно, тупит в отдельных кейсах, обычно заходя в цикл бессмысленных доработок, добавляя новые библиотеки, когда нужно реально подумать и, возможно, что-то убрать. Оно ходит по кругу, добавляя и перебирая варианты.
Здесь также помогает мульти-агентный подход и тонкая настройка правил, промптов. Но о креативе здесь речь не идёт.
Медицина казалась сложной, но по факту очень детерминированной наукой, в которой есть тонны знаний и чёткие протоколы лечения. Здесь нет креатива, и не нужно, а порой даже опасно создавать новые смыслы. Здесь есть алгоритм: если A, то B. Загрузил анализы, получил диагноз и полное детальное объяснение, намного более детальное, чем вам расскажет врач (за 12 минут приёма-то).
Возьмём более простой случай. Моя команда уже 6 месяцев делает продукт для генерации анкеты для проведения маркетингового исследования. Это казалось лёгкой задачей: на входе есть дебриф от клиента, под капотом есть чёткие методики проведения исследования. Грузим всё в LLM, оно всё понимает и выдаёт идеальную анкету из 100–200–300 вопросов.
В результате создали монстр-систему из 30+ агентов, которая включает гейты валидации и корректировки. Но оно всё ещё далеко от анкеты, которую напишет опытный менеджер, который работает в этой теме 5+ лет. Получается, эта работа имеет довольно большую креативную составляющую, несмотря на существующие методики.
Такого же мнения придерживаются авторы художественных книг, которые почему-то попробовали LLM для написания новой книги и бросили это занятие.
При этом LLM всё-таки может симулировать автора в той или иной степени. Если ей скормить много текстов автора, то она начинает говорить как автор.
Мы делали такой эксперимент в компании ещё весной, вот тут есть описание. Создать клон сотрудника или команды довольно-таки легко. Когда наша цель — не клонировать креативность автора, а клонировать его знания по какой-то теме плюс стиль ответа, то это работает.
OK, ну хотя бы статью такую же, как написал бы автор на Habr? Ну или, наконец, пост — небольшой пост в стиле и по теме автора?..
Наблюдение: в эксперименте с клонированием сотрудников было явно замечено, что клонирование конкретного человека, загрузив в RAG-агента всю его переписку, работает на удивление хорошо. При этом если загрузить все знания по всем перепискам в одну RAG-коллекцию, результат будет отвратительный и по стилю, и по смыслу ответов.
Вывод: в переписках сотрудника есть высокая консистентность между его ответами, обычно он отвечает в одном стиле и имеет более-менее одинаковое мнение по одним и тем же вопросам.
Почему же это плохо работает с постами и статьями? Потому что мы просили LLM написать новое, написать по теме, которой не было в постах и статьях автора. LLM тут способна скопировать стиль, но суть превращается либо в полную ересь, либо вода водой.
Обычно это горки или волны креативности. Сначала яркая идея и первый вариант — движение вверх по горкам креативности, потом перечитывание этого варианта и понимание "полная хрень", — движение вниз по горкам креативности.
Затем пошёл погулял, помыл посуду — новый инсайт, ещё более яркий — движение вверх. Перечитывание — расстройство и желание это всё удалить — вниз. Забыл про это, ночью приснилась новая идея — вверх. И так далее. Обычно раскачивание по этим горкам идёт всё с большей амплитудой. И когда всё уже на 80% готово, иногда хочется всё это удалить — сжечь второй том «Мёртвых душ».
Для симуляции этого процесса нужен похожий механизм — мультиагентная система, в которой будет набор агентов от гения до критика. Нужно симулировать эти качели.
Это ярко видно в кодинге, когда просишь поменять одну вполне конкретную вещь, а оно меняет (типа оптимизирует) ещё что-то, и может сломать всю систему.
Для избежания такой проблемы в коде помогает большой набор правил и жёсткие промпты. Но это плохо работает с текстом, где нет самого главного — нет определения, что такое хороший текст? В отличие от кода, где хотя бы есть детерминированность в виде «код компилируется — работает».
Для решения этой проблемы нужно апдейтить текст очередным агентом не полностью, а кусками. Фиксить что-то конкретное в конкретном куске текста.
Мы проводим сейчас много экспериментов по этой теме, и нам удалось немного приблизиться к креативному контенту от LLM. Мы умеем извлекать ДНК автора (стиль и смыслы) из существующих статей. Мы умеем заставить LLM найти новую тему самостоятельно. Мы умеем генерить полуготовые статьи.
Всё это базируется на нашем собственном Agentic AI-фреймворке, который работает без роутинга и оркестрации. Более детально пишу об этом тут.
Источник


