Последние месяцы новости о применении генеративных нейросетей выходят по несколько штук в день. Но мнения о нейросетях кардинально расходятся даже у известных профессионалов в этой области. Франсуа Шолле еще в 2019 писал о третьей зиме искусственного интеллекта, как и MMC Ventures в своих отчётах. Илон Маск писал о неминуемой технологической сингулярности, которая может случиться со дня на день. Питер Тиль наоборот предлагает использовать LLM для военных действий. А известный исследователь ИИ и автор книги «Гарри Поттер и методы рационального мышления» Элиезер Юдковский, словно глашатай Судного дня, призывает бомбить несанкционированные датацентры ядерным оружием.

Фантасты и футурологи прошлого века мечтали, что роботы возьмут на себя всю грязную и тяжёлую работу, оставив людям творчество. Но теперь сформулированный еще в 80-е годы парадокс Моравека полностью подтвердился: началось наступление на творческие профессии. Художники, писатели, актёры, певцы, дизайнеры, программисты, управленцы, переводчики, рекрутеры могут быть заменены искусственным интеллектом.

Нейросети уже создают немыслимое количество контента. Положительные области применения нейросетей задвинуты в угол (например, преобразование информации из одного домена в другой: перевод текста, распознавание текста на изображениях, преобразование текста в речь или же речи в текст). А свидетели искусственного интеллекта уже стучат в вашу дверь. Ситуацию, в которой мы все оказались, хотелось бы рассмотреть поближе.

Да кто такой этот ваш ChatGPT?

Начнём с общего (не)понимания контекста. Наше представление об ИИ в основном сформировано исследованиями советской школы. Под искусственным интеллектом понимается именно полноценно мыслящий интеллект. В американской школе AI — это программа, которая может выполнять одну из функций человека. Например, читать или смотреть. Мыслящий ИИ в США называется AGI — искусственный интеллект общего назначения. Откровенно говоря, человечеству до него ещё много лет исследований и разработок.

ChatGPT

  1. Generative Pretrained Transformers (GPT) — трансформеры, особая архитектура нейросети, которая может обучаться на сверхбольших корпусах неразмеченных данных для генерации текстов. Модель учится максимально хорошо предсказывать следующее слово в предложении (но не более того).

  2. Reinforcement Learning from Human Feedback (RLHF) — обучение с подкреплением на основе пользовательской обратной связи. Обучение с подкреплением — это самая понятная концепция: мы назначаем нейросети «награду» за правильный результат и «наказание» за неправильный. Таким способом модель обучается выполнять правильные действия. В случае ChatGPT размер награды назначает человек, отмечая, насколько текст кажется ему правильным.

Из описания архитектуры и принципа работы ChatGPT можно выделить следующие вещи:

  • нейросеть обучается на сверхбольшом корпусе текстов;
  • учится выдавать некий усреднённый ответ, исходя из изученных данных, добавляя к результату немного энтропии.

Причём сеть обучена так, чтобы текст казался правильным и нравился человеку с субъективным восприятием прочитанного. На выходе получается красивый и грамматически выверенный усреднённый ответ. OpenAI утверждает, что по специфическим темам модель обучали профильные специалисты. Хотя основной корпус ответов обрабатывали разметчики из Африки с зарплатой 2$ в час.

Midjourney / Stable Diffusion

  1. Diffusion Model — модель вначале смотрит, как исходные изображения превращаются в шум, а затем учится восстанавливать изображения из гауссовского шума. Если провести эту операцию много раз с текстовыми подсказками, то модель научится восстанавливать усреднённое изображение, соответствующее конкретному текстовому описанию.

  2. Contrastive Language-Image Pre-Training (CLIP) — нейросеть, которая обучена связывать между собой изображение и текстовое описание, чтобы по текстовому описанию можно было найти максимально близкое изображение.

И опять нейросеть создаёт некое усреднённое изображение по текстовому описанию. Сеть обучается усреднению на сверхбольшом наборе доступных в интернете работ популярных художников. Связь между изображением и описанием создаётся людьми с субъективным восприятием увиденного.

Всё это сильно напоминает знаменитую «китайскую комнату», это неплохо и даже полезно. Но у всего есть границы применимости, выход за которые даёт абсолютно непредсказуемый результат. Нейросеть обучалась давать пользователям не правильный, а приятный ответ, и использовать её нужно именно для этого.

Информация

Люди хотят получать не просто информацию, а новую информацию. Заходя в интернет-магазин, они хотят узнать информацию о конкретных ботинках, а не об усреднённо-абстрактных: почитать о материале подошвы, посмотреть фото. Остальной текст служит для связи информации между собой. И когда информации вокруг становится слишком много, люди хотят получать максимально сжатые сведения.

В теории информации чётко разделяют данные и информацию. Например, Клод Шеннон определяет информацию как «уменьшение неопределённости знаний». Иначе говоря, насколько полученные данные являются новыми для субъекта.

Согласно этому, средние данные — это если прочитал описание ботинок, сгенерированное нейросетью, то прочитал все такие описания. Если посмотрел достаточно изображений, нарисованных нейросетью, то видел их все. Интерес вызывает только нечто новое, привнесённое человеком. Но нейросети генерируют данные очень быстро, тысячи и десятки тысяч изображений в секунду, в которых информация, привнесённая человеком, крайне мала. Повсеместное внедрение генеративных нейросетей ведёт к стремительному обесцениванию информации. Никто не прочитает описания товаров, если 95% из них будут написаны нейросетью. К изображениям, нарисованным нейросетью, будут относиться, как к стоковым картинкам из фотобанка. Все будут вставлять их потому, что так написано в правилах дизайна, но никто из пользователей не будет на них смотреть. Книги, написанные нейросетями, никто не будет читать. Дополнительно это будет усугубляться информационным шумом и галлюцинациями нейросетей. Очень сложно будет понять, насколько правдив прочитанный текст.

Но корпорации это не останавливает, как не остановили жалобы клиентов на ранние чат-боты, поставленные на замену первой линии техподдержки. Уже лавиной хлынули сообщения о применении нейросетей для «автоматизации» работы:

Microsoft внедряет ChatGPT в систему управления задачами для повышения «вовлечённости» сотрудников. Генерируя фактически бесполезные задания вместо настоящей работы. Геймификация на новый лад: «подключите 5 новых клиентов», «ответьте на 5 электронных писем», «изучите корпоративный регламент».

Компания «Подбор» собирается рассылать своим соискателям работы сгенерированные письма. Британская Octopus Energy уже использует ChatGPT для общения с клиентами через электронную почту. Обе компании результат оценивают положительно. Клиенты остались довольны, потому что нейросеть натренирована писать тексты, которые нравятся(!) людям.

«Fix Price» собирается генерировать описания вакансий и описания товаров. Маркетологи предлагают генерировать карточки товаров и описания к ним на OZON и Wildberries. В обоих случаях полезную информацию вносит человек, прося нейросеть учесть её при генерации. То есть нейросеть генерирует заполнитель между важной информацией, заваливая клиентов бесполезными словами и картинками.

DoccGTP — автоматическое комментирование кода на Swift, что уже на грани. Смысл комментариев в коде — указание на важную и неявную особенность. Нет никакого смысла документировать каждую строчку, размывая внимание разработчика.

Robusta смотрит на ошибки в системе логирования и даёт рекомендации по их устранению. Знания нейросети ограничены 2021 годом, и она не сможет подстраиваться под стремительно переписываемый Kubernetes. Вполне вероятно, что ситуацию спасёт плагин для доступа в интернет. Но и тогда нейросеть будет просто гуглить за сотрудника и пересказывать чужие и, возможно, ошибочные рекомендации своими словами с шансом галлюцинации.

Spotify удалила десятки тысяч треков, сгенерированных ИИ, из-за накрутки прослушиваний ботами для получения денежного вознаграждения. Как в этом хаосе из сгенерированной бессмыслицы пробиться начинающему таланту?

BuzzFeed заменяет 180 человек на ChatGPT для написания новостей. А главный редактор РБК только пробует на вкус. Для читателей нет ничего лучше новостей, разбавленных водой от галлюцинирующих нейросетей.

Дипфейки

Дипфейки можно отнести к отдельной категории информационного шума. Имитация голоса и манеры речи, синхронизация движения губ уже может наделать немало шуму, многократно искажая исходное послание. Современные нейросети пока не позволяют быстро изготавливать достаточно достоверный контент. Но часто этого и не нужно, даже плохо сгенерированный взрыв в Пентагоне способен обвалить фондовую биржу. А до распространения по сети фейкового видеоконтента с политиками и лидерами общественного мнения осталось не так много времени. Тем более, что на волне популярности многие из них сами используют генеративные нейросети для создания контента.

Философская телега

Способ обучения и использования нейросетей напоминает концепцию известного французского философа Жака Дерриды «Мир как текст». В век информации любая личность сформирована, по большей части, из прочитанных текстов. И восприятие реальности для субъектов искажается текстами, что порождает новые субъективные тексты. Например, Илья Суцкевер напрямую заявляет, что при достаточно большой и всеобъемлющей выборке возможность нейросетей просто предсказывать следующее слово в предложении должна привести к очень подробному пониманию мира. Другими словами: нейросеть, прочитавшая достаточное количество текстов, сможет понять все грани реального мира.

Вот только человек проверяет полученные знания, взаимодействуя с материальным миром. Может подвергнуть сомнению любую информацию, пройдя до материального первоисточника. Отринуть субъективные выводы автора и выработать собственные. Нейросеть такой возможности лишена изначально. Более того, RLHF, петля обратной связи на этапе дообучения, приносит ещё больше субъективного взгляда разметчиков, которые могут не обладать обширными знаниями. Среднее мнение по субъективным текстам не обязано коррелировать с материальным миром. Если количество текстов, оправдывающих теорию плоской земли, станет большим, чем количество опровергающих, то теория плоской земли вполне может встать рядом с научными теориями. Благо, текстам из википедии можно добавить побольше веса.

Так что же, нас всех уволят?

Обязательно уволят. Когда-нибудь.

Мировая экономика входит в очередной виток всеобщего кризиса, во время которого урезать затраты на ФОТ — единственный способ обеспечить рост прибыли. Первой волной пошли работники проектов, находящихся на грани самоокупаемости и ниже. Второй волной пойдут работники, которых хоть как-то можно заменить ИИ, только создав видимость их работы. IBM уже приостановила найм на 8 тысяч позиций.

Выдаваемый нейросетью текст на первый взгляд не отличается от текста копирайтера, а сгенерированные изображения побеждают в конкурсах художников и фотографов. И кого остановит отсутствие информации, когда техподдержку первой линии заменяли чат-ботами первого поколения? Пользователи до сих пор жалуются, что чат-боты не помогают решить проблему. «Лайфхаки», как выйти на оператора, востребованы у аудитории. Поэтому увольнять будут, несмотря на падение работоспособности даже в ближайшей перспективе.

Пользователи сети начали страдать от избыточного информационного шума ещё до появления нейросетей. Умение искать достоверную информацию превратилось в необходимый навык. Но в ближайшие годы нас ждёт стремительное обесценивание информации. По крайней мере, с таким заявлением Джеффри Хинтон уволился из Google. Ящик Пандоры уже не закрыть. Нейросетевые системы фильтрации контента петабайт мусора уже на подходе. Массовые сокращения работников под прикрытием внедрения ИИ только начались. А тысячи «волшебников» от мира IT спешат продать AI для собак, для дорожных работников, для выбора цвета штанов.