logoЖурнал нового мышления
ЧТО НА ГОРИЗОНТЕ

Цифровые големы и гомункулы меняют мир Каковы нынешние позиции и перспективы России в развернувшейся гонке искусственных интеллектов

Каковы нынешние позиции и перспективы России в развернувшейся гонке искусственных интеллектов

Материал из номера:Этот материал вышел в номере: «Горби» №16
Иллюстрация создана нейросетью DALL-E (OpenAI).

Иллюстрация создана нейросетью DALL-E (OpenAI).

В конце сентября текущего года в Белом доме прошла встреча генерального директора OpenAI Сэма Альтмана и руководителей других компаний — технологических лидеров с президентом США, на которой были изложены планы строительства сети 5-гигаваттных центров обработки данных в различных штатах. Для сравнения, 5 гигаватт — эквивалент примерно пяти ядерных реакторов, что достаточно для питания почти 3 миллионов домов.

24 октября Белый дом опубликовал Меморандум о национальной безопасности, в котором говорится, что «искусственный интеллект, вероятно, повлияет почти на все сферы, имеющие значение для национальной безопасности». Привлечение технических талантов и наращивание вычислительной мощности теперь являются официальными приоритетами национальной безопасности США.

Недавно крупнейший инвестор OpenAI, Microsoft Corp., заключила сделку с Constellation, крупнейшим в США оператором АЭС, в рамках которой ядерный поставщик перезапустит закрытый объект Three Mile Island исключительно для обеспечения Microsoft ядерной энергией в течение двух десятилетий.

Также Microsoft и BlackRock (крупнейшая в мире инвесткомпания, под управлением которой находится имущество на 10 триллионов долларов — примерно 8% мирового ВВП) открыли инвестфонд на 30 миллиардов долларов с возможным расширением до $100 миллиардов. Цель — инвестиции в инфраструктуру для AI (Artificial Intelligence, искусственный интеллект, ИИ). И это лишь один из инвестиционных AI-проектов, аналогичные по масштабу стройки дата-центров на 200 000 и в перспективе — до 500 000 ускорителей (GPU) Nvidia H100 объявили Google, Apple, Amazon, xAI Илона Маска. Кстати, Маск умудрился собрать кластер из 100 000 ускорителей всего за четыре месяца! Вот как описывает это Андрей Карпатый, автор и основной преподаватель курса по глубокому обучению в Стэнфорде, сооснователь OpenAI, перешедший затем на должность директора по AI в Tesla: «Илон очень вовлечен в работу команды, предпочитает общаться с инженерами и программистами. Один инженер говорит: «Мне не хватает GPU». Маск звонит ответственному за GPU-кластер: «Удвой количество карт! Прямо сейчас!» Тот отвечает: «Пык-мык, мы не можем. Nvidia столько не может продать, карт просто нет». — «Соедините меня с CEO Nvidia» (удобно быть самым богатым парнем в мире!)».

Другой штрих — при запуске кластера коммунальные службы обещали выдать полную электрическую мощность с запуском новой подстанции в начале 2025 года. Маск срочно перекупил 20 готовых газовых турбин и смонтировал временную электростанцию, в итоге кластер был запущен за 122 дня.

На этом фоне капитализация компании Nvidia, крупнейшего поставщика чипов для AI, этим летом превысила 3,328 триллиона долларов, сделав Nvidia самой дорогой компанией в мире.

Для понимания масштаба — федеральный бюджет России в 2024 году составляет 35 триллионов рублей, что по текущему курсу — примерно 370 млрд долларов. То есть, условно говоря, России необходимо не тратить ни копейки ни на бюджетников и пенсионеров, ни на образование, ни на медицину (молчу про более насущные в последние годы нужды) в течение почти 10 лет, чтобы скопить на покупку всего одной AI-компании из Кремниевой долины.

На фоне таких инвестиций «проект Манхэттен» и лунная программа США кажутся малобюджетными детскими утренниками, и с трудом верится, что самые богатые люди планеты наперегонки вкладывают кровно заработанные триллионы просто на волне хайпа, не ожидая отдачи и результатов.

Какой должна быть эта отдача, какие результаты ожидаются и действительно ли ставки столь высоки? Что ждет человечество в недалеком будущем и какова будет роль самого человека в новом мире, возникающем на наших глазах? И каковы текущие позиции и перспективы России в развернувшейся гонке искусственных интеллектов?

Мыслящий автомат или голем?

Для начала давайте немного разберемся в терминах и кратко пройдемся по эволюции искусственного разума, вершиной которого являются Большие языковые модели (LLM — large language model), в основе которых лежат глубокие нейронные сети — трансформеры. Что это такое и как работает?

Мечта о создании искусственного разума столь же стара, как и мечты о полете и бессмертии (пока нерешенной осталась только последняя задача, впрочем, это уже не точно). Как всегда, цель была осмыслена и сформулирована еще в античности — Гефест выковал Талоса, боевого бронзового «терминатора» для защиты Европы и Крита от всяческих хулиганов. В Средние века алхимики работали как над созданием биороботов (големов и гомункулов), так и не бросали попыток сборки механистических моделей и «мыслящих автоматов». Оба подхода на существовавшем тогда технологическом уровне результатов не дали, зато легли в основу ключевых подходов современной кибернетики.

Нейросеть Kandinsky (Сбер). Промпт: «Готфрид Вильгельм Лейбниц записывает универсальный язык ло- гических рассуждений в книгу. Стиль — гравюра»

Нейросеть Kandinsky (Сбер). Промпт: «Готфрид Вильгельм Лейбниц записывает универсальный язык ло- гических рассуждений в книгу. Стиль — гравюра»

В эпоху просвещения Лейбниц предложил создать универсальный язык рассуждений, который сводил бы аргументацию к математическим вычислениям, чтобы «в споре между двумя философами было бы не больше необходимости, чем между двумя счетоводами». Что положило начало созданию математической логики в XIX веке, которая, в свою очередь, легла в основу весьма широкой области знаний об общих закономерностях получения, хранения, преобразования и передачи информации в сложных управляющих системах, которую мы называем сегодня информационными технологиями.

Итак, уже на этих ранних этапах определились два ключевых подхода к созданию искусственного интеллекта — назовем их условно «информационно-алгоритмическим», подразумевающим создание детерминированных математических моделей для решения интеллектуальных задач, и «нейробионическим», основанным на имитации процессов, происходящих в мозгу человека. Фактически мы видим все те же средневековые «мыслящие автоматы» и «големов» и «гомункулов», только создаваемых в рамках научного метода. Забегая вперед — он все больше возвращается на поле алхимического экспериментального подхода и функционирования по принципу «черного ящика», переходя обратно в сферу магии. Такая вот ирония диалектики, первый привет Гегелю!

Несмотря на очевидную перспективность второго подхода (для создания искусственного интеллекта логично создать искусственный мозг, а точнее — математическую модель мозга и сымитировать в ней процессы мышления), долгое время лучшие результаты давал именно алгоритмически-механистический подход, и связано это было с невозможностью построения моделей больших нейронных сетей на существующих тогда вычислительных мощностях.

Яркой иллюстрацией служит история игрового превосходства машины над человеком.

Почти весь ХХ век казалось, что одной из вершин человеческого интеллекта является игра в шахматы, ведь теоретическое число уникальных шахматных партий составляет невероятные 10120, что превышает количество атомов во Вселенной! Конечно, просчитывать весь этот гугол с хвостиком вариантов позиций в реальной игре необходимости нет, но уже после четвертого хода в партии возможно более 100 тыс. позиций, а потом их количество растет в экспоненциальном порядке, и поэтому считалось, что компьютеру, перебирающему варианты следующего хода, никогда не хватит вычислительной мощности для победы над человеческим гением.

Конец иллюзиям пришел в мае 1997 года, когда созданный корпорацией IBM суперкомпьютер Deep Blue переиграл действующего чемпиона мира Гарри Каспарова* со счетом 3 1/2: 2 /1/2.

При этом Deep Blue был как раз примером классического, алгоритмического подхода, осуществляющего процесс поиска по дереву шахматных ходов при помощи стандартных методов перебора и оценки по заранее определенному алгоритму.

Следующим оплотом человеческого интеллектуального превосходства стала игра Го, возникшая в Древнем Китае несколько тысяч лет назад и считавшаяся скорее видом искусства, невозможного к просчету даже на самом совершенном арифмометре. Этому способствует, вопервых, намного превосходящая шахматы комбинаторика — если, как мы писали выше, после четвертого хода в шахматах возможны порядка 100 тыс. позиций, то в Го их уже порядка 16 млрд. И, вовторых, намного более сложна формализация оценки позиции — опытный мастер «видит» доску и стратегию, но не может четко определить, в чем именно ее превосходство. Все-таки человеческий гений непобедим!

Нейросеть DALL-E (OpenAI). Промпт: «IBM supercomputer Deep Blue beats Garry Kasparov at chess. Style — drawing»

Нейросеть DALL-E (OpenAI). Промпт: «IBM supercomputer Deep Blue beats Garry Kasparov at chess. Style — drawing»

И тут на сцену вышли подросшие цифровые големы и гомункулы — нейросети.

В 2014 году корпорация Google купила лондонский стартап DeepMind Technologies, занимавшийся развитием сверточных нейронных сетей и технологиями их глубинного обучения с подкреплением. В качестве одного из основных направлений было обучение ИИ играм, причем не методом программирования правил и алгоритмов, а методом обучения нейросетей на лучших практических партиях.

И в 2015 году компания Google DeepMind (новое название DeepMind Technologies) представила программу AlphaGo — нейросеть, превзошедшую человека в конкретной области стратегической интеллектуальной деятельности. Если опустить все подробности, то можно выделить три этапа эволюции AlphaGo: первая версия нейросети была обучена на нескольких сотнях тысяч доступных партий профессиональных игроков в Го. И играла на уровне профессионального игрока.

Вторую версию — AlphaGo Master — обучали на… игре самой с собой! В круглосуточном режиме суперкомпьютер отыгрывал миллионы партий в Го, все точнее калибруя нейросеть для умения находить победную стратегию. Результат превзошел самые смелые ожидания — в 2016 году AlphaGo победила 18-кратного чемпиона мира Ли Седоля в пяти играх из пяти.

И, наконец, в 2017 году была представлена AlphaGo Zero, нейросеть, которая обучалась «с нуля», только играя с собой, избавившись от «токсичного наследия» человеческого разума. Уже к 21-му дню круглосуточного самообучения она достигла уровня игры AlphaGo Master, а к 40-му дню продемонстрировала превосходство над ней более чем в 300 пунктов Эло (система рейтингов, применяемая ФИДЕ), сделав соревнование с человеком просто бессмысленным.

Итак, революция произошла:

люди создали искусственную самообучающуюся систему, которая значительно превзошла по когнитивным функциям своих создателей. Окей, Гугл, ты открыл ящик Пандоры!

После этого нейросети превзошли человека в подавляющем большинстве видов деятельности, требующих концентрации интеллектуальных усилий в узкой области знаний и навыков — в настольных и видеоиграх, распознавании образов и речи, переводе на иностранные языки, диагностике, телевикторинах, алгоритмической торговле и аналитике. Неприступным до последнего времени оставался последний бастион — моделирование мышления как такового, без привязки к конкретно решаемой задаче.

Бродский знал?

Четкого определения мышления сегодня не существует, разные школы философии и психологии трактуют его по-разному даже в рамках научного подхода к познанию. Если же сюда добавить религиозные и мистические представления о мысли и ее источниках, задача моделирования мысли при помощи вычислительной техники может показаться вообще нерешаемой.

Однако совершенно очевидно, что мысли формируются на человеческом языке, и процесс развития мышления у ребенка также напрямую связан с обучением речи — недаром же все найденные дети-маугли не были способны освоить человеческий язык, осмысленно общаться и логически мыслить, несмотря на годы последующей реабилитации. То есть

в основе мышления лежит язык, и ключик для создания «настоящего» AI лежит в сфере нейролингвистики.

Любопытно, что эту мысль особо подчеркнул Иосиф Бродский в своей знаменитой Нобелевской лекции: «Если тем, что отличает нас от прочих представителей животного царства, является речь, то литература, и в частности, поэзия, будучи высшей формой словесности, представляет собою, грубо говоря, нашу видовую цель».

Нейросеть Stable Diffusion (CompVis). Промпт: «Joseph Brodsky wins the Nobel Prize and invents LLM. Style — black and white photo»

Нейросеть Stable Diffusion (CompVis). Промпт: «Joseph Brodsky wins the Nobel Prize and invents LLM. Style — black and white photo»

Исходя из этого возникло предположение: если мы можем собрать все известные партии в Го и научить нейросеть игре в нее, если мы можем собрать все фотографии каких-то вещей и научить нейросети их распознавать и синтезировать новые образы, почему мы не можем обучить нейросеть на всей человеческой литературе, справочниках, диалогах в интернете и научить ее мыслить, как человек? Такие цифровые модели, предназначенные для обработки естественного языка с целью оценки вероятности, фиксации и предсказания связей между словами (понятиями и смыслами), называются языковыми моделями.

T9 на стероидах

Языковые модели — алгоритмы, которые могут генерировать человекообразный текст. Первым стал небезызвестный T9 (Text on 9 keys), использовавшийся на кнопочных телефонах для набора и предугадывания текста. Разработанная компанией Tegic Communications в 1999 году T9 позволяла пользователям вводить текст с помощью числовых клавиш, предсказывая наиболее вероятные слова на основе введенных цифр. Например, набор «43556» мог предсказать слово «hello».

С развитием вычислительных мощностей и объемов текстовых данных появились статистические языковые модели. Они использовали вероятностные методы для предсказания следующего слова в тексте на основе предыдущих слов. Эти модели могли быть как основанными на n-граммах (последовательности из n слов), так и на более сложных алгоритмах, таких как HMM (скрытые марковские модели).

С появлением глубокого обучения языковые модели стали использовать нейронные сети, которые могли обучаться на огромных корпусах текста. Одним из первых значительных достижений в этой области стала модель Word2Vec, разработанная Google в 2013 году. Word2Vec использовала нейронные сети для создания векторных представлений слов, которые могли улавливать семантические отношения между ними. Эта технология позволила научить машину выдавать связные и достаточно правдоподобные ответы на вопросы, но ни о какой «разумности» нейросети речь тогда еще не шла.

Настоящая революция произошла в 2017 году, когда исследователи из Google представили модель-трансформер, обладавшую:

  • механизмом внимания — для улучшения понимания контекста. Это позволило моделям лучше понимать и генерировать текст, учитывая более широкий контекст, а не только предыдущие слова;
  • параллелизмом — в отличие от предыдущих моделей, трансформеры могут обрабатывать все элементы последовательности параллельно;
  • масштабируемостью, которая позволяет создавать все более мощные модели с большим количеством параметров.

На основе архитектуры трансформеров были созданы первые большие языковые модели (LLM). В 2018 году Google представил BERT (Bidirectional Encoder Representations from Transformers), а OpenAI выпустила GPT (Generative Pre-trained Transformer). Они показали впечатляющие результаты в понимании и генерации текста, открыв новые возможности для ИИ в области языка.

Эпоха GPT

Так получилось, что лидерство в области создания больших языковых моделей-трансформеров (LLM) захватила молодая компания OpenAI. Вернее, так и было задумано — ведь она изначально была создана в 2015 году Илоном Маском и Сэмом Альтманом (сейчас — CEO) как некоммерческая организация, целью которой было создание под общественным контролем безопасного и полезного сильного искусственного интеллекта.

Для этих целей в компанию как соучредители были приглашены ведущие мировые ученые, инженеры и предприниматели из Google Brain (Илья Суцкевер, кстати, рожденный в Горьком, получивший образование в Иерусалимском университете, а затем сделавший научную карьеру в Университете Торонто в Канаде, откуда перешел в Google), Стэнфорда (Андрей Карпатый, родился в Братиславе, учился в том же университете Торонто, что и Илья, а затем сделал блестящую научную карьеру в Стэнфорде), Гарварда (Грэг Брокман, американский «олимпиадник», учился в Гарварде и MIT, соучредитель успешного стартапа Stripe, достигшего оценки в $3,5 млрд, и венчурного фонда Y Combinator (Тревор Блэквелл, выпускник Гарварда, основатель и генеральный директор робототехнической компании Anybots и фонда Y Combinator).

Нейросеть Kandinsky (Сбер). Промпт: «Человек, похожий на Илона Маска, срочно строит дата-центр на 100 000 ускорителей Nvidia. Стиль — мем, карикатура»

Нейросеть Kandinsky (Сбер). Промпт: «Человек, похожий на Илона Маска, срочно строит дата-центр на 100 000 ускорителей Nvidia. Стиль — мем, карикатура»

Dream team Маска и Альтмана взялась за дело.

  • GPT1 (2018 год) — состояла из смешных на сегодня 117 миллионов параметров, она доказала, что трансформеры, обученные на достаточно большом объеме текстовых данных, способны демонстрировать высокую эффективность в генерации текстов. Модель вызвала большой интерес в среде профессионалов, но не широкой публики.
  • GPT2 (2019 год) — 1,5 миллиарда параметров. Успех модели GPT1 вдохновил команду OpenAI кардинально улучшить GPT2 в двух ключевых областях: увеличение объема тренировочных данных (датасета) и масштабирование модели (количества параметров).

В то время не существовало больших качественных и общедоступных наборов текстовых данных для обучения языковых моделей, поэтому каждая команда специалистов вынуждена была прибегать к различным ухищрениям в соответствии с уровнем креативности. Команда OpenAI проявила находчивость: они обратились к одному из самых популярных англоязычных онлайн-форумов Reddit и скачали все сообщения, набравшие более трех лайков. В результате получили около 8 миллионов постов, а совокупный объем текстов составил 40 гигабайт. Если учесть, что средняя книга «весит» примерно 350 килобайт, то, выходит, датасет состоял из примерно 115 тысяч книг. Человеку, читающему по две книги в день, потребовалось бы на их прочтение более 150 лет.

GPT2 стала прорывом: первой по-настоящему «умной» моделью, способной генерировать тексты на заданную тему, практически неотличимые от человеческих, но главное — окончательно доказала масштабируемость моделей-трансформеров. Увеличение количества параметров, датасета и улучшение архитектуры могут значительно повысить качество генерации текста и когнитивные возможности модели.

С этого момента началась гонка «компьюта» — стало понятно, что существующих вычислительных мощностей для тренировки сверхбольших моделей на сотни миллиардов параметров недостаточно, и надо вкладываться в строительство новых суперкомпьютеров.

  • GPT3 (2020) — 175 миллиардов параметров. Вы удивитесь, но эта модель тоже стала прорывной, и самым поразительным ее свойством стало открытие новых способностей, в том числе к самообучению, о которых даже не предполагали ее создатели. Например, GPT3 сама освоила математику! Да, ее учили текстами, а она научилась считать. Точность ответов на математические вопросы зависит от количества параметров LLM. При росте модели сначала вроде ничего не меняется, а потом происходит качественный скачок, и модель сама научается решать ту или иную математическую задачу. Почему — никто точно сказать не может, магия перехода количественных изменений в качественные, второй привет Гегелю.
  • Семейство моделей GPT4 (2023) — > 1 (?) трлн параметров. С этого момента OpenAI перестали разглашать технические подробности архитектуры модели и прочие ее параметры, породив кучу шуток и мемов про CloseAI. Впрочем, решение было вполне логичным, так как практикуемая до этого открытость привела к плагиату. Пока LLM представляли скорее научный интерес, можно было играть в открытую, но когда запахло очень большими деньгами и вопросами национальной безопасности, правила изменили.

По косвенным признакам эксперты оценивают GPT4 более чем в 1 триллион параметров, а стоимость «компьюта» — вычислительных ресурсов для ее обучения, по словам Сэма Альтмана, составила более 100 миллионов долларов. Это первая модель, превзошедшая по своим когнитивным способностям среднестатистического взрослого человека. Ее ключевыми особенностями стали:

  • мультимодальность — способность принимать на входе не только тексты, но и изображения, аудио и видео. Модель научилась не просто описывать увиденное, но и понимать юмор, обобщать текст по скриншотам и отвечать на экзаменационные вопросы, содержащие графики, диаграммы и иные иллюстрации;
  • мультиязычность — научилась 24 человеческим языкам и способна понимать и отвечать на любых их комбинациях;
  • прохождение стандартизированных тестов лучше человека — модель получила 1410 баллов по SAT (стандартный тест для поступления в вузы США, лучше, чем 94% абитуриентов), 163 по LSAT (тест для поступления в юридические вузы, лучше, чем 88% поступающих) и 298 по Единому экзамену на аттестат зрелости (лучше, чем 90% выпускников);
  • прохождение специализированных профессиональных экзаменов — например, превысила проходной балл по USMLE (United States Medical Licensing Examination, «Лицензионный экзамен для врачей в США») более чем на 20 баллов и превзошла модели, специально настроенные на медицинские знания;
  • программирование — модель способна создать web-сайт по «картинке на салфетке» и написать несложное приложение по описанию, например, Змейку, Тетрис, Го, платформер или игру «Жизнь».

Модель o1 — а шаг до технологической сингулярности?

Все перечисленные выше модели выдавали ответы «с первого раза», по схеме вопрос — моментальный ответ.

Но мы-то, люди, думаем иначе, мы же рассуждаем! Задаем себе вопросы, обдумываем ответы, ставим под сомнение свои мысли и выбираем лучшие из них. А если научить этому нейросеть, это повысит ее когнитивность?

Это стало ясно уже при работе с первыми LLM: если в промпт (запрос для модели) добавить фразы типа «подумай и опиши шаг за шагом», «порассуждай последовательно», качество ответов ощутимо росло. Так почему бы не прошить возможность рассуждений, поиска ошибок в «проектах» ответов и прочую рефлексию на уровне архитектуры модели? Да, это потребует кратно больших вычислительных мощностей, так как каждый вопрос необходимо будет «обдумывать» до момента нахождения удовлетворительного ответа, который пропустит «внутренний цензор» LLM, но раз пошла такая пьянка, за ценой же мы не постоим?

Именно такой, рефлексирующей, стала вышедшая в сентябре этого года модель o1.

То, что это (снова!) революционная штука, ее создатели поняли уже на этапе тестирования, именно поэтому, скорее всего, отказались от сложившейся нумерации (GPT 1–2–3–4) и дали ей новое название с единичкой — новая эпоха.

Если GPT4 в большинстве интеллектуальных задач превосходила среднего обывателя и давала ответы примерно на уровне хорошего профильного студента, то o1 превзошла средний уровень ученых-экспертов в своих областях знаний!

Если GPT4 могла решить только 13% математических олимпиадных задач Математической ассоциации Америки, то o1 — более 80%. В задачах на программирование результатом стал рост показателя с 11 до 89%.

И самое невероятное — это результаты специально созданного «бенчмарка» по естественным наукам, защищенного от гугленья, для ответов на которые нужны не только глубокие знания, но и понимание сути вопросов. При прохождении этого теста PhD (кандидаты наук) в данных областях и с доступом в интернет решают правильно всего 69%, тратя не более получаса на каждую задачу. Кандидаты наук из смежных отраслей смогли решить лишь 34% задач. Модель o1 решила 78% задач за считаные секунды.

Мы с коллегой протестировали модель на задачах из собственной олимпиадной юности, причем на русском языке. Скажу честно, выглядит это впечатляюще: к задаче олимпиады всероссийского уровня, на решение которой у лучших молодых умов уходит в среднем 30–50 минут, нейросеть формулирует верное решение за 12–40 секунд.

Уже на текущем уровне стало возможным создание научных AI-агентов, способных решать узкоспециализированные задачи и формировать на их основе системы, оркестрируемые агентами более высокого уровня (архитекторами и стратегами), верифицируемые агентами-оппонентами и критиками. Фактическое создание виртуальных НИИ, работающих над решением сложнейших задач в режиме 24/7, без отгулов и выходных. Очевидно, что одной из первоочередных задач станет задача совершенствования самих моделей — оптимизации их архитектуры, создания все более совершенных датасетов для обучения, более совершенного «железа» для тренировки. И при ее успешном решении будет достигнута так называемая технологическая сингулярность — состояние, при котором дальнейшее технологическое развитие станет неуправляемым и необратимым, что повлечет за собой необратимые же изменения самой сути нашей цивилизации.

Но для этого нужны новые дата-центры, еще больше ускорителей и энергии, строительством которых, не считая бюджетов, сейчас и заняты самые могущественные и технологически развитые компании мира.

Читайте также

ЧТО НА ГОРИЗОНТЕ

Новые приключения Электроника Искусственный интеллект заставляет переосмыслить сам подход к образованию. Но как человеку остаться умнее машины?

А что у нас?

Трудно переоценить вклад России, унаследовавшей от СССР одну из лучших математических школ мира, в развитие искусственного интеллекта. Многие российские компании стали мировыми лидерами в разработке и внедрении нейросетей в своих областях автоматизации. Например, Abbyy, основанная выпускником МФТИ Давидом Яном, одним из лидеров в распознавании текстов и образов; Cognitive Technologies, основанная выходцем из СССР, профессором Стэнфорда Ефимом Щукиным — признанным экспертом в области распознавания образов, лексики в технологиях беспилотного вождения; питерская компания ЦРТ — один из мировых лидеров в создании технологий распознавания и синтеза речи и речевой биометрии; компания VisionLabs — один из лидеров в создании технологий компьютерного зрения и лицевой биометрии, и многие-многие другие. Сотни тысяч выпускников МФТИ, Бауманки, ИТМО, МГУ, СПбГУ, Политеха, сильнейших региональных университетов стали ведущими разработчиками и инженерами в Google, Microsoft, Apple, Meta**, Tesla, OpenAI и других компаниях, без преувеличения создающих будущее нашей цивилизации. Ведь только после событий 2022 года из России, по официальной оценке главы Минцифры Максута Шадаева, уехало более 100 тыс. высококлассных специалистов в области информационных технологий.

Если же говорить конкретно про создание языковых моделей, то несомненным лидером стал «Яндекс» со своим голосовым помощником Алисой. Работы над языковой моделью начались еще в 2016 году, на заре внедрения виртуальных ассистентов. На тот момент в «Яндексе» уже были созданы мощные движки распознавания и синтеза речи, используемые в навигаторе и поиске, и команда Аркадия Воложа приступила к разработке значительно более сложной, как тогда говорили, «многослойной», нейросети для создания полноценного виртуального помощника. Фактически это был последний шаг перед созданием трансформеров и LLM, и российская компания делала его синхронно с мировыми лидерами индустрии, на равных конкурируя с Google, Microsoft и Apple.

После триумфа трансформеров и LLM стало понятно, что будущее — за их масштабированием, для чего необходимы значительные вычислительные мощности, и «Яндекс» стал лидером в их строительстве в России. В 2020 году в городе Сасово Рязанской области был запущен суперкомпьютер «Ляпунов», производительностью 12 Тфлопс, построенный на 17 тыс. ядрах CPU и 1000 GPU nVidia A100. В 2021 году были введены в эксплуатацию суперкомпьютеры «Галушкин» и «Червоненкис», производительностью 16 и 21 Тфлопс соответственно, последний стал самым мощным суперкомпьютером России. Стоит лишь отметить, что это суперкомпьютеры общего назначения, не заточенные конкретно под тренировку нейросетей, которая наиболее эффективно осуществляется именно на графических ускорителях (в «Червоненкисе» установлено 1592 чипа nVidia A100).

Значительный удар по развитию «Яндекса» нанесли события 2022 года, когда Аркадий Волож и более 400 ведущих инженеров, отвечавших за развитие AI, облачных технологий и беспилотного транспорта, покинули Россию, а бизнес компании был разделен на «российскую» и «международную» части. Вот что написал об этом сам Аркадий в своем знаменитом заявлении:

Аркадий Волож. Фото: Википедия

Аркадий Волож. Фото: Википедия

«Когда мы создавали «Яндекс», мы думали не только о технологиях и бизнесе. Мы верили, что строим новую Россию — открытую, прогрессивную, интегрированную в глобальную экономику, известную в мире не только своими сырьевыми ресурсами.

«Яндекс» как технологическая компания состоялся благодаря невероятно талантливым инженерам, которых нам удалось привлечь, удержать и взрастить… Сейчас эти люди находятся за пределами России и могут начать делать что-то новое в самых передовых областях технологий. Они принесут огромную пользу тем странам, где останутся».

Сложно что-то добавить или убавить из этого текста, все коллеги, с кем мы его обсуждали, говорили только о комке в горле, ведь мечта Аркадия была нашей общей мечтой.

AI с господдержкой

Вторым значимым игроком, создавшим отечественную LLM, стал Сбербанк. Но если в случае с «Яндексом» это было органическим развитием бизнеса компании, то здесь речь идет скорее о роли личности в истории, и личность эта — Герман Греф.

Герман Оскарович давно известен как глобалист, футуролог и даже трансгуманист, всецело нацеленный в будущее. Плюс, несомненно, эффективный менеджер, умеющий достигать поставленных целей. Наверное, именно поэтому в январе 2023 года он и был назначен «старшим по AI» в России в рамках национального проекта «Цифровая экономика», общий бюджет которого (на период 01.10.2018–31.12.2024) составлял 1,6 трлн рублей.

Собственные ресурсы «Сбера» и государственное финансирование дали свои плоды: Грефу удалось собрать сильную команду ученых и инженеров, причем как «старой школы» (как известный в отрасли Сергей Марков, автор одного из сильнейших шахматных движков, а также популяризатор науки и автор, пожалуй, лучшей русскоязычной книги про ИИ «Охота на электроовец. Большая книга искусственного интеллекта»), так и молодых разработчиков и лучших выпускников ведущих вузов страны.

Второй составляющей успеха стало строительство двух суперкомпьютеров, «заточенных» на тренировку нейросетей, — Christofari (2019 год, производительность 6,7 Пфлопс, 1000 ускорителей Nvidia V100) и Christofari Neo (2021 год, производительность 12 Пфлопс, 1000 ускорителей Nvidia А100).

Сильные инженерные кадры и достаточные вычислительные мощности позволили «Сберу» повторить опыт OpenAI и представить весной 2023 года LLM GigaChat, по своим характеристикам (29 млрд параметров) и когнитивным способностям примерно равную GPT3 разлива 2020 года. В сфере, находящейся на острие технологий, даже повторение, пусть и по лекалам OpenAI и с отставанием в три года, несомненно, является успехом. Скажем так — игроков, кому такое удалось, в мире не так и много.

Однако, как уже писалось выше, для дальнейшего развития и тренировки более умных нейросетей требовалось их масштабирование, то есть не столько светлые головы, сколько вычислительные ресурсы…

Читайте также

ЧТО НА ГОРИЗОНТЕ

Перспективы развития или угроза существованию? Как найти человеческое в искусственном интеллекте и не стать его жертвами

Этот корабль снова затонул

Уинстону Черчиллю приписывают сакраментальную фразу о событиях в нашей стране в 1917 году: «Судьба обошлась с Россией безжалостно. Ее корабль затонул, когда до гавани оставалось не более полумили».

Весьма символично, что спустя век ровно это же можно сказать про развитие ИИ. По отрасли нанесено два сокрушительных удара: отъезд из страны тысяч сильных специалистов, и самое главное — невозможность строительства новых суперкомпьютеров для тренировки нейросетей из-за санкций. Завезти контрабандой сотни тысяч самых современных ускорителей, которые наперечет во всем мире и отгружаются «по разнарядке» самым технологичным компаниям мира с записью на годы вперед, — нереально.

GPT4 была обучена на 25 000 видео-карт A100 в течение трех месяцев. Для тренировки следующего поколения применяют кластеры из 100 000 GPU Nvidia H100, и такие кластеры построили уже несколько ведущих компаний мира. Для сравнения: самый мощный суперкомпьютер «Сбера» состоит из примерно 1000 чипов A100, каждый из которых по производительности медленнее H100 в два–девять раз на разных типах задач. Таким образом, общая производительность кластера из 100 единиц 000 H100 в 200–900 раз больше, и если на тренировку условной модели o2 у OpenAI уйдет четыре–шесть месяцев, «Сберу» на это потребуется столетие, то есть это практически нереализуемо.

Имея вторые в мире позиции в данной сфере, наша страна оказалась выбитой из главной гонки цивилизации прямо на финишной прямой.

Нейросеть DALL-E (OpenAI). Промпт: «Beautiful artificial intelligence reaches techno- logical singularity, style — futurism, cyberpunk»

Нейросеть DALL-E (OpenAI). Промпт: «Beautiful artificial intelligence reaches techno- logical singularity, style — futurism, cyberpunk»

А что там, за финишем?

Итак, все ресурсы самых технологичных, богатых и влиятельных компаний мира брошены на строительство кластеров суперкомпьютеров и атомных станций для их питания для создания «сильного» искусственного интеллекта. До достижения этой цели, по разным оценкам, остаются считаные годы, а возможно, счет идет уже и на месяцы (судя по суете Маска и товарищей).

Но что же ждет нас там, за этой чертой?

Предсказывать будущее, тем более в период столь высокой неопределенности, — занятие достаточно бессмысленное. Но некоторые тренды и приготовления уже достаточно очевидны, поэтому рискнем.

Очевидно, что страны, создавшие «сильный» искусственный интеллект, получат колоссальные технологические и экономические преимущества — это новые лекарства от неизлечимых сегодня болезней, достижение активного долголетия, новые материалы, технологии, экологически чистые и дешевые источники энергии, резкий рост уровня жизни, новые технологии образования и развития людей, новые виды искусства и досуга, принципиально новые военные технологии и средства обеспечения общественной безопасности. Вот выдержки из эссе, опубликованного в сентябре этого года, пожалуй, самым информированным в вопросе человеком на планете, гендиректором OpenAI Сэмом Альтманом:

Сэм Альтман. Фото: Википедия

Сэм Альтман. Фото: Википедия

«После тысяч лет накопления научных открытий и технологического прогресса мы поняли, как расплавить песок, добавить некоторые примеси, организовать его с удивительной точностью на чрезвычайно малом масштабе в компьютерные чипы, пропустить через него энергию и получить системы, способные создавать все более совершенный искусственный интеллект.

Это может оказаться самым значимым фактом всей истории: возможно, у нас будет суперразум через несколько тысяч дней (!).

В следующие пару десятилетий мы сможем делать вещи, которые казались бы магией нашим бабушкам и дедушкам.

С этими новыми возможностями мы можем достичь общего процветания в такой степени, которая кажется сегодня немыслимой. Процветание само по себе не обязательно делает людей счастливыми — среди богатых людей много несчастных — но оно значительно улучшит жизни людей по всему миру».

С последним постулатом, про улучшение жизни людей по всему миру, Сэм либо слегка лукавит, либо является идеалистом. Понятно, что плодами новых технологий воспользуются в первую очередь те общества, которые их разработают, в нашем случае — так называемый «золотой миллиард». Вторым эшелоном станут нейтрально-дружественные страны — они смогут покупать и использовать новые технологии, в них будут инвестировать и вовлекать в совместные программы развития. Распространение новых технологий в страны-изгои будет, скорее всего, запрещено, и правительствам этих стран, чтобы «продать» населению нарастающее отставание, ничего не останется, как жестко ограничивать информацию (вплоть до отключения от Всемирной сети), искать врагов, ссылаться на иррациональные религиозные или идеологические причины правильности выбранного пути, сеять ненависть к любому инакомыслию и непохожести. Хорошие и проверенные варианты — религиозное мракобесие, военный коммунизм или их причудливый симбиоз. Можно с хороводами.

В общем-то во многих антиутопиях такой мир уже достаточно неплохо описан, среди русскоязычных современных авторов сложно не вспомнить Сорокина и Пелевина.

Но хотелось бы закончить материал на оптимистичной ноте. Вся история человечества доказывает, что в долго­срочной перспективе цивилизация всегда побеждает варварство. Когда я говорю это друзьям, они чаще всего напоминают о падении Римской империи, но это плохой пример, Рим пал сам, под тяжестью коррупции и внутренних противоречий, а варвары пришли на его руины. И тем не менее наша великая европейская цивилизация, созданная античностью, возродилась и достигает на наших глазах новых, немыслимых ранее высот.

С нами будет так же. Самое темное время всегда перед рассветом.

Николай Бреус

Иллюстрации к статье созданы генеративными нейросетями DALL-E, Midjourney, Stable Diffusion, Kandinsky.

* Признан Минюстом РФ «иноагентом».

** Компания признана экстремистской и запрещена в РФ.