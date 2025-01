Разработчики могут спать спокойно. «Первый ИИ-программист» бесполезен, он справляется только с 15% поставленных задач

Сервис Devin, заявленный авторами в качестве «первого ИИ-программиста», оказался не в силах заменить реального разработчика. Грандиозный разрекламированный проект решает лишь малую часть поставленных перед ним задач. Процент успеха находится на уровне 15% – это крайне низкий показатель, тем более, что Devin был запущен сравнительно давно.

Реальный ум лучше виртуального

Сервис Devin, являющийся, по словам авторов, «первым ИИ-программистом» в мире (the first AI software engineer), оказался нар едкость плохим разработчиком ПО. Тесты показали, что он едва справляется с работой – он оказался способен выполнить лишь 15% поставленных перед ними задач, пишет The Register.

За проектом Devin стоит компания Cognition AI. Как сообщал CNews, премьера Devin состоялась в марте 2024 г., и до этого времени велась его разработка. С марта по декабрь 2024 г. велось его своего рода закрытое бета-тестирование, в ходе которого проект дорабатывался, и в декабре 2024 г. Devin стал фактически общедоступным.

Нейросеть «Кандинский» Искусственный интеллект пока не в силах тягаться с разумом человека

Однако воспользоваться им смогут лишь те, кто располагает свободными $500 (49,1 тыс. руб. по курсу ЦБ на 24 января 2025 г.). Это стоимость ежемесячной подписки на сервис.

Слишком много обещаний

Если обратиться к официальной документации к Devin, подготовленной Cognition AI, то в ней сказано: «Devin – это автономный инженер-программист ИИ, который может писать, запускать и тестировать код, помогая инженерам-программистам работать над личными задачами или командными проектами». По заверениям разработчиков, Devin в состоянии самостоятельно «просматривать пулл реквесты (запросы на внесение изменений – прим. CNews) поддерживать миграцию кода, реагировать на проблемы по вызову, создавать веб-приложения и даже выполнять задачи персонального помощника, например, заказывать обед в DoorDash», уверяют авторы проекта.

Сервис использует корпоративный мессенджер Slack в качестве основного интерфейса для взаимодействия с пользователем, а также контейнер Docker (программная платформа для разработки, доставки и запуска контейнерных приложений), в котором размещены терминал, браузер, редактор кода и планировщик.

Devin поддерживает интеграцию API с внешними сервисами. Это позволяет ему, например, отправлять сообщения электронной почты от имени пользователя через сервис для транзакционной и маркетинговой электронной почты SendGrid.

У семи нейросетей программист без знаний

Как пишет The Register, Devin представляет собой «сложную систему искусственного интеллекта» (compound AI system). В своей работе этот сервис на опирается сразу на несколько обученных моделей искусственного интеллекта, в число которых входит GPT-4o компании OpenAI. Другими словами, от недочетов одной конкретной ИИ-модели он избавлен и может брать лучшее от разных.

В теории, Devin можно адресовать самые разные задачи, включая миграцию кода. А с учетом того, что за ним стоят продвинутые нейросети с заслуженно хорошей репутацией, можно ожидать, что Devin легко справится с их выполнением. Но на деле этого не происходит.

Реальные разработчики ПО выявили у Devin множество недочетов. Ранее Cognition AI опубликовала промо-ролик, в котором показано, как ИИ-программист автономно выполняет проекты на платформе фрилансеров Upwork. Разработчик программного обеспечения Карл Браун (Carl Brown) проанализировал этот ролик и полностью развенчал его.

Другой эксперт в программировании и по совместительству YouTube-блогер тоже раскритиковал Devin. По его словам тот содержит критические проблемы безопасности.

Позже три специалиста по обработке данных, связанных с лабораторией исследований и разработок в области искусственного интеллекта Answer.AI, протестировали Devin и обнаружили, что он успешно выполнил только 3 из 20 задач. Свои тесты они проводили в январе 2025 г., то есть спустя почти год с момента официально премьеры Devin.

Пример корректной работы Devin

Тестированием занимались Хамель Хусейн (Hamel Husain), Айзек Флат (Isaac Flath) и Джоно Уитакер (Johno Whitaker). Согласно их отчету, на начальном этапе Devin справлялся очень неплохо – например, он успешно перенес данные из базы данных Notion в «Google Таблицы». ИИ-программисту также удалось создать трекер планет для проверки заявлений об исторических положениях Юпитера и Сатурна.

Однако по мере продолжения испытаний трое исследователей столкнулись с проблемами.

«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или выдавал слишком сложные, непригодные решения, – объясняют исследователи в своем отчете. – Еще более тревожной была тенденция Devin продвигаться вперед с задачами, решить которые на самом деле было невозможно».

В качестве примера они привели случай, когда Devin, когда его попросили развернуть несколько приложений на платформе развертывания инфраструктуры Railway, не понял, что это невозможно, и потратил больше дня, пробуя подходы, которые не работали, и придумывая несуществующие функции.

Неутешительный итог

Из 20 задач, представленных Devin, виртуальный программист завершил удовлетворительно только три – две приведенных выше и задание по созданию бота для заблокированного в России мессенджера Discord на языке программирования Python. Три других задачи дали неопределенные результаты, а 14 проектов оказались откровенно проваленными.

Исследователи заявили, что Devin обеспечил отточенный пользовательский интерфейс, который был впечатляющим, когда сам сервис работал корректно.

«Но в этом-то и проблема – это происходило редко», – подчеркнули они.

«Больше всего беспокоила наша неспособность предсказать, какие задачи будут успешными. Даже задачи, похожие на наши ранние победы, терпели неудачу сложными, отнимающими много времени способами. Автономная природа, которая казалась многообещающей, стала обузой – Devin проводил дни, пытаясь найти невозможные решения, вместо того чтобы распознавать фундаментальные препятствия», – подытожили эксперты.