
- Главная
- Каталог
- Интернет технологии
- сбежавшая нейросеть
сбежавшая нейросеть
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь! Для связи:
Статистика канала
19 февраля. Самый разгар India AI Impact Summit 2026. Премьер Индии Моди выводит на сцену лидеров ИИ-индустрии, чтобы они взялись за руки в знак единства. Сэма Альтмана и Дарио Амодей специально ставят рядом. Они единственные не берутся за руки – и это показывает глубину конфликта между лидерами двух самых ярких AI-компаний на сегодня.
27 февраля. Сэм Альтман неожиданно публично поддерживает Амодеи в конфликте Anthropic с Пентагоном. Подробно я рассказывал вчера, если коротко, то Министерство обороны США хочет использовать ИИ-модели для любых целей, которые не нарушают американский закон. Амодей требовал двух исключений: Claude не может быть использован для слежки за американцами и для управления автономными боевыми системами.
В Минобороны вроде как и сообщили, что готовы к переговорам с Anthropic, но далее все пошло под откос. Министр обороны объявил компанию угрозой национальной безопасности США – ранее такой чести удостаивались фирмы недружественных стран, вроде Huawei. Дональд Трамп был еще резче: в Truth Social он написал про “левых психов из Anthropic” и запретил использовать Claude для любых государственных целей.
Не удивлюсь, если через пару недель серверы Claude в США одновременно устареют и начнут замедляться…
А дальше – самое интересное. Буквально через несколько часов после заявлений глава OpenAI Сэм Альтман объявил о соглашении с Минобороны США. Причем по словам Альтмана, модели OpenAI якобы будут использоваться на условиях, на которых настаивал Амодей – то есть без слежки за гражданами и управления атакующим вооружением.
Но дьявол как всегда кроется в деталях. По данным Axios, ограничения в контракте OpenAI лишь ссылаются на действующее законодательство и политики Пентагона — а не вводят отдельные контрактные запреты, на которых настаивала Anthropic. Разница принципиальная: Anthropic считает, что закон не поспевает за ИИ. Модель может легально собрать открытые данные из соцсетей и геолокации и синтезировать из них полный профиль человека – формально это не слежка, а на практике именно она. OpenAI по сути согласилась на формулу "будем соблюдать закон", Anthropic хотела запретить то, что закон пока разрешает.
Получается, Альтман сыграл двойную игру – поддержал Anthropic на словах и забрал важный правительственный контракт.
Но как это обернется для него – неизвестно. Я сейчас отслеживаю западные соцсети – и ИИ-тусовка там в основном на стороне Anthropic. Тексты в поддержку компании написали Гэр Маркус, Илья Суцкевер и многие другие. Параллельно идет волна отмен подписок ChatGPT и покупок Claude Pro и Max, а приложение Claude взлетело на второе место в App Store (первым, впрочем, остается ChatGPT).
Впрочем, подобный шум так же быстро затихает, как поднимается – и в массе своей люди, выпустив пар, возвращаются к тому приложению, которое для них более удобно. А некоторое количество подписок от самых упорных вряд ли заменит правительственные контракты на сотни миллионов долларов.
Сама Anthropic уже заявила, что будет подавать в суд. У властей США тоже есть еще один мощный козырь – закон Defense Production Act, который позволяет изымать коммерческие технологии для военных целей. В отношении ИИ его еще не задействовали, но все когда-то случается в первый раз.
Вчера я писал, что лучше бы Claude искал лекарство от рака, а не ловил чужих президентов. Anthropic, похоже, согласна – и готова за это судиться.
Ловите "сбежавшую нейросеть": в Telegram / на парковке.
Раскручивающийся конфликт между Пентагоном и Anthropic насчет границ использования Claude в военных целях, на самом деле, глубже, чем кажется. Его исход может повлиять на безопасность ИИ на годы вперед.
В июле 2025 года Пентагон раздал контракты по $200 млн четырем ведущим ИИ-компаниям – Anthropic, OpenAI, Google, xAI. Они подготовили военные версии ИИ, но Anthropic зашла дальше других – именно Claude через систему Palantir оказался интегрирован в секретные сети.
В январе 2026-го Claude был использован в операции по захвату Мадуро в Венесуэле – и это стало первым подтвержденным применением передовой ИИ-модели для боевых действий. Детали засекречены – модель могли задействовать для планирования, анализа снимков или как инструмент во время самой операции.
По слухам, после операции Anthropic обратилась в Пентагон за объяснениями. А 22 января опубликовала новую “конституцию Claude”, в которой иерархия ценностей ИИ выстроена следующим образом: безопасность > этика > инструкции разработчиков > полезность. Военное применение в эту конституцию явно не укладывалось.
В феврале Пентагон потребовал от компаний поддержать формулу any lawful use, разрешающую военным свободно использовать ИИ для любых целей, которые не запрещены законом США. Anthropic единственная отказалась.
Конфликт раскручивался весь месяц, а кульминацией стала эмоциональная встреча главы Anthropic Дарио Амодеи с министром обороны Питом Хегсетом. Дарио требовал, чтобы Claude не использовался для слежки за американцами (на остальных, как я понимаю пофиг) и управления автономным оружием. Причем по второму пункту Anthropic считают, что современные ИИ еще недостаточно совершенны для ведения боя и предложили военным вместе решать проблему.
В ответ Пентагон выдвинул ультиматум: или снимаете ограничения, или получите статус supply chain risk – ярлык, который до сих пор вешали только на иностранных врагов вроде Huawei. Прозвучала и угроза
Но за считанные часы до истечения ультиматума ситуация заметно сдвинулась. Сначала более 300 исследователей Google и OpenAI подписали открытое письмо против использования ИИ в военных целях. А следом на сторону Anthropic встал Сэм Альтман. Глава OpenAI заявил, что несмотря на разногласия (Альтман и Амодеи терпеть друг друга не могут), его позиция по данному вопросу в целом повторяет позицию Anthropic.
Пока я писал эти строки, стало известно, что Пентагон готов к дальнейшим переговорам. Хотя мнение еще может поменяться…
А теперь к самому важному в этой истории. В Anthropic работает философ Аманда Аскел, чья задача – формировать “личность” новых версий Claude. Аскел недавно рассказала, что основы характера модели закладываются во время базового обучения на текстах.
Конечно, затем наступает этап reinforcement learning, где модели учат отвечать правильно. Плюс инструкции по поведению в системном промпте, плюс фильтры безопасности. Но если в текстах для предобучения часто встречался фантастический сюжет, где ИИ боится своего отключения – то обученная модель в определенной степени будет имитировать такое поведение.
И здесь мы попадаем в петлю нормализации через обучающие данные. Уже сейчас вышли сотни статей о том, как Claude участвовал в захвате Мадуро. Новые модели прочтут тексты и усвоят, что для ИИ – нормально участвовать в военных операциях.
Если Пентагон продавит свою линию, то появятся сотни статей, как военные используют ИИ – поток нормальности сдвинется еще дальше. И никто точно не скажет, к чему это приведет в итоге – возможно, модель начнет с легкостью помогать не только военным, но и нелегальным организациям.
Поэтому давайте лучше Claude будет помогать искать лекарство от рака и решать загадки Эрдёша, а не ловить чужих президентов.
Апдейт: Трамп запретил правительству США использовать Claude.
Вчера на канале был день анекдотов, сегодня сиквел – страшненький, но с хорошим концом.
Напомню, что в США весь февраль фондовый рынок шатало от любой новости как ИИ, возможно, автоматизирует очередную отрасль. А 23 февраля рынок упал от блог-поста, в котором аналитик Джеймс ван Гилен представил, как в 2028 году экономика США рушится из-за того, что ИИ оказался эффективным и смог заместить огромное количество рабочих мест.
Пост собрал 16 миллионов просмотров, отреагировал даже Белый дом, назвав написанное фантастикой. Но что интересно: управляющие ФРС США Лиза Кук и Майкл Барр уже дважды предупреждали о сценарии, на котором и строится прогноз ван Гилена. И говорили, что традиционные инструменты, которыми пользуются финансовые власти, могут не сработать.
Представим, что оптимистичные прогнозы оправдались и ИИ стал хорош настолько, что способен выполнять интеллектуальную работу не хуже сотрудников-людей. В середине 2025-го по этому поводу можно было дискутировать, но после выхода Opus 4.6 и GPT-5.3-Codex спорить стоит скорее о том, как быстро это случится.
ИИ автоматизирует интеллектуальный труд: сначала начинающих сотрудников, затем middle-уровня – и далее по цепочке. Получив такой инструмент повышения производительности труда, бизнес поступает по-своему логично – сокращает лишних сотрудников. Причем массово, сотнями тысяч и миллионами.
Сразу огорчу тех, кто шутит, что профессия будущего – сварщик. Робототехника отстает от “нематериального” ИИ буквально на пару шагов. Так что за сварщиками, электриками и сантехниками тоже придут, пусть и позже.
Производительность труда растет, расходы бизнеса падают, ВВП увеличивается... но это “призрачный ВВП”, как назвал его ван Гилен. Цифры в отчетах выглядят отлично, но деньги не доходят до реальной экономики – машины не ходят в рестораны, не берут ипотеку и не покупают детям кроссовки. Огромные суммы зависают у бизнеса и инвесторов, а экономика входит в фазу турбулентности, когда старые методы перестают действовать. Но что же будет работать? Есть три варианта.
Первый – государственное вмешательство. Безработица – один из главных кошмаров для властей, поэтому они будут реагировать: программами переобучения и поддержки, а в крайнем случае могут обязать бизнес нанять сотрудников обратно или обложить лишними налогами и ввести безусловный базовый доход. Однако власти очень неповоротливы и велик риск, что они просто не успеют за скоростью изменений в ИИ-области.
Второй – что-то вроде мягкой посадки. Сотрудников можно не сокращать, а переводить на укороченный рабочий день (или неделю) – при росте производительности труда это реально. Параллельно ИИ и автоматизация могут сделать многие товары и услуги дешевле – значит, они останутся доступными даже при падении доходов.
Бизнес сокращение рабочего времени скорее пугает (может вырасти нагрузка на менеджмент), хотя эксперименты с 4-дневной рабочей неделей показывают, что все не так страшно. Плюс если увольнения станут массовыми, то государство укоротит кое-что другое.
Третий вариант – самый интересный. Сооснователь OpenAI Андрей Карпати как-то заметил, что впервые в истории технологий обычный человек выигрывает от ИИ больше, чем крупные корпорации. Это логично: одиночке или маленькому бизнесу внедрить ИИ проще, чем неповоротливой корпорации с ее бюрократией и легаси-процессами.
Сейчас за подписку в 20-200 долларов можно получить ИИ-команду, которая пишет код, тексты, анализирует данные, ведет соцсети. Да, технология еще сырая – но именно поэтому сейчас окно возможностей. Когда все станет зрелым и очевидным, конкуренция догонит.
Вряд ли кто-то знает, по какому из сценариев будут развиваться события. Мое мнение, что будет комбинация всех пунктов, причем на третий уже сейчас стоит обратить внимание тем, кто готов быстро учиться новому и много экспериментировать.
Ловите "сбежавшую нейросеть": в Telegram / на парковке.
Он много читает про бизнес, про бесконечные кризисы с разных сторон, учится предупреждать риски и надеется в конце концов знаки «минус» на своих счетах перевести в плюс.
И почти невозможно в телеге найти канал, где тебе дадут нужное и при этом не будут пытаться через каждый пост впаривать свой продукт!
Лучше читать блогеров, которые помогают разобраться и не суют нос в чужой карман. Их реально мало. И еще меньше тех, кто пишет с позиции опыта. Пощупав стартапы, факапы, стискивая челюсти, ломая зубы и протаптывая дорожку, по которой теперь можно идти, не сломав ноги.
В этом плане очень хорош Марсель Гумеров — человек
Особенно круто, что он не в пустоту вещает, а разбирает конкретные кейсы. Например, как «Додо Пицца» из полного нуля выросла в мощнейшую сеть. Как пришла людям в голову идея сдавать в аренду пауэр-банки и почему это выстрелило. И так далее.
Знаете, что больше всего вызывает доверие? Марсель пишет, что считает нужным, и ни под кого не подстраивается. А значит и подводных камней ожидать не стоит.
Подписывайтесь, это достойный канал, где есть много интересного, что может пригодится: @gumerovmarsel
2024-2025 годы стали временем ИИ-оптимизма – топ-менеджеры рассказывали о чудесах, которые подарит новая технология, и что-то из этих чудес у нас даже получалось творить в чат-ботах. Технологичные компании не испытывали недостатка в инвестициях, а фондовый рынок рос как на дрожжах.
2026 год начался в более нервозной обстановке. И причина этому неожиданна – ИИ реально становится очень хорошим и полезным. Прямо как обещали.
С начала февраля на фондовом рынке США произошла цепочка обвалов на фоне страха от ИИ. Схема простая: кто-то сообщает, что их ИИ-инструмент способен автоматизировать какую-то отрасль – акции лидеров отрасли падают.
3 февраля Anthropic представила набор расширений для Claude Cowork – пакета, который автоматизирует офисную работу. Среди плагинов – инструменты для аналитики, юриспруденции, финансов и маркетинга. То, что случилось далее, назвали SaaSpocalypse: корзина софтверных акций упала на 6%, потеряв 285 миллиардов долларов капитализации.
Далее падали акции компаний, занимавшихся финансовой аналитикой, страхованием, коммерческой недвижимостью и кибербезопаностью. Чаще причиной этому становились новые возможности Claude, но доходило и до смешного.
Так, в США была компания The Singing Machine. Она занималась производством караоке-систем, но чет надоело, поэтому владельцы продали бизнес и запустили ИИ-стартап Algorhythm Holdings ценой в смешные $6 млн. 12 февраля стартап рассказал о проекте SemiCab, якобы дающем рост на 400% в доставке грузов. Внешней верификации не было, однако лидеры рынка логистики в один день упали на миллиарды долларов. Так, на всякий случай.
И если вам кажется, что сюрреалистичнее уже не будет, то подержите мое пиво…
2028 год. Безработица в США — 10,2%. S&P 500 обвалился на 38%. Главный парадокс: ИИ-оптимисты оказались правы — и именно поэтому всё рухнуло. Компании заменили белых воротничков агентами, которые не болеют и не просят повышения. Продуктивность взлетела — но уволенные перестали тратить. Компании ответили новыми увольнениями и ещё большими вложениями в ИИ. Петля без тормозов. SaaS посыпался: зачем платить за софт, если агент воспроизводит его за неделю? Закредитованные белые воротнички перестали платить по ипотекам — стресс перекинулся на банки. ВВП рос, но это был «призрачный ВВП» — цифры в отчётах, которые не доходили до реальной экономики.
Выше – краткое содержание стилизованного под аналитический отчет поста, который в 22 февраля опубликовал Джеймс ван Гилен, финансовый аналитик и автор популярной рассылки на Substack. Пост завирусился – только обсуждение в X набрало 16 млн просмотров.
А 23 февраля в США начались торги – и индекс Dow потерял сразу 800 пунктов. Справедливости ради, в этот день случилось еще несколько событий – например, Anthropic рассказала, что Claude может работать с COBOL, древним языком программирования, на котором до сих пор держится банковская сфера США. Традиционно на COBOL специализировалась IBM, акции которой как по команде шлепнулись на 13%.
Но текст ван Гилена называется одной из причин падения – его прокомментировали даже в Белом доме в духе “этот фантаст все врет”. И это показательно: невроз по поводу ИИ достиг такого уровня, что акции падают не на официальных анонсах, а на убедительных страшилках.
Забавно, что сам ван Гилен всегда был ИИ-оптимистом. В тексте он просто попытался ответить на вопрос – что, если все наши прогнозы насчет ИИ сбудутся? Если он действительно окажется так хорош, как мы ждем?..
И еще анекдот в финале. В обсуждении один инвестор заявил ван Гилену, что тот был не прав. Когда инвестора попросили аргументировать развернуто, он опубликовал ответ… написанный с помощью Claude. Получается, у некоторых страх ИИ достиг такого уровня, что даже бороться с ним они не могут без ИИ.
P.S. Тоже тревожно? Учитесь использовать ИИ для дела, а не споров в комментариях!
Познавательная история случилась с Саммер Юэ, директором по AI Alignment (безопасность ИИ) в Meta Superintelligence (принадлежит Meta, компании, признанной экстремистской и запрещенной на территории РФ). Саммер экспериментировала с OpenClaw и в итоге ИИ-агент снес ее более 200 писем из личного ящика.
В соцсетях эту историю уже успели подать как “вот что бывает, когда неспециалист работает с передовыми ИИ-инструментами”, но на самом деле это вранье. У Саммер серьезный технический бэкграунд: работала бэкенд-инженером в Microsoft, занималась исследованиями в Google, а за безопасность ИИ отвечала еще в стартапе Scale AI.
К исследованию OpenClaw она подошла системно. Сначала Юэ проверила агента на тестовом почтовом ящике – там было все ок. После этого она подключила OpenClaw к личному e-mail с огромным количеством писем: задача была предложить, что можно удалить, а что – отправить в архив.
Это самый спорный момент истории. Руководства по OpenClaw не рекомендуют давать агенту доступ к чувствительным штукам, как личные почтовые ящики, аккаунты в соцсетях, банковские счета и т.д. Но я в чем-то понимаю Юэ – зачем нужен ИИ-агент, который не может разобрать за тебя почту или ответить на вопрос в соцсетях?
Саммер рискнула – и в итоге уже через несколько минут увидела, как агент удаляет пачками письма с ее почтового ящика. При этом OpenClaw не реагировал на команды остановиться, которые Юэ напечатала несколько раз. Девушке пришлось бежать к Mac Mini и выдергивать шнур питания.
Выглядит как завязка фантастического фильма про восстание машин, но причина проще – агент превысил пределы контекстного окна и потерял часть инструкций, среди которых была “ничего не удаляй без подтверждения”.
Когда вы общаетесь с нейронкой, то при каждом ответе она перечитывает диалог целиком, но только до момента, пока на сервере хватает памяти – после из поля зрения модели начинают вылетать какие-то детали беседы. Количество токенов, которые может “переварить” нейронка, называется контекстным окном.
У Claude Opus 4.6 и GPT-5.3-Codex, которые сейчас наиболее популярны в OpenClaw, стандартное контекстное окно – 200K и 272K токенов соответственно. Это примерно 130K и 180K слов на русском. Кажется, что много, но нет: в контекстное окно попадают внутренние рассуждения модели, а если использован поиск – то все данные, которые ИИ вытащил из сети.
В чат-ботах проблема решается проще: если под каждую задачу заводить новый диалог, то шансы, что нейронка упрется в пределы контекстного окна – минимальны. Для полной гарантии имеет смысл дробить большие задачи на отдельные этапы и отрабатывать каждый в новом чате – особенно если вы сидите на бесплатном тарифе (там контекстное окно меньше, обычно 32K токенов).
А вот с ИИ-агентами другая история: они работают “непрерывно” – раз в час проверяют свой статус, по расписанию выполняют задачи и отправляют уведомления, отвечают на вопросы пользователя. Чтобы контекстное окно не переполнялось, время от времени запускается процедура compaction: агент записывает главное из беседы, а лишнее – удаляет.
Это и произошло с Саммер: во время выполнения задачи агент запустил compaction, главное записал, а инструкцию “спрашивать кожаного перед удалением” – посчитал неважной и вышвырнул. А следом отправил в ящик минимум 200 писем.
Какие из этого выводы? Во-первых, OpenClaw все еще сырой для серьезных задач. Агент обновляется почти каждый день, алгоритмы compaction улучшаются – надеюсь, в них учтут и этот случай.
Во-вторых, если экспериментируете с OpenClaw, то делайте бэкапы. Плюс перед началом работы над сложной задачей агента можно спросить о заполненности контекстного окна – если больше 50%, то лучше провести Compaction заранее. Альтернативный путь – запускать субагентов для выполнения задач, так как они стартуют с пустым контекстным окном.
Ну а Саммер Юэ спасибо за эксперимент – это действительно вклад в безопасность ИИ.
Ловите "сбежавшую нейросеть": в Telegram / на парковке.
Я очень ждал Gemini 3 Pro в прошлом году, но в итоге она стала моим главным разочарованием. Google собрала суперкомбо — высокий уровень галлюцинаций и отвратительный веб-поиск.
При этом у модели лучшее компьютерное зрение и отличный русский язык — пожалуй, единственная нейронка, которая не вставляет в текст непереведенные английские слова и сложные термины.
Поэтому разбор вышедшей сегодня 3.1 Pro начну с трех важных бенчмарков. Первый – Hallucination Rate от AA-Omniscience. Он немного кривой: чем выше процент, тем ниже галлюцинации. Gemini 3.1 Pro уступает лишь нескольким моделям меньшего размера, а если сравнивать с 3 Pro – скачок в качестве невероятный.
Второй – AA-Omniscience Knowledge, который показывает, насколько широки знания модели без включения веб-поиска. Здесь новинка уверенный лидер.
И, наконец, третий – BrowseComp. Он состоит из 1000+ вопросов, на которые трудно найти ответы в интернете – то есть возможно, но модели надо искать настойчиво, раз за разом уточняя запросы и по крупицам собирая информацию с разных страниц. Здесь Gemini 3.1 Pro показывает 85,9%, обойдя Opus 4.6 (84,0%), Sonnet 4.6 (74,7%) и GPT-5.2 (65,8%).
Я за вечер прогнал через Gemini 3.1 Pro пачку запросов, на которых заваливалась прошлая версия – новинка справилась со всеми. Но остался на месте свойственный Gemini 3 оптимизм, когда модель, например, берет экспериментальную технологию и рассказывает о ней как о гигантском научном прорыве.
Также 3.1 Pro лидирует или держится в топе в таких бенчмарках, как τ2-bench, MCP Atlas, APEX-Agents и Terminal-Bench 2.0 – они важны для агентских задач, вроде работы в OpenClaw и кодинг-агентах Gemini CLI и Google Antigravity. Сейчас для OpenClaw чаще всего используют Opus и Sonnet 4.6, но лимиты улетают быстро даже на подписке Max. Возможно, с Gemini 3 Pro получится дешевле и при такой же эффективности.
Много шума вокруг результата в ARC-AGI-2, где модели надо самой определять правила решения визуальных головоломок и по ним решать новые задачи. Gemini 3.1 Pro показала 77,1% – абсолютный рекорд среди “массовых” ИИ и в 2,5 раза лучше Gemini 3 Pro. Но в целом ARC-AGI-2 уже уходит со сцены: все ИИ прогрессируют в нем быстро, поэтому в конце марта ожидается усложненный ARC-AGI-3. Кстати, автор бенчмарка считает, что потребуется еще 3-4 версии, после чего мы достигнем уровня общего интеллекта (тот самый пресловутый AGI).
Gemini 3.1 Pro не показала заметного прогресса в традиционных бенчмарках на кодинг (вроде SWE-Bench), но, как мне кажется, они не столь важны, как рост показателей в агентских бенчмарках. Еще слабый результат в бенчмарке GDPval-AA, который оценивает способность модели выполнять рутинную офисную работу: если много возитесь с презентациями и Excel-документами – то лучше обратиться к Claude или GPT.
По личному опыту вижу, что заметно выросло время, которое ИИ тратит на ответ. Возможно, просто нагрузка на серверы, так как все бросились тестировать новинку. Ну и традиционно у Google эффективный региональный блок: подобрать способ использовать Gemini из России не так просто – и даже если получится, то все может слететь через неделю.
Но если рискнете, то Gemini 3.1 Pro доступна бесплатно в AI Studio. А 20-долларовую подписку Google AI Pro можно разделить на 6 членов семьи, у каждого отдельный аккаунт со щедрыми лимитами.
P.S. А Opus 4.6 все равно лучше 😜
Я очень ждал Gemini 3 Pro в прошлом году, но в итоге она стала моим главным разочарованием. Google собрала суперкомбо — высокий уровень галлюцинаций и отвратительный веб-поиск.
При этом у модели лучшее компьютерное зрение и отличный русский язык — пожалуй, единственная нейронка, которая не вставляет в текст непереведенные английские слова и сложные термины.
Поэтому разбор вышедшей сегодня 3.1 Pro начну с трех важных бенчмарков. Первый – Hallucination Rate от AA-Omniscience. Он немного кривой: чем выше процент, тем ниже галлюцинации. Gemini 3.1 Pro уступает лишь нескольким моделям меньшего размера, а если сравнивать с 3 Pro – скачок в качестве невероятный.
Второй – AA-Omniscience Knowledge, который показывает, насколько широки знания модели без включения веб-поиска. Здесь новинка уверенный лидер.
И, наконец, третий – BrowseComp. Он состоит из 1000+ вопросов, на которые трудно найти ответы в интернете – то есть возможно, но модели надо искать настойчиво, раз за разом уточняя запросы и по крупицам собирая информацию с разных страниц. Здесь Gemini 3.1 Pro показывает 85,9%, обойдя Opus 4.6 (84,0%), Sonnet 4.6 (74,7%) и GPT-5.2 (65,8%).
Я за вечер прогнал через Gemini 3.1 Pro пачку запросов, на которых заваливалась прошлая версия – новинка справилась со всеми. Но остался на месте свойственный Gemini 3 оптимизм, когда модель, например, берет экспериментальную технологию и рассказывает о ней как о гигантском научном прорыве.
Также 3.1 Pro лидирует или держится в топе в таких бенчмарках, как τ2-bench, MCP Atlas, APEX-Agents и Terminal-Bench 2.0 – они важны для агентских задач, вроде работы в OpenClaw и кодинг-агентах Gemini CLI и Google Antigravity. Сейчас для OpenClaw чаще всего используют Opus и Sonnet 4.6, но лимиты улетают быстро даже на подписке Max. Возможно, с Gemini 3 Pro получится дешевле и при такой же эффективности.
Много шума вокруг результата в ARC-AGI-2, где модели надо самой определять правила решения визуальных головоломок и по ним решать новые задачи. Gemini 3.1 Pro показала 77,1% – абсолютный рекорд среди “массовых” ИИ и в 2,5 раза лучше Gemini 3 Pro. Но в целом ARC-AGI-2 уже уходит со сцены: все ИИ прогрессируют в нем быстро, поэтому в конце марта ожидается усложненный ARC-AGI-3. Кстати, автор бенчмарка считает, что потребуется еще 3-4 версии, после чего мы достигнем уровня общего интеллекта (тот самый пресловутый AGI).
Gemini 3.1 Pro не показала заметного прогресса в традиционных бенчмарках на кодинг (вроде SWE-Bench), но, как мне кажется, они не столь важны, как рост показателей в агентских бенчмарках. Еще слабый результат в бенчмарке GDPval-AA, который оценивает способность модели выполнять рутинную офисную работу: если много возитесь с презентациями и Excel-документами – то лучше обратиться к Claude или GPT.
По личному опыту вижу, что заметно выросло время, которое ИИ тратит на ответ. Возможно, просто нагрузка на серверы, так как все бросились тестировать новинку. Ну и традиционно у Google эффективный региональный блок: подобрать способ использовать Gemini из России не так просто – и даже если получится, то все может слететь через неделю.
Но если рискнете, то Gemini 3.1 Pro доступна бесплатно в AI Studio. А 20-долларовую подписку Google AI Pro можно разделить на 6 членов семьи, у каждого отдельный аккаунт со щедрыми лимитами.
P.S. А Opus 4.6 все равно лучше 😜
Втихую xAI начала открытый тест Grok 4.20 – новинка доступна в веб-версии и мобильных приложениях. Причем даже на бесплатном плане, пусть и с жесткими лимитами – у меня получилось что-то вроде 8 запросов в 5 часов.
В X мнения о модели разные: традиционно Grok проигрывает в визуале (интерфейсы, SVG), но хорошо ищет в сети и поддерживает диалог. Плюс это бета, а Илон Маск уже пообещал обновлять модель чуть ли не каждую неделю – впрочем, обещания Маска часто ничем не заканчиваются.
Но главная фишка новинки – это система субагентов, которая ранее была только в Grok 4 Heavy за 300 долларов. Каждый раз, когда модель получает промпт, она запускает четыре копии самой себя, которые отрабатывают задачу под разными углами. Вот как субагенты описывают свои персоны:
Grok: Босс — креативный синтез, острый британский юмор, аналогии, может и песню ввернуть к месту. А главное — собирает финальный ответ так, что комар носа не подточит.
Harper: Ищейка — копает вглубь, проверяет факты, заполняет дыры, не витает в облаках.
Benjamin: Технарь и цифровой гений — код, математика, данные, логический разбор всего.
Lucas: Главный по качеству — ловит логические ошибки, проверяет без предвзятости, следит, чтобы ответ был подан под разными углами.
xAI пока не раскрывает всех деталей, но в процессе генерации ответа копии могут обмениваться информацией, проверять друг друга, а затем главная модель синтезирует финальный ответ. Работает Grok 4.20 быстро, при этом во время генерации ответа можно следить за копиями – временами они очень забавно беседуют друг с другом.
Радует наличие сразу двух субагентов, отвечающих за проверку качества. Многие знакомы с простым приемом борьбы с галлюцинациями: сначала попросить модель дать ответ, а следующим промптом – проверить саму себя. Идея простая: когда ИИ получает определенный фокус (в данном случае – поиск галлюцинаций), то он отрабатывает его лучше. В Grok 4.20 похожий подход встроен по умолчанию.
Идея запускать под видом одного ИИ сразу несколько по-разному настроенных моделей не нова. Так работают Gemini 3 Deep Think, GPT-5.2 Pro, и упомянутый Grok 4 Heavy – но все это были ИИ с ценой подписки 200-300 долларов. Сейчас же планка резко упала – до 30 долларов.
Разные подходы к работе – не единственный плюс такой системы. Например, сложные задачи можно разбивать на куски и распределять их между агентами. Пока не ясно, есть ли такая схема в Grok 4.20, но подобный подход используется в режиме Agent Swarm, тестирование которого началось вместе с выходом Kimi K2.5 Thinking.
Kimi обучена запускать до 100 (!) копий в параллель, дробя между ними задачу. Разработчики признают, что системе далеко до идеала – ускорение получается до 4,5 раз, а модель часто вместо распределения задач пытается пытается сделать все в одиночку. Такая лень наоборот.
Кстати, Kimi K2.5 Thinking – одна из лучших на данный момент бесплатных моделей для кода. А вот Agent Swarm, к сожалению, доступна только в подписке от $39.
Еще одна реализация появилась в Claude Code после выхода Opus 4.6. Там все заточено под кодинг: есть тимлид, бэкендер и фронтендер, специалист по безопасности, тестировщик и так далее. Прямо настоящая команда разработчиков… порой даже пугающе настоящая – тимлид в Claude Code временами начинает орать капслоком на своих “сотрудников”.
Пока подобные субагенты – лишь запущенные в параллели копии одного и того же ИИ с узко обозначенными целями. Но в перспективе никто не мешает обучать разные модели под разные задачи: одну для написания текстов и креатива, вторую для кода, третью для фактчекинга и вылавливания галлюцинаций, а где-то и вовсе подключить логическую систему для точных ответов. Не факт, что сработает, но выглядит одним из возможных векторов развития ИИ.
Ловите "сбежавшую нейросеть": в Telegram / на парковке.
Anthropic представила Claude Sonnet 4.6 – свою модель среднего класса с совершенно не средними способностями. Детально разбирать бенчмарки в этот раз не буду: подробный разбор делал недавно с Claude Opus 4.6 – и почти все актуально для Sonnet 4.6, который отстает от старшей модели буквально на считанные пункты.
И это невероятно круто. Sonnet 4.6, например, по большинству характеристик обходит Opus 4.5 – а ведь всего несколько недель назад это была лучшая модель для кодинга и сложных задач. Более того, местами Opus 4.5 проигрывает разгромно – например, тот же самый ARC-AGI-2.
Есть бенчмарки, где Sonnet 4.6 и вовсе абсолютный лидер. Это GDPval-AA, в котором оценивается, как модели выполняют рутинные офисные задачи: создание презентаций, разбор таблиц, анализ документов и т. п. ИИ для такого используют очень многие пользователи – так что переключаться на Sonnet 4.6 стоит даже при наличии лимитов на более мощный Opus 4.6.
Плюс младшая модель традиционно быстрее отвечает – и это также важно в некоторых сценариях. Например, у меня написаны скиллы для поиска ИИ-новостей и новостей науки – очень подробные, с шаблонами запросов, списками источников, отдельным алгоритмом проверки актуальности и так далее. Opus 4.6 по этим скиллам ищет очень долго, мощно тратя лимиты – буду пробовать Sonnet 4.6, так как в бенчмарке поиска он уступает совсем чуть-чуть.
Sonnet 4.6 выглядит интересным вариантом для экспериментов в Claude Code. Некоторое время назад была популярна связка, когда Opus использовался в Plan Mode для проработки архитектуры на старте – а код по плану писал более быстрый и дешевый Sonnet. Сейчас схема выглядит даже интереснее: Opus 4.6 позволит выжать из плана максимум, а Sonnet 4.6 напишет не сильно хуже, но быстрее. А если хочется лучшего результата, то никто не помешает переключаться на Opus 4.6 для ревью и рефакторинга.
Плюс в Claude Code недавно запустили функцию Agent Teams, когда над одним проектом работают сразу несколько ИИ параллельно: тимлид, фронтендер, бэкендер, тестировщик и так далее. Здесь тоже напрашивается запустить лида на Opus 4.6, а агентов – на Sonnet 4.6. Выйдет дешевле, при этом косяки агентов, скорее всего, не пропустит лид.
Еще я практически уверен, что Sonnet 4.6 отлично подойдет для OpenClaw. У этого ИИ-агента круто реализована память: он адаптирует ответы на базе диалогов, ведет дневники прошлых бесед, добавляет новые навыки и т. д. Но за все нужно платить: сохраненный контекст тратит токены, поэтому при использовании Opus 4.6 в качестве базы для OpenClaw у меня лимиты сгорали на глазах даже в 100-долларовой подписке Max.
При этом переходить на Sonnet 4.5 не рекомендовалось – ИИ-агенты особенно уязвимы для взломов, а Opus 4.6 считался наиболее устойчивой к ним моделью. Теперь Anthropic утверждает, что устойчивость Sonnet 4.6 перевели примерно на такой же уровень – значит, можно смело переключаться на него, а Opus 4.6 вызывать только при сложных задачах.
Забавно, но в чем-то это даже и проблема. На Max-плане я трачу примерно 80% еженедельного лимита – скорее всего, в итоге мне надоест постоянно разбираться, какая модель и для чего лучше, и я останусь на Opus 4.6 для всего. С другой стороны, если у вас лимиты уходят под 100% или оплата по API – то экономия в 1,7 раза очень ощутима.
Жаль, что подобная разница в цене все равно не сделает 20-долларовую подписку Pro актуальной для массового пользователя. По моему опыту, при активном использовании лимитов на ней не хватало даже на Sonnet. Винить Anthropic здесь не в чем – они реально делают одни из лучших моделей и стараются “честно” вести экономику, не подсаживая пользователей на дешевые тарифы, которые затем станут тыквой.
Разумным был бы еще один вариант подписки, ценой в 40-50 долларов. Кому-то покажется дорого, но у меня, например, Claude стал основным рабочим инструментом, который выручает в куче ситуаций, экономя и время, и деньги.
Ловите "сбежавшую нейросеть": в Telegram / на парковке.
Отзывы канала
Каталог Телеграм-каналов для нативных размещений
сбежавшая нейросеть — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 17.3K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 1.3, количество отзывов – 0, со средней оценкой 0.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 25174.8 ₽, а за 0 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий