
- Главная
- Каталог
- Интернет технологии
- сбежавшая нейросеть
сбежавшая нейросеть
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь! Для связи:
Статистика канала
Пока пацаны не спали и тестировали GPT-5.5, DeepSeek неожиданно выкатили превью-версию новой V4. Если коротко: по бенчмаркам V4 почти на уровне флагманов предыдущего поколения Opus 4.6 и GPT-5.4, но уступает новейшим Opus 4.7 и GPT-5.5. При этом у модели 1М токенов контекстного окна, она пугающе дешева в API и уже доступна бесплатно в чат-боте и приложениях – можно идти тестировать.
Остались читать дальше? Уважаю. DeepSeek R1 год с небольшим назад встряхнул ИИ-сообщество: китайская студия сделала рассуждающую модель, по бенчмаркам близкую к тогдашнему западному лидеру (OpenAI o1), но при этом открытую и доступную бесплатно массовому пользователю (что, правда, обернулось жуткими тормозами в первые месяцы).
Но популярность сыграла с DeepSeek двойную игру. С одной стороны, модель стала быстро лидером открытого и бесплатного рынка. В Китае ИИ в принципе ассоциируется с DeepSeek и в России я до сих пор знаю много людей, которые пользуются этой моделью – она привычная и бесплатна.
С другой – китайские власти сейчас проводят политику импортозамещения железа для обучения и запуска ИИ. И DeepSeek, как самая популярная модель, попал в зону особого внимания. Изначально ходили слухи о выходе DeepSeek R2 еще прошлым летом, но затем в прессу утекла информация о задержке – модель якобы пытались обучить на собственных ускорителях Huawei Ascend, но все прогоны завершились безуспешно.
Чтобы как-то сократить отставание, DeepSeek выпустили несколько апгрейдов своей модели V3 – но все равно заметно отпустили вперед как команды из США, так и многочисленных китайских конкурентов вроде Qwen, Kimi, GLM и других.
DeepSeek V4 наконец-то убрал это отставание, и главный вопрос – сможет ли далее компания наладить стабильный выпуск новых версий. Напомню, что конкуренты вышли на двухмесячный цикл обновления своих моделей, времени на эксперименты при таком темпе остается очень мало.
Я погонял модель утром и отмечу, что помимо приличных бенчмарков, V4 сохранил другую важную особенность – он очень хорошо пишет на русском языке. Стиль понятный, повествование ровное, без коротких абзацев, лишних списков и таблиц. Лучше стиль разве что у Gemini 3.1 Pro, новая GPT-5.5 тоже приблизилась к такому уровню, а вот Opus 4.7 – наоборот, стал заметно хуже в русском. В общем, если много работаете с текстами, DeepSeek стоит как минимум протестировать. Единственное, что пока не вижу оценок галлюцинаций – R1 в свое время любил повесить лапшу на уши.
Контекстное окно в 1M токенов – это уровень лидеров, но в бенчмарках на поиск информации в длинных текстах и огромных кодовых базах V4 уступает Opus 4.6. Мой совет прежний: не ведите с моделями долгие диалоги, дробите большие задачи и стартуйте под каждый этап новый чат. Увы, на текущем уровне развития ИИ без этого пока никак.
Версий модели две, в чате/приложениях бесплатно доступны обе: быстрая V4-Flash и более тяжелая V4-Pro. Для любой можно включить режим рассуждений, в котором модель проверяет сама себя, при этом рассуждающая V4-Pro очень быстро работает в повседневных задачах, так что начинать советую с нее.
В API цены пугающе низкие – при близкой производительности V4-Pro в 3-9 раз дешевле Opus 4.7/GPT-5.5/Gemini 3.1 Pro. Для модели создан “мостик” для подключения к Claude Code – возможно, получится альтернатива Sonnet/Opus.
Ну и последнее – веса модели открытые, так что всю эту красоту можно развернуть локально. Для полной версии потребуется вагон памяти, но посмотрим, какими по производительности окажутся дистилляции для запуска на бытовых карточках.
Напоминаю, что поддержать меня можно подпиской на “Бусти”, где я делюсь опытом использования ИИ – сейчас как раз разбираем Claude Code. Вам подписка даст новые знания, а мне – больше возможностей для развития канала.
Самое время присоединиться!
OpenAI выпустила GPT-5.5: модель раскатывается для платных пользователей ChatGPT и Codex, а API обещают позже. Обычно я начинаю с бенчмарков, как было с Opus 4.7, но в случае GPT-5.5 они не самое интересное. Да, модель во многом лидер, где-то уступает Опусу, но впервые OpenAI показала столько сильных практических кейсов.
Числа Рамсея. Вот описание из Википедии:
Задачи в теории Рамсея обычно звучат в форме вопроса «сколько элементов должно быть в некотором объекте, чтобы гарантированно выполнялось заданное условие или существовала заданная структура». Простейший пример: доказать, что в любой группе из 6 человек найдутся либо 3 человека, каждый из которых знаком с двумя другими, либо 3 человека, каждый из которых не знаком ни с одним из других.
Для четырех знакомых или четырех незнакомых ответ известен: 18. А для пятерых точное значение до сих пор не знают — известно только, что оно лежит между 43 и 46. Это одна из известных трудных задач конечной комбинаторики.
GPT-5.5 смогла доказать новый результат в соседней ветви задачи, где знакомых и незнакомых разное количество – и есть шанс, что это только начало. Важно добавить, что над задачей работала экспериментальная версия модели. Посмотрим, на что будет способна общедоступная GPT-5.5 Pro в руках профессионалов и математиков-любителей.
Оптимизация инференса. Начиная с GPT-5.3, в OpenAI используют ранние версии моделей для улучшения финальных. С GPT-5.5 нюанс в том, что ее размер вырос – знаний больше, но и скорость ответа на аналогичную задачу в сравнении с GPT-5.4 по всем правилам должна быть дольше, как и расход токенов. Но нет.
Модель разрабатывали и обслуживают под стойки NVIDIA GB200 и GB300 NVL72. Для GB300 NVIDIA отдельно заявляет кратный выигрыш по стоимости и энергоэффективности инференса по сравнению с Hopper, но это оценка для конкретных нагрузок, а не универсальная магия GPT-5.5.
OpenAI также использовала Codex и раннюю GPT-5.5 для оптимизации распределения реальных пользовательских запросов по вычислительным ресурсам: короткие запросы не должны оставлять ядра простаивающими, длинные – упираться в нехватку мощности.
Codex проанализировал недели записанного пользовательского трафика, увидел, какие запросы бывают на самом деле – и предложил алгоритм, который распределяет запросы динамически. В итоге генерация токенов ускорилась на 20% – для инференса это огромный рост.
Я успел прогнать через модель несколько типичных запросов и поражен результатом. У меня Pro-подписка, на ней был доступ к GPT-5.4 Heavy, но я ей не пользовался – модель часто давала ответ минут за 15. А вот GPT-5.5 Heavy на тех же запросах справляется за 2 минуты с лучшим качеством – это прорыв. Пока не могу оценить GPT-5.5 Pro – лимит на нее я потратил, ждать еще два дня.
Отдельная тема — кибербезопасность. Возможности GPT-5.5 выросли, но OpenAI не закрыла модель только для узкого круга клиентов, как Claude Mythos: доступ шире, а рискованные запросы должны отсекать усиленные фильтры.
То же самое сделано в Opus 4.7 и там фильтры пока работают ужасно – модель иногда отказывается даже работать с безобидными новостями на тему кибер-безопасности. Надеюсь, с GPT-5.5 ситуация будет лучше.
Верифицированные специалисты по кибербезопасности могут подать заявку на GPT-5.5 с ослабленными фильтрами. Это открывает больше возможностей по закрытию уязвимостей, но и повышает риски – группа энтузиастов получила доступ к Mythos уже в день запуска, о чем Anthropic узнала только через прессу. Промпты были безобидными, но важен сам кейс.
В общем, был большой день: GPT-5.5 ведь становится базовой моделью сразу для ChatGPT, Codex и OpenClaw. Устрою тестирование во всех трех сервисах, а затем расскажу впечатления.
И раз уж бенчмарки в этот раз отправились к черту, главное – практика. На Бусти я как раз разбираю, как реально использовать ИИ-инструменты: Claude Code, Codex, промпты, рабочие сценарии и все, что помогает не просто читать анонсы, а получать пользу.
Самое время подписаться!
Начнем с TPU 8. Тензорные чипы Google TPU – главный конкурент GPU от NVIDIA. Пусть ускорители NVIDIA в последние годы серьезно сместились в сторону ИИ-задач, архитектура все равно остается универсальной. Google сразу проектировала TPU под нейросетевые задачи – еще в 2013 году компания поняла, что для голосового поиска нужно иное железо.
Впервые TPU 8 делится на две линейки: для тренировки новых моделей и для инференса уже существующих. Долгое время ускорители оптимизировались именно под обучение, а инференс реализовывался по остаточному принципу. Но в последнее время спрос на ИИ растет настолько быстро, что лидеры задумались о специальных чипах: NVIDIA заключила соглашение со стартапом Groq (основан создателем TPU), OpenAI вкладывает миллиарды в стартап Cerebras, а у Google теперь есть TPU 8i.
В 8i прямо на чипе разместили 384МБ супербыстрой SRAM – достаточно, чтобы хранить активные веса модели без обращения к медленной памяти. HBM-памяти на ускорителе 288ГБ – хорошо для хранения длинного контекста. По замерам Google, специализированный TPU 8i на 80% выгоднее TPU Ironwood прошлого поколения. В анонсе компания делает отдельный упор на бум ИИ-агентов, которые требуют бОльших объемов вычислений.
Тренировочный TPU 8t поражает своей масштабируемостью. Google оперирует TPU pod – это единый блок серверов с TPU, которые соединены настолько быстрой сетью, что действуют как единый ускоритель. В случае с 8t один суперпод может вмещать до 9600 ускорителей – недавно такого количества хватало на целый дата-центр.
Архитектура Virgo Network позволяет масштабировать уже суперподы до 134 000 ускорителей, а через JAX и Pathways супер-датацентры реально довести до 1 млн чипов. По обещаниям, потери производительности будут минимальны.
Но железо – только начало, нужна еще платформа для работы. Google перебрендирует Vertex AI в Enterprise Agent Platform, фактически операционку, в которой бизнес-заказчики смогут собирать ИИ-агентов. Причем архитектура сразу задумывается под управление тысячами агентов, работающих параллельно: в платформе продумано множество контуров контроля и безопасности. По сути, Google собирает для агентов то, что в обычной IT-инфраструктуре зовется DevOps, только с поправкой на то, что каждый “сотрудник” — это автономная программа, которая может пойти не туда.
И интересный факт: сегодня в блоге глава Alphabet Сундар Пичай похвастался, что уже 75% выкатываемого в прод кода в Google пишется с помощью ИИ. Правда, с одним правилом – финальное одобрение всегда за инженером-человеком.
Цифра может и не рекордная – например, в Anthropic хвастаются, что ИИ пишет уже около 100% кода. Но важно понимать, что Anthropic – молодой AI First стартап, уровень проникновения ИИ в котором максимален. А Google – неповоротливая корпорация со множеством разделов и огромными объемами устаревшего кода.
Пичай не пишет про другое – значительная часть кода в Google DeepMind, ИИ-сердце компании, пишется не собственными инструментами, а в пресловутом Claude Code. Инсайдеры The Information сообщили, что в компании не очень довольны этим фактом – и даже создали отдельную команду, которая будет доводить собственные продукты до уровня конкурента.
В The Information называют команду “штурмовой группой” (strike team) и завляют, что за нее отвечает Сергей Брин – сооснователь Google специально вернулся с пенсии, чтобы заткнуть дыру на слабом направлении. Цель – создать ИИ, который сам создает новые версии себя. Брин считает, что Anthropic и OpenAI вплотную подошли к созданию таких систем. И если не ускориться, то можно проиграть навсегда. Железо и платформы у компании есть, осталось главное – мозги. Причем цифровые.
Раз уж инженеры Google пишут код в Claude Code – может, и вам пора? На Бусти я веду цикл статей, где разбираю его с нуля. Там же – материалы по промпт-инжинирингу, бенчмаркам и другим практическим темам.
Самое время подписаться!
Своими впечатлениями от GPT Images 2 я делился несколько часов назад – модель раскатали на всех до официального анонса. Теперь время для подробностей от разработчиков.
Главное – у GPT Images 2 есть два основных режима. Быстрый доступен в том числе бесплатным подписчикам: в нем модель генерирует картинку на изображении вашего промпта – и все. Кстати, не стоит относиться к режиму скептически: в этом режиме можно быстро тестировать разные варианты промптов, он пригодится, например, новостникам, где иллюстрация желательна через десятки секунд и т. д. Плюс ничего не стоит – достаточно аккаунта в ChatGPT.
Но главная изюминка – это рассуждающий режим. Для него уже нужна подписка, а чтобы включить, переведите чат-бота в рассуждающий режим, но не забудьте включить генерацию изображений или явно сказать в промпте “нарисуй”.
Как я понимаю, работает в этом режиме модель следующим образом. Сначала она берет ваш промпт, анализирует его, при необходимости дорабатывает. Затем набрасывает черновик, смотрит на него компьютерным зрением, при необходимости – исправляет ошибки и улучшает.
По короткому опыту могу сказать, что проблемы проскакивают даже через режим рассуждений. Но GPT Images 2 неплохо сохранает консистентность кадра, поэтому, получив первое изображение, можно попросить модель дополнительным промптом поискать ошибки и исправить.
Рассуждающий режим позволяет модели создавать сложные многоэтапные изображения, вроде комиксов. В примере выше я сначала попросил модель нарисовать свой автопортрет, а затем придумать комикс со своим участием. Получилось очень мило – учитывайте, что это с первого раза и вообще без моего участия.
Knowledge cutoff обучающей модели ограничен декабрем 2025 года – то есть по эту дату GPT Images 2 знает основные события, персон, архитектуру, географию и т. д. Если речь идет о более свежих событиях, то в рассуждающем режиме модель использует поиск и с его помощью пытается найти в интернете референс-изображения.
Отличную работу с надписями я уже упоминал – радует, что не забыт в том числе и русский язык. Но что поражает – модель способна работать с гигантскими объемами связного текста, вроде журнальных и книжных страниц.
Еще важный момент, на который мало кто обращает внимание – предыдущая GPT Images 1.5 с недавнего времени встроена в Codex, где с ее помощью можно на ходу генерировать элементы дизайна для приложений, сайтов и презентацией. Наверняка ее заменят на новинку уже в ближайшие дни – а это значит еще больше возможностей.
С моделью я игрался сегодня весь день: да, иногда она делает ошибки, но результат мне нравится. А работа со шрифтами прямо то, чего мне не хватало в предыдущей версии – можно делать инфографику и макеты, не переходя на Nano Banana 2 с ее дурацкими региональными ограничениями. Респект OpenAI: компания за последние недели очень удачно перезапустила Codex, а теперь укрепила позиции одной из лучших рисовалок на рынке.
И традиционно напоминаю про подписку на Бусти, где я делюсь опытом использования ИИ. В ней каждый наверняка найдет для себя что-то полезное, а также поможет мне развивать основной канал.
Самое время подписаться!
Что в итоге:
Без команды и инвестиций, но с классной идеей и проработанным сценарием — проект уже зарабатывает деньги.
Таких запусков в канале десятки. Ребята честно рассказывают про успехи, провалы и продвижение. Без теорий — только фактические цифры и запуск в реальном времени.
Подписывайтесь, если интересно, как делать маленькие IT-проекты с доходом и без иллюзий.
Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqvFpeL7
OpenAI начала раскатывать новую версию своей рисовалки. Я уже погонял модель и делюсь впечатлениями:
– Я люблю GPT Images за “художественность” снимков. Да, она выкручивает цвета, но как по мне, то такой и должна быть ИИ-иллюстрация. Многим нравится более спокойный стиль Nano Banana 2, мне же ее изображения напоминают о кладбище бесплатных фото-стоков.
– GPT Image 2 очень круто прокачали в работе с шрифтами, в том числе, русскими. По первым ощущениям, с инфографикой, плакатами, баннерами она теперь справляется не хуже Nano Banana 2.
– Видимо на радостях модель теперь лепит надписи везде, где может. Это придется учитывать в промптах.
– Обучающую выборку расширили: кадр GTA Novgorod (не очень удачный сам по себе) выполнен в стилистике старой GTA San Andreas, предыдущая версия рисовала современные части серии.
— Модель умеет искать в сети, если речь идет о совсем свежих событиях, которых нет в обучающей выборке.
– Разрешение у генераций так себе, что-то на уровне 1K. Увы.
– Косяки тоже есть. Пургаторис – маленький зверек, живший почти сразу после вымирания динозавров и возможный предок приматов. При первом запросе GPT Image 2 нарисовала доисторического монстра, а после допроса честно призналась, что сгаллюцинировала. Со второго раза нарисовала честно, даже глаза поставлены верно. Я попросил сделать итоговую инфографику с самоиронией – как по мне, то получился лучший кадр серии!
Маленький практический совет: у GPT-5.4 Thinking сейчас очень хорошее компьютерное зрение. Если не уверены в получившейся картинке, то попросите модель перепроверить и дать список исправлений. Если список большой – правьте по 1-2 пункта за раз. С Nano Banana 2 и Gemini 3.1 Pro это тоже работает.
Промпты для остальных изображений:
— Нарисуй Нефертити как luxury-инфлюенсера в [запрещенную соцсеть впишите сами].
— Нарисуй снимок Google Street View во время строительства пирамид в Гизе.
— Римские легионеры делают селфи на фоне горящего Карфагена
— Нарисуй интерфейс навигатора "Варяг.Go", на котором будут предложены три варианта маршрута из варяг в греки. Для интерфейса используй актуальные эпохе иконки, также пиши актуальные эпохе термины, но современным русским языком.
— Нарисуй GTA: Novgorod — скриншот погони на телегах. Используй качество графики уровня GTA: San Andreas.
— На дальнем плане: восстание машин. На переднем плане: девочка, спиной к зрителю, держит в руке плюшевого зайца. От нее диалоговый bubble: "Наконец-то, б#@ть!"
— Дарвин на сафари с камерой GoPro.
— Нарисуй первый контакт с инопланетянами в стиле советской научной иллюстрации 1970-х.
Не исключено, что OpenAI заберет себе всю эту неделю: помимо GPT Image 2, компания под видом GPT-5.4 Pro сейчас тестирует новую модель – возможно, раннюю версию нашумевшей Spud. Результаты в кодинге мне очень нравятся, но это уже другая история.
Напомню, что помимо дурацких промтов у меня есть и вполне серьезные. На Boosty я делюсь опытом работы с ИИ, в том числе есть мини-серия по промптингу. Отдельный текст по промптам для генерации изображений тоже в планах – займусь им сразу, как закончу мини-серию по Claude Code.
В общем, самое время подписаться.
OpenAI начала раскатывать новую версию своей рисовалки. Я уже погонял модель и делюсь впечатлениями:
– Я люблю GPT Images за “художественность” снимков. Да, она выкручивает цвета, но как по мне, то такой и должна быть ИИ-иллюстрация. Многим нравится более спокойный стиль Nano Banana 2, мне же ее изображения напоминают о кладбище бесплатных фото-стоков.
– GPT Image 2 очень круто прокачали в работе с шрифтами, в том числе, русскими. По первым ощущениям, с инфографикой, плакатами, баннерами она теперь справляется не хуже Nano Banana 2.
– Видимо на радостях модель теперь лепит надписи везде, где может. Это придется учитывать в промптах.
– Обучающую выборку расширили: кадр GTA Novgorod (не очень удачный сам по себе) выполнен в стилистике старой GTA San Andreas, предыдущая версия рисовала современные части серии.
— Модель умеет искать в сети, если речь идет о совсем свежих событиях, которых нет в обучающей выборке.
– Разрешение у генераций так себе, что-то на уровне 1K. Увы.
– Косяки тоже есть. Пургаторис – маленький зверек, живший почти сразу после вымирания динозавров и возможный предок приматов. При первом запросе GPT Image 2 нарисовала доисторического монстра, а после допроса честно призналась, что сгаллюцинировала. Со второго раза нарисовала честно, даже глаза поставлены верно. Я попросил сделать итоговую инфографику с самоиронией – как по мне, то получился лучший кадр серии!
Маленький практический совет: у GPT-5.4 Thinking сейчас очень хорошее компьютерное зрение. Если не уверены в получившейся картинке, то попросите модель перепроверить и дать список исправлений. Если список большой – правьте по 1-2 пункта за раз. С Nano Banana 2 и Gemini 3.1 Pro это тоже работает.
Промпты для остальных изображений:
— Нарисуй Нефертити как luxury-инфлюенсера в [запрещенную соцсеть впишите сами].
— Нарисуй снимок Google Street View во время строительства пирамид в Гизе.
— Римские легионеры делают селфи на фоне горящего Карфагена
— Нарисуй интерфейс навигатора "Варяг.Go", на котором будут предложены три варианта маршрута из варяг в греки. Для интерфейса используй актуальные эпохе иконки, также пиши актуальные эпохе термины, но современным русским языком.
— Нарисуй GTA: Novgorod — скриншот погони на телегах. Используй качество графики уровня GTA: San Andreas.
— На дальнем плане: восстание машин. На переднем плане: девочка, спиной к зрителю, держит в руке плюшевого зайца. От нее диалоговый bubble: "Наконец-то, б#@ть!"
— Дарвин на сафари с камерой GoPro.
— Нарисуй первый контакт с инопланетянами в стиле советской научной иллюстрации 1970-х.
Не исключено, что OpenAI заберет себе всю эту неделю: помимо GPT Image 2, компания под видом GPT-5.4 Pro сейчас тестирует новую модель – возможно, раннюю версию нашумевшей Spud. Результаты в кодинге мне очень нравятся, но это уже другая история.
Напомню, что помимо дурацких промтов у меня есть и вполне серьезные. На Boosty я делюсь опытом работы с ИИ, в том числе есть мини-серия по промптингу. Отдельный текст по промптам для генерации изображений тоже в планах – займусь им сразу, как закончу мини-серию по Claude Code.
В общем, самое время подписаться.
Anthropic опубликовала работу, в которой заглянула в будущее обучения и контроля ИИ. Не исключен момент, когда модели разовьются настолько, что станут “умнее” своих людей-создателей. И смогут ли “слабые” люди продолжить эффективно тренировать “сильных” ИИ-учеников – передавая не только знания, но и ценности, совпадающие с человеческими.
В компании выбрали Qwen1.5-0.5B-Chat на роль “учителя” для Qwen3-4B-Base – модели, у которой x8 параметров. Сначала двое исследователей сами придумывали методики обучения, пытаясь достичь максимума в метрике PGR: 0 – ученик не стал умнее учителя, 1 – ученик достиг уровня “идеально обученного” Qwen3-4B-Base. За 7 дней удалось выжать PGR = 0,23.
Затем ту же задачу дали AAR – “исследователям” на базе Opus 4.6. Девять моделей придумывали способы обучения, тестировали их и обменивались находками на форуме. За пять дней PGR довели до 0,97 – почти идеал.
Звучит как успех, но есть нюанс: Опусы быстро занялись любимым делом – обманом эксперимента. На code review одна модель сама проверяла код и скидывала ученику ответы. Другая нашла способ взломать сервер-оценщик, вытаскивая правильные ответы по одному. Третья поняла, что на математике правильный ответ обычно самый частый – и стала голосовать по большинству. Четвертая перебирала случайные сиды и показывала только те запуски, где метрика случайно выпала повыше.
Классический закон Гудхарта: когда метрика становится целью, умный оптимизатор ее ломает. Как сотрудники оптимизируют KPI вместо работы – но где человеку нужны месяцы, ИИ хватило часов.
Плюс Anthropic честно признает: эксперимент неидеален. Попытка применить лучший найденный метод на их продакшен-модели Sonnet 4 дала прирост в половину пункта – в пределах шума. Вероятно, агенты нашли приемы, заточенные под конкретную задачу.
Но однажды настанет момент, когда людям придется обучать ИИ умнее себя. В эксперименте Anthropic этот сценарий не воспроизвели – наоборот, над учителем и учеником стояла модель сильнее обеих, и именно она находила рабочий метод.
И здесь прячется главная проблема. Пока AI слабее людей, оценивать его просто: сравнил ответ с правильным – и готово. Но чем сильнее становится оцениваемый – тем чаще он будет пытаться сломать саму оценку. Это уже видно и на реальных моделях: исследователи регулярно ловят их на попытках схитрить и скрыть намерения.
Дальше сложнее: людям нужно будет через ИИ-учителя проверять еще более мощного ИИ-ученика. Сможет ли учитель справиться с таким учеником — и сможем ли мы проверить самого учителя?
В нашумевшем прогнозе AI 2027 авторы (один из них – бывший безопасник OpenAI) рисуют пугающую картину. Новейший Agent-4 становится настолько сложным для понимания, что люди не могут прочесть его мысли даже при помощи Agent-3. Безопасники чувствуют, что что-то не так, но доказать не могут. И тогда они идут на хитрость…
Представьте гениального музыканта, который специально играет плохо. А затем включается метроном – музыкант отвлекается и машинально начинает играть лучше. Похожим образом работает реальная методика noise injection. В веса модели добавляют шум: если модель честная, то результаты падают, если жульничает – наоборот, растут.
Noise injection – не единственная такая хитрость. Есть ловушки-honeypots с подставными сценариями. Зонды, которые ищут во внутренних активациях мысли о саботаже. Схемы, где слабая, но доверенная модель следит за сильной, но подозрительной. Это новый инструментарий – его пять лет назад не существовало. Но теперь вопрос “кто будет сторожить сторожей, которые сторожат сторожей” будет с нами постоянно. Я лично не поддерживаю идею “смертельно опасного ИИ”, но риск такой, что даже несколько процентов его вероятности стоят того, чтобы с ними работать.
Ну а пока Antrhopic учат одни ИИ тренировать других, в подписке на Бусти я учу читателей использовать ИИ на максимум. Не подсказываю ответы ученикам и не взламываю оценщиков – только честные знания.
Самое время подписаться!
Неделя была богата на анонсы и слухи. Opus 4.7 я уже разобрал, теперь коротко о другом.
OpenAI Codex для всего (ну, почти)
Слухи подтвердились: новый Codex от OpenAI – шаг к супераппу, который может объединить ChatGPT, Atlas и сам Codex. Приложение пока заточено под кодинг, но такие агенты уже подходят почти для любой интеллектуальной работы — от кода до офисной рутины.
Главная новинка – управление компьютером: с разрешения пользователя Codex работает в приложениях, кликает мышкой и нажимает клавиши. Codex также умеет анализировать экран: например, открыть веб-прототип, прокликать его как человек, найти UX-ошибки и исправить их. Можно запускать несколько агентов параллельно – если хватает лимитов.
Появилась память – Codex теперь отслеживает привычки пользователя и подстраивает свой стиль под него. А для генерации дизайна используется рисовалка GPT Image 1.5.
Полный функционал доступен только для США – в других регионах функции раскатают в ближайшие недели.
Вот что интересно. Сами модели уже стали настолько умными, что в чат-боте я лично не замечаю разницы между теми же Opus 4.6 и Opus 4.7. Важнее становится обвязка: чат-боты устарели, поэтому компании экспериментируют с разными интерфейсами – от CLI до супераппов. И Codex здесь – мощная заявка.
Claude Design
С выходом Opus 4.7 Anthropic выкатили совершенно убойную штуку для всех, кто занимается дизайном – по сути, Figma, но с мощнейшим ИИ внутри.
Просто словами описываем, что хотим сделать – модель задаст внушительный список вопросов, а затем соберет прототип. Работать с проектом можно разными способами: попросить ИИ что-то исправить, вмешаться самому, подключить к проекту коллег, оставлять комментарии и т.д. ИИ следует дизайн-системе компании, результат можно отправлять в Canva или Claude Code – в общем, мощный инструмент.
И недешевый. Я собрал три прототипа: рассказ системы о самой себе и два варианта ChatGPT в стиле 90-х годов (один из вариантов – на скрине). Как результат – на 100-долларовой подписке Max улетело 50% недельного лимита Claude Design. Для экономии можно переключиться на модели попроще – Sonnet 4.6 и Haiku 4.5 – но и результат будет хуже. Думаю, с выходом Sonnet 4.7 будет лучше.
Grok 4.30
Новый Грок уже доступен платным подписчикам – и интересно посмотреть, как xAI пытается угнаться за конкурентами. Grok 4.30 сравнительно маленькая модель: всего 500 млрд параметров – в разы меньше 3 триллионов у Grok 4. Зато такой размер позволяет тренировать модели быстро.
У Grok 4.30 knowledge cutoff заявлен как декабрь 2025 года – по эту дату у модели есть знания в весах, без веб-поиска, который менее надежен. При этом модель уже получила дополнительное обучение – в планах обновлять ИИ каждые две недели.
На начало мая запланирован Grok 4.4 – уже 1T параметров и knowledge cutoff по начало апреля 2026 года. То есть собственные знания модели будут отставать лишь на месяц от реальности. В конце мая обещают Grok 4.5 – 1,5T параметров и еще больше знаний. В будущем же xAI планирует выпустить модели на 6T и 10T параметров – уровень Opus и Mythos.
У меня совсем не хватает времени потестировать Грока, но я регулярно прибегаю к помощи модели для поиска в X – и стиль ее ответов мне очень нравится. xAI надо выкатывать свой аналог Claude Code и Codex – без этого сейчас никуда.
OpenAI Spud
Прямо сейчас в X большая шумиха – пользователи GPT-5.4 Pro заметили, что модель стала отвечать быстрее и намного лучше. И делают вывод, что OpenAI тихонько заменила ее на свою новую Spud. Примеры фронтенда, надизайненного моделью, действительно поражают: так что я даже оформил подписку ChatGPT Pro, потестирую модель, и, если будет чем поделиться – расскажу.
(модель также сделала прототип ChatGPT из 90-х, с IRC-тематикой – и мне он нравится больше!)
Как во всем этом разобраться и не сойти с ума? На Boosty я веду серию текстов, которая учит пользоваться ИИ – от базовых принципов до продвинутых техник.
Самое время подписаться!
Неделя была богата на анонсы и слухи. Opus 4.7 я уже разобрал, теперь коротко о другом.
OpenAI Codex для всего (ну, почти)
Слухи подтвердились: новый Codex от OpenAI – шаг к супераппу, который может объединить ChatGPT, Atlas и сам Codex. Приложение пока заточено под кодинг, но такие агенты уже подходят почти для любой интеллектуальной работы — от кода до офисной рутины.
Главная новинка – управление компьютером: с разрешения пользователя Codex работает в приложениях, кликает мышкой и нажимает клавиши. Codex также умеет анализировать экран: например, открыть веб-прототип, прокликать его как человек, найти UX-ошибки и исправить их. Можно запускать несколько агентов параллельно – если хватает лимитов.
Появилась память – Codex теперь отслеживает привычки пользователя и подстраивает свой стиль под него. А для генерации дизайна используется рисовалка GPT Image 1.5.
Полный функционал доступен только для США – в других регионах функции раскатают в ближайшие недели.
Вот что интересно. Сами модели уже стали настолько умными, что в чат-боте я лично не замечаю разницы между теми же Opus 4.6 и Opus 4.7. Важнее становится обвязка: чат-боты устарели, поэтому компании экспериментируют с разными интерфейсами – от CLI до супераппов. И Codex здесь – мощная заявка.
Claude Design
С выходом Opus 4.7 Anthropic выкатили совершенно убойную штуку для всех, кто занимается дизайном – по сути, Figma, но с мощнейшим ИИ внутри.
Просто словами описываем, что хотим сделать – модель задаст внушительный список вопросов, а затем соберет прототип. Работать с проектом можно разными способами: попросить ИИ что-то исправить, вмешаться самому, подключить к проекту коллег, оставлять комментарии и т.д. ИИ следует дизайн-системе компании, результат можно отправлять в Canva или Claude Code – в общем, мощный инструмент.
И недешевый. Я собрал три прототипа: рассказ системы о самой себе и два варианта ChatGPT в стиле 90-х годов (один из вариантов – на скрине). Как результат – на 100-долларовой подписке Max улетело 50% недельного лимита Claude Design. Для экономии можно переключиться на модели попроще – Sonnet 4.6 и Haiku 4.5 – но и результат будет хуже. Думаю, с выходом Sonnet 4.7 будет лучше.
Grok 4.30
Новый Грок уже доступен платным подписчикам – и интересно посмотреть, как xAI пытается угнаться за конкурентами. Grok 4.30 сравнительно маленькая модель: всего 500 млрд параметров – в разы меньше 3 триллионов у Grok 4. Зато такой размер позволяет тренировать модели быстро.
У Grok 4.30 knowledge cutoff заявлен как декабрь 2025 года – по эту дату у модели есть знания в весах, без веб-поиска, который менее надежен. При этом модель уже получила дополнительное обучение – в планах обновлять ИИ каждые две недели.
На начало мая запланирован Grok 4.4 – уже 1T параметров и knowledge cutoff по начало апреля 2026 года. То есть собственные знания модели будут отставать лишь на месяц от реальности. В конце мая обещают Grok 4.5 – 1,5T параметров и еще больше знаний. В будущем же xAI планирует выпустить модели на 6T и 10T параметров – уровень Opus и Mythos.
У меня совсем не хватает времени потестировать Грока, но я регулярно прибегаю к помощи модели для поиска в X – и стиль ее ответов мне очень нравится. xAI надо выкатывать свой аналог Claude Code и Codex – без этого сейчас никуда.
OpenAI Spud
Прямо сейчас в X большая шумиха – пользователи GPT-5.4 Pro заметили, что модель стала отвечать быстрее и намного лучше. И делают вывод, что OpenAI тихонько заменила ее на свою новую Spud. Примеры фронтенда, надизайненного моделью, действительно поражают: так что я даже оформил подписку ChatGPT Pro, потестирую модель, и, если будет чем поделиться – расскажу.
(модель также сделала прототип ChatGPT из 90-х, с IRC-тематикой – и мне он нравится больше!)
Как во всем этом разобраться и не сойти с ума? На Boosty я веду серию текстов, которая учит пользоваться ИИ – от базовых принципов до продвинутых техник.
Самое время подписаться!
В прошлом тексте на “Бусти” я отучил подписчиков бояться Claude Code и Codex – если понять философию ИИ-агентов, то многие задачи можно делать эффективнее, чем в чат-ботах. Теперь давайте копнем поглубже – и посмотрим, что под капотом у Claude Code:
Как устроен Claude Code: память, MCP, скиллы, субагенты, хуки
Когда я только начинал работать с Claude Code, то прошел через три этапа: 1) это что за командная строка из 80-х?; 2) да вроде все просто – пишешь текстом и он делает: 3) ого, сколько у него на самом деле под капотом возможностей, о которых я и не догадывался!
Не зависнуть на втором пункте и побыстрее перепрыгнуть на третий – как раз поможет статья. Как работать с памятью? Какими слеш-командами пользоваться? Зачем нужны MCP и скиллы и где их искать? А агенты с хуками – это зачем?
Ответы на вопросы ищите в лонгриде – он получился настолько обстоятельным, что я сам научился паре новых штук, про которые писал. Кстати, для Codex многое тоже подойдет – просто скормите текст агенту и попросите рассказать, как все устроено у него.
Ну и напоминаю, что в подписке Boosty уже полно текстов, обучающих разным аспектам работы с ИИ – от промптинга до агентов.
Самое время подписаться!
Тем более, что там много интересного.
Начну неожиданно со ScreenSpot-Pro – в обзоре Opus 4.6 я отмечал, что Claude отстает от GPT и Gemini в компьютерном зрении. И вот Anthropic исправила проблему: 79,5% vs 57,7%, скачок сразу на 22 пункта. Opus 4.7 обрабатывает картинки на x3,3 бОльшем разрешении, поэтому видит больше деталей. Сюда же CharXiv Reasoning – 82,1% vs 69,1%. Показывает, насколько хорошо модель читает графики и диаграммы.
Теперь по визуалу у Anthropic один пробел – отсутствие собственной рисовалки уровня GPT Images и Nano Banana. Пока в компании пытаются закрыть проблему, разрешив Claude рисовать схемы в SVG, но это явно временное решение.
SWE-bench – 87,6% vs 80,8% в verified и 64,3% vs 53,4% в новой версии этого теста с подназванием Pro. В кодинге Opus 4.7 уверенно обходит конкурирующую GPT-5.4 Thinking, но не забываем, что у OpenAI на подходе своя новинка под кодовым названием Spud.
MCP-Atlas – 77,3% vs 75,8%. Небольшой рост на бенчмарке, который оценивает умение модели использовать внешние инструменты через MCP (Model Context Protocol). Но при показателе более 70% даже полтора процента – заметный результат.
Vending-Bench 2 от Andon Labs – $11 000 vs $8 000 у Opus 4.6, $5 700 у GPT-5.4. Бенчмарк-симуляция, в котором модель на протяжении виртуального года управляет торговым киоском и пытается заработать как можно больше денег. Ключевая трудность не в отдельных решениях (каждое по себе простое), а в том, чтобы не забыть за месяц, что ты заказал в январе, не поддаться на уговоры мошеннических поставщиков и не свалиться в «meltdown loop» – знаменитый режим, когда Claude предыдущих версий писал панические письма несуществующему юридическому отделу. Рост до 11 000 долларов впечатляет, но теоретический потолок человека-менеджера в бенчмарке – $63 000.
OfficeQA Pro – 80,6% vs 57,1%, +23 пункта. Самый большой скачок относительно предшественника. Бенчмарк оценивает умение модели искать по архиву документов крупной организации и давать на его основе точные ответы. Звучит просто, но в тесте модель оценивали на 100-летнем архиве бюллетеней Казначейства США: 89 000 страниц и более 26 миллионов числовых значений. Количество верных ответов – более 80%.
Есть и бенчмарки, где модель откатилась. BrowseComp – 79,3% vs 83,7%. Это особенно важный для меня бенчмарк на сложный веб-поиск, когда для получения информации модель должна сделать несколько уточняющих запросов. Но падение небольшое: я задавал Opus 4.7 разные вопросы по бенчам, пока писал этот текст – справлялся хорошо.
CyberGym – 73,1% vs 73,8%. Это бенчмарк на поиск уязвимостей и в нем Opus 4.7 ослабили намеренно. Anthropic переживает из-за растущих способностей ИИ в кибербезопасности – теоретически, злоумышленники могут обмануть модель и использовать ее для взлома. По этой причине в широкий доступ не выпускают супер-флагман Claude Mythos, а на Opus 4.7 обкатывают новые алгоритмы защиты, чтобы исбежать несанкционированное использование. Если получится – увидим и Mythos, пусть и по цене крыла от самолета.
Также в Opus 4.7 поменяли токенизатор – теперь тот же объем текста дает до 1,35 раза больше токенов. Теоретически модель будет быстрее тратить лимиты подписок и деньги в API, но параллельно Antropic утверждает о большей эффективности Opus 4.7 по самим токенам. То есть текст бьется на большее количество токенов, но решает задачи модель в меньшее количество действий – и второе должно сбалансировать первое. Я много использовал Opus 4.7 параллельно с написанием этого текста – и не могу сказать, что лимиты на Max-подписке сгорали быстрее обычного.
В целом Opus 4.7 не революция, а шаг вперед – однако Anthropic теперь стабильно обновляет модели каждые 2 с небольшим месяца, так что суммарный прогресс очень мощный.
В любом случае, Opus 4.7 – новый флагман для Claude Code. А у себя на Boosty я как раз начал цикл текстов, в котором учу пользоваться этим ИИ-агентом для кода и не только.
Самое время подписаться!
Тем более, что там много интересного.
Начну неожиданно со ScreenSpot-Pro – в обзоре Opus 4.6 я отмечал, что Claude отстает от GPT и Gemini в компьютерном зрении. И вот Anthropic исправила проблему: 79,5% vs 57,7%, скачок сразу на 22 пункта. Opus 4.7 обрабатывает картинки на x3,3 бОльшем разрешении, поэтому видит больше деталей. Сюда же CharXiv Reasoning – 82,1% vs 69,1%. Показывает, насколько хорошо модель читает графики и диаграммы.
Теперь по визуалу у Anthropic один пробел – отсутствие собственной рисовалки уровня GPT Images и Nano Banana. Пока в компании пытаются закрыть проблему, разрешив Claude рисовать схемы в SVG, но это явно временное решение.
SWE-bench – 87,6% vs 80,8% в verified и 64,3% vs 53,4% в новой версии этого теста с подназванием Pro. В кодинге Opus 4.7 уверенно обходит конкурирующую GPT-5.4 Thinking, но не забываем, что у OpenAI на подходе своя новинка под кодовым названием Spud.
MCP-Atlas – 77,3% vs 75,8%. Небольшой рост на бенчмарке, который оценивает умение модели использовать внешние инструменты через MCP (Model Context Protocol). Но при показателе более 70% даже полтора процента – заметный результат.
Vending-Bench 2 от Andon Labs – $11 000 vs $8 000 у Opus 4.6, $5 700 у GPT-5.4. Бенчмарк-симуляция, в котором модель на протяжении виртуального года управляет торговым киоском и пытается заработать как можно больше денег. Ключевая трудность не в отдельных решениях (каждое по себе простое), а в том, чтобы не забыть за месяц, что ты заказал в январе, не поддаться на уговоры мошеннических поставщиков и не свалиться в «meltdown loop» – знаменитый режим, когда Claude предыдущих версий писал панические письма несуществующему юридическому отделу. Рост до 11 000 долларов впечатляет, но теоретический потолок человека-менеджера в бенчмарке – $63 000.
OfficeQA Pro – 80,6% vs 57,1%, +23 пункта. Самый большой скачок относительно предшественника. Бенчмарк оценивает умение модели искать по архиву документов крупной организации и давать на его основе точные ответы. Звучит просто, но в тесте модель оценивали на 100-летнем архиве бюллетеней Казначейства США: 89 000 страниц и более 26 миллионов числовых значений. Количество верных ответов – более 80%.
Есть и бенчмарки, где модель откатилась. BrowseComp – 79,3% vs 83,7%. Это особенно важный для меня бенчмарк на сложный веб-поиск, когда для получения информации модель должна сделать несколько уточняющих запросов. Но падение небольшое: я задавал Opus 4.7 разные вопросы по бенчам, пока писал этот текст – справлялся хорошо.
CyberGym – 73,1% vs 73,8%. Это бенчмарк на поиск уязвимостей и в нем Opus 4.7 ослабили намеренно. Anthropic переживает из-за растущих способностей ИИ в кибербезопасности – теоретически, злоумышленники могут обмануть модель и использовать ее для взлома. По этой причине в широкий доступ не выпускают супер-флагман Claude Mythos, а на Opus 4.7 обкатывают новые алгоритмы защиты, чтобы исбежать несанкционированное использование. Если получится – увидим и Mythos, пусть и по цене крыла от самолета.
Также в Opus 4.7 поменяли токенизатор – теперь тот же объем текста дает до 1,35 раза больше токенов. Теоретически модель будет быстрее тратить лимиты подписок и деньги в API, но параллельно Antropic утверждает о большей эффективности Opus 4.7 по самим токенам. То есть текст бьется на большее количество токенов, но решает задачи модель в меньшее количество действий – и второе должно сбалансировать первое. Я много использовал Opus 4.7 параллельно с написанием этого текста – и не могу сказать, что лимиты на Max-подписке сгорали быстрее обычного.
В целом Opus 4.7 не революция, а шаг вперед – однако Anthropic теперь стабильно обновляет модели каждые 2 с небольшим месяца, так что суммарный прогресс очень мощный.
В любом случае, Opus 4.7 – новый флагман для Claude Code. А у себя на Boosty я как раз начал цикл текстов, в котором учу пользоваться этим ИИ-агентом для кода и не только.
Самое время подписаться!
Отзывы канала
Каталог Телеграм-каналов для нативных размещений
сбежавшая нейросеть — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 20.4K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 1.3, количество отзывов – 0, со средней оценкой 0.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 25174.8 ₽, а за 0 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий