
- Главная
- Каталог
- Интернет технологии
- AI for Devs
AI for Devs
Вся аудитория натуральная. ERR >70%. Рекламу не удаляю. 1/24 стоимость не актуальная.
Статистика канала
Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.
Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.
@ai_for_devs
Краткий экскурс для тех, кто в танке. Skill — это папка с
SKILL.md и опциональными скриптами, которую агент подгружает по контексту задачи. Модель видит только название и описание, а полное содержимое читает когда скилл подходит под запрос. Такой подход позволяет держать десятки скиллов доступными без расхода контекстного окна и с генерацией без галлюцинаций.Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.
Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка +
SKILL.md), но в деталях реализации много полезного: как структурировать инструкции, как разбивать на агентов, как тестировать скиллы автоматически. Skill-creator — отдельно хороший пример скилла, который сам создает другие скиллы.Репозиторий: https://github.com/anthropics/skills
@ai_for_devs
1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.
2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.
Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁
@ai_for_devs
Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.
Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.
86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.
Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!
Полностью исследование можно прочитать тут.
@ai_for_devs
Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.
Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.
С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.
Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.
@ai_for_devs
Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.
Основные результаты:
– Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека
– Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%
– При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков
– На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек
@ai_for_devs
Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.
Основные результаты:
– Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека
– Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%
– При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков
– На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек
@ai_for_devs
Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один плагин и поставить через маркетплейс. Поддержка уже есть у Amplitude, AWS, Figma, Linear, Stripe. Установить можно прямо из редактора через
/add-plugin.Второй крупный апдейт —
sandbox. Теперь можно явно задать, к каким доменам агент имеет доступ. Три режима: только свой allowlist, allowlist плюс дефолтные домены Cursor или полный доступ. Появились ограничения на директории и файлы.И самое интересное — асинхронные субагенты. Раньше дочерний агент блокировал родительский. Теперь он работает в фоне, а основной продолжает задачу. Субагенты могут запускать своих субагентов, формируя иерархическое дерево.
@ai_for_devs
Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один плагин и поставить через маркетплейс. Поддержка уже есть у Amplitude, AWS, Figma, Linear, Stripe. Установить можно прямо из редактора через
/add-plugin.Второй крупный апдейт —
sandbox. Теперь можно явно задать, к каким доменам агент имеет доступ. Три режима: только свой allowlist, allowlist плюс дефолтные домены Cursor или полный доступ. Появились ограничения на директории и файлы.И самое интересное — асинхронные субагенты. Раньше дочерний агент блокировал родительский. Теперь он работает в фоне, а основной продолжает задачу. Субагенты могут запускать своих субагентов, формируя иерархическое дерево.
@ai_for_devs
Отзывы канала
Каталог Телеграм-каналов для нативных размещений
AI for Devs — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 7.2K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 2.3, количество отзывов – 0, со средней оценкой 0.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 4195.8 ₽, а за 0 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий