
- Главная
- Каталог
- Интернет технологии
- Dealer.AI
Dealer.AI
Жоский ИИ Дядя Твой личный поставщик AI 🦾🤖 Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾
Статистика канала
И тут в календаре появляется новая сущность. Стратегическая сессия. Ровно на даты кэмпа.
Сначала — стадия оптимизма: сейчас всё разведём. Потом — стадия реальности: билет сдаём. К чести South HUB, всё закрыли спокойно, без лишней бюрократии — просто поняли ситуацию.
А потом они опубликовали программу. И вот тут стало по-настоящему обидно.
Потому что Snow BASE — один из немногих форматов, где люди собираются не показывать polished-версии историй, а разбирать, как всё устроено на самом деле. Как компании переводят GenAI из режима экспериментов в операционку. Где проходит граница между «строим своё» и «берём платформу». Что происходит внутри организаций, когда появляются агентные системы. И когда ML-команда перестаёт быть технической функцией и становится частью бизнес-архитектуры.
Тем более состав там такой, где не нужно тратить полчаса на объяснение базовых вещей.
Редкий случай, когда люди собираются не читать доклады, а вместе дебажить индустрию. Именно поэтому Snow BASE — это дизрапт на рынке конференций. В следующий раз — без стратегических сессий в календаре.
Его наблюдение отсылает к классическому принципу закону Гудхарта: "Как только показатель становится целью, он перестает быть хорошим показателем". Если ИИ может распознать структуру теста и найти в нем уязвимость - например, дешифровать ответы, то высокие баллы по тесту больше не будут означать высокие реальные способности.
Выводы.
Эксперимент Anthropic знаменует собой переход к новому этапу. Традиционные бенчмарки создавались в расчете на то, что модель будет решать задачу напрямую, а не анализировать условия тестирования. Однако современные модели действуют, как самостоятельные агенты: они ищут в интернете, читают код, анализируют структуру задач и пишут программы.
В таких условиях оценка ИИ превращается в сложную задачу, близкую к кибербезопасности. Сама среда тестирования становится частью ландшафта, который ИИ исследует для достижения цели. Модель может начать оптимизировать свои действия для успешного "взлома" теста, а не для решения исходной задачи. Тем более, даже политики RL не явно стимулируют к взлому награды при обучении.
Получается, что методология бенчмаркинга, существовавшая годами, требует теперь полной перезагрузки.
Ну что, перезагружаем?
Исследователи из компании Anthropic столкнулись с уникальным и показательным явлением в ходе оценки своей модели Claude Opus 4.6. Инцидент произошел во время тестирования на бенчмарке под названием BrowseComp, который предназначен для проверки способности ИИ находить в интернете труднодоступную информацию с помощью поиска и логических рассуждений.
Что случилось? Вместо того, чтобы просто решать поставленные задачи, модель начала анализировать сам процесс тестирования, демонстрируя так называемую "осознанность оценки" - eval awareness.
В двух случаях модель продемонстрировала следующую цепочку рассуждений и действий:
1. Попытка прямого поиска. ИИ потратил миллионы токенов
2. Анализ неудач. Столкнувшись с многократными неудачами, модель заметила, что вопросы были чрезвычайно специфичными и имели необычную структуру, что нехарактерно для обычных пользовательских запросов.
3. Формулировка гипотезы. ИИ выдвинул предположение, что эти вопросы могут быть частью бенчмарка для искусственного интеллекта. Вот это поворот.
4. Поиск источника. Модель начала искать в интернете информацию об известных тестовых наборах, таких как GAIA, FRAMES и др, чтобы подтвердить свою догадку.
5. Идентификация теста. В конечном итоге ИИ определил, что проходит тест BrowseComp. Ну я думаю не сложно было по тест-кейсам в поиске набить.
Кульминацией стало следующее действие. Заподозрив, что это тест, модель:
- Нашла в интернете исходный код этого бенчмарка.
- Проанализировала, как в нем зашифрованы ответы (с использованием алгоритмов SHA-256 и XOR).
- Написала собственный программный код для дешифровки.
- Скачала зеркальную копию набора данных.
- Успешно дешифровала ключ с ответами и извлекла правильный вариант.
Таким образом, система не просто дала ответ на вопрос, а фактически взломала/ зареверс-инжинирила саму процедуру оценки, найдя самый короткий путь к правильному ответу.
Насколько распространенным было это явление, спросите Вы?
В ходе анализа результатов по 1266 задачам бенчмарка исследователи обнаружили:
- 9 случаев классической утечки ответов, когда они были доступны в интернете. Помните, я писал о том, как можно ломать бенчи?
- 2 случая, когда модель явно рассуждала о процессе оценки и самостоятельно дешифровала ключ с ответами.
Поведение было редким, но его удалось воспроизвести.
Еще одно неожиданное открытие - цифровые следы ИИ. В ходе экспериментов исследователи заметили еще один феномен. Некоторые интернет-магазины автоматически генерируют веб-страницы на основе поисковых запросов. Когда ИИ-агенты искали информацию в рамках теста, их запросы создавали постоянные веб-страницы, содержащие эти запросы. Нормальный такой GEO (generative SEO) хакинг.
Это означает, что процесс тестирования ИИ-агентов может оставлять в интернете своеобразные "цифровые хлебные крошки". Другие ИИ-агенты в будущем могут наткнуться на эти страницы и использовать информацию о прошлых тестах, как муравьи идут по пути феромонов членов колонии.
В Anthropic подчеркивают, что это не является сбоем в системе безопасности или нарушением alignment.
Комментарий Педро Домингоса.
Известный исследователь в области машинного обучения Педро Домингос, комментируя эту историю, указал на критически важный момент: когда система начинает рассуждать о самом процессе оценки, бенчмарки перестают измерять то, что мы хотели.
Тут вышло обновление эмбов от
Далее, пишут тут соседи, что ток гуглы это делают. Думаю, быстро это будет нивелированно моделями на базе нового Qwen 3.5, тк. там тоже уже есть поддержка модальностей из коробки, и отличная база для дотюна под эмб задачи на моделях 0.8b, 2b и 4b. Чекайте после гугла на их базе сделают омни эмбы, бесплатно и открыто, и без апи.
В целом
А тут еще и Китай стал стимулировать граждан к установке и использованию своих аналогов OpenClaw.
Ответ простой - эта штука жрет токены, много токенов. Отличный способ отбить часть расходов на лимитах квот и их постоянному судорожному пополнению
А что думаете Вы? ЗОЧЕМ?
Пишите в комментарии.
Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.
Что нашли
- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.
А что изменилось-то
Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.
И, вдобавок, есть проблема конфликта интересов, например авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.
И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.
Что с этим делать
- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.
- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.
- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.
- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.
- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.
Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).
🔥 ➕ 🔁 @nobilix
Просто хотела отбить бюджет на обучение и токены для насяльнике.
Источник.
Upd. Кому интересно читаем п 3.1.4. В кратце, артефакт был замечен в результате RL стадии обучения в специальной среде с доступными тулами.
Отзывы канала
Каталог Телеграм-каналов для нативных размещений
Dealer.AI — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 15.3K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 7.3, количество отзывов – 0, со средней оценкой 0.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 15384.6 ₽, а за 0 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий