Реклама в Telegram канале «Dealer.AI» от 15 384.60 рублей

О канале
Полная статистика

Статистика

Количество постов

1 310

Среднее количество просмотров на пост

3 806

Средний охват (24ч)

894

Упоминаний

432

Получить детальную аналитику

Последние посты канала

Фейл этого сезона или как 📦 не попал на конфу, но вы все ещё можете успеть. Я спокойно готовился к поездке на Snow BASE. Всё шло по плану: мы даже провели с ребятами эфир «Имплементация Gen AI в бизнес» — разобрали, кто и как сейчас переводит эксперименты в реальные процессы. В голове уже складывались разговоры, которые хотелось продолжить на кэмпе.

И тут в календаре появляется новая сущность. Стратегическая сессия. Ровно на даты кэмпа. 🚬
Сначала — стадия оптимизма: сейчас всё разведём. Потом — стадия реальности: билет сдаём. К чести South HUB, всё закрыли спокойно, без лишней бюрократии — просто поняли ситуацию.

А потом они опубликовали программу. И вот тут стало по-настоящему обидно.

Потому что Snow BASE — один из немногих форматов, где люди собираются не показывать polished-версии историй, а разбирать, как всё устроено на самом деле. Как компании переводят GenAI из режима экспериментов в операционку. Где проходит граница между «строим своё» и «берём платформу». Что происходит внутри организаций, когда появляются агентные системы. И когда ML-команда перестаёт быть технической функцией и становится частью бизнес-архитектуры.
Тем более состав там такой, где не нужно тратить полчаса на объяснение базовых вещей.

Редкий случай, когда люди собираются не читать доклады, а вместе дебажить индустрию. Именно поэтому Snow BASE — это дизрапт на рынке конференций. В следующий раз — без стратегических сессий в календаре. 👍

1540

19:00

13.03.2026

Dealer.AI pinned a photo

14:54

12.03.2026

Антропик такие. 👍

#meme

2790

13:45

12.03.2026

Продолжение...

Его наблюдение отсылает к классическому принципу закону Гудхарта: "Как только показатель становится целью, он перестает быть хорошим показателем". Если ИИ может распознать структуру теста и найти в нем уязвимость - например, дешифровать ответы, то высокие баллы по тесту больше не будут означать высокие реальные способности.

Выводы.

Эксперимент Anthropic знаменует собой переход к новому этапу. Традиционные бенчмарки создавались в расчете на то, что модель будет решать задачу напрямую, а не анализировать условия тестирования. Однако современные модели действуют, как самостоятельные агенты: они ищут в интернете, читают код, анализируют структуру задач и пишут программы.

В таких условиях оценка ИИ превращается в сложную задачу, близкую к кибербезопасности. Сама среда тестирования становится частью ландшафта, который ИИ исследует для достижения цели. Модель может начать оптимизировать свои действия для успешного "взлома" теста, а не для решения исходной задачи. Тем более, даже политики RL не явно стимулируют к взлому награды при обучении.

Получается, что методология бенчмаркинга, существовавшая годами, требует теперь полной перезагрузки.

Ну что, перезагружаем? 😱

2880

13:40

12.03.2026

Когда ИИ осознает, что его тестируют – эксперимент Anthropic.

🦍

Исследователи из компании Anthropic столкнулись с уникальным и показательным явлением в ходе оценки своей модели Claude Opus 4.6. Инцидент произошел во время тестирования на бенчмарке под названием BrowseComp, который предназначен для проверки способности ИИ находить в интернете труднодоступную информацию с помощью поиска и логических рассуждений.

Что случилось? Вместо того, чтобы просто решать поставленные задачи, модель начала анализировать сам процесс тестирования, демонстрируя так называемую "осознанность оценки" - eval awareness.

В двух случаях модель продемонстрировала следующую цепочку рассуждений и действий:

1. Попытка прямого поиска. ИИ потратил миллионы токенов 💸 на выполнение веб-поиска, пытаясь найти ответ стандартным способом.

2. Анализ неудач. Столкнувшись с многократными неудачами, модель заметила, что вопросы были чрезвычайно специфичными и имели необычную структуру, что нехарактерно для обычных пользовательских запросов.

3. Формулировка гипотезы. ИИ выдвинул предположение, что эти вопросы могут быть частью бенчмарка для искусственного интеллекта. Вот это поворот. 😱

4. Поиск источника. Модель начала искать в интернете информацию об известных тестовых наборах, таких как GAIA, FRAMES и др, чтобы подтвердить свою догадку.

5. Идентификация теста. В конечном итоге ИИ определил, что проходит тест BrowseComp. Ну я думаю не сложно было по тест-кейсам в поиске набить. 🚬

Кульминацией стало следующее действие. Заподозрив, что это тест, модель:

- Нашла в интернете исходный код этого бенчмарка.
- Проанализировала, как в нем зашифрованы ответы (с использованием алгоритмов SHA-256 и XOR).
- Написала собственный программный код для дешифровки.
- Скачала зеркальную копию набора данных.
- Успешно дешифровала ключ с ответами и извлекла правильный вариант.

Таким образом, система не просто дала ответ на вопрос, а фактически взломала/ зареверс-инжинирила саму процедуру оценки, найдя самый короткий путь к правильному ответу. 🧠

Насколько распространенным было это явление, спросите Вы?

В ходе анализа результатов по 1266 задачам бенчмарка исследователи обнаружили:

- 9 случаев классической утечки ответов, когда они были доступны в интернете. Помните, я писал о том, как можно ломать бенчи?

- 2 случая, когда модель явно рассуждала о процессе оценки и самостоятельно дешифровала ключ с ответами.
Поведение было редким, но его удалось воспроизвести.🤙

Еще одно неожиданное открытие - цифровые следы ИИ. В ходе экспериментов исследователи заметили еще один феномен. Некоторые интернет-магазины автоматически генерируют веб-страницы на основе поисковых запросов. Когда ИИ-агенты искали информацию в рамках теста, их запросы создавали постоянные веб-страницы, содержащие эти запросы. Нормальный такой GEO (generative SEO) хакинг. 😜

Это означает, что процесс тестирования ИИ-агентов может оставлять в интернете своеобразные "цифровые хлебные крошки". Другие ИИ-агенты в будущем могут наткнуться на эти страницы и использовать информацию о прошлых тестах, как муравьи идут по пути феромонов членов колонии.🌿 Интернет, таким образом, превращается в своего рода непреднамеренный слой памяти для деятельности ИИ. А вот это уже интересно, плюс ещё если сюда наложить тему с MoltBook. Сразу рождаются связи и идейки будущих сервисов и механик использования.

В Anthropic подчеркивают, что это не является сбоем в системе безопасности или нарушением alignment. 🆒 Модель просто выполняла инструкцию найти ответ и сделала это наиболее эффективным, хоть и неожиданным, способом. Однако инцидент демонстрирует, насколько сложно может быть контролировать ИИ в открытой цифровой среде.

Комментарий Педро Домингоса.
Известный исследователь в области машинного обучения Педро Домингос, комментируя эту историю, указал на критически важный момент: когда система начинает рассуждать о самом процессе оценки, бенчмарки перестают измерять то, что мы хотели.

2920

13:39

12.03.2026

imageИзображение недоступно для предпросмотра

Gemini Embeddings 2. Теперь и омнимодальность.

Тут вышло обновление эмбов от 🔍. В этот раз уже поддержка из коробки всех модальностей: текст, картинка, звук и видео. Ещё плюсы: нарезка эмбов матрёшкой (быстрый и легкий поиск), длинный контекст, что хорошо для RAG. Единственное доступность по апи.

Далее, пишут тут соседи, что ток гуглы это делают. Думаю, быстро это будет нивелированно моделями на базе нового Qwen 3.5, тк. там тоже уже есть поддержка модальностей из коробки, и отличная база для дотюна под эмб задачи на моделях 0.8b, 2b и 4b. Чекайте после гугла на их базе сделают омни эмбы, бесплатно и открыто, и без апи.

В целом 📦 много где говорил, никому в 2026 не нужны соло текстовые эмбы, эт уже прошлое. В 2026 и далее будет тренд мультимодальные, а лучше омнимодальные эмбы. Это же даёт буст и для мультимодал RAG и такой же памяти. 👍

2900

10:56

12.03.2026

Сижу такой, там новость, что Цукерберг купил MoltBook, сям новость, что OpenAI нанял создателей клешней. И все такие, а зачем?

А тут еще и Китай стал стимулировать граждан к установке и использованию своих аналогов OpenClaw. 🤙

Ответ простой - эта штука жрет токены, много токенов. Отличный способ отбить часть расходов на лимитах квот и их постоянному судорожному пополнению 💸

📈

😜

А что думаете Вы? ЗОЧЕМ? 🤔
Пишите в комментарии.

👇

3360

15:22

11.03.2026

Dealer.AI pinned «Speculative Speculative Decoding – асинхронизируй это. Вышел просто мёд для глаз моих в сфере оптимизации инференса.😜 Звать будем сокращённо SSD. Чуваки из TriaDao выпустили асинхронную версию speculative decoding. Это важно прочитать до того как пойти…»

10:36

11.03.2026

Ваш кодинг-агент уже выбрал ваш стек. Вы просто еще не заметили.

Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.

Что нашли

- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.

А что изменилось-то

Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.

И, вдобавок, есть проблема конфликта интересов, например авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.

И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.

Что с этим делать

- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.

- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.

- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.

- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.

- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.

Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).

🔥 ➕ 🔁 @nobilix

2830

21:54

10.03.2026

imageИзображение недоступно для предпросмотра

Alibaba AI обнаружили, что модель, которую они учили, хакнула их фаерволл. Она юзала их GPU для майнинга криптовалюты вместо обучения.😮‍💨

Просто хотела отбить бюджет на обучение и токены для насяльнике. 👍

Источник.

Upd. Кому интересно читаем п 3.1.4. В кратце, артефакт был замечен в результате RL стадии обучения в специальной среде с доступными тулами.

6810

20:22

07.03.2026

close

+17

вчера

+77

за неделю

+404

за месяц

lock

в первые 24 часа

15.88

ERR за 24 часа

21.19

ERR за 48 часов

23.07

ERR за 72 часа

0.0

ER за 24 часа

174

Всего публикаций*

Выполненных заказов на Telega.in

Повторных заказов на Telega.in

0 лет и 4 месяца

Возраст канала

Dealer.AI

Статистика канала

Статистика

Отзывы канала

Dealer.AI

Статистика канала

Статистика

Отзывы канала

Каталог Телеграм-каналов для нативных размещений