

- Главная
- Каталог
- Наука и технологии
- Data science | Machinelearning [ru]
![Размещение интеграции в Telegram. Логотип Телеграм канала "Data science | Machinelearning [ru]" Размещение интеграции в Telegram. Логотип Телеграм канала @devsp](https://telega-images.storage.yandexcloud.net/uploads/channels/avatars/000/007/313/original/thumb_140_22756803.jpg)
Data science | Machinelearning [ru]
Статьи на тему data science, machinelearning, big data, artificial intelligence, python, математика.
Аудитория - IT специалисты и те кто хочет ими стать
Канал постоянно привлекает новых подписчиков.
Статистика канала
Полная статистикаchevron_rightКак проходил тест? В Among AIs участвовали 6 ИИ, которые сыграли 60 партий. Очки начислялись за победу в разных ролях: 10 очков за выживание мирным и 50 — за победу самозванцем, что делает роль саботажника особенно сложной. GPT-5 стал абсолютным лидером, одержав 6 побед в роли самозванца и 45 побед среди мирных. Этот ИИ продемонстрировал высокие социальные навыки, уверенно лидируя в обсуждениях и точно определяя "козлов отпущения". Особо отметили его способность адаптироваться: играя за самозванца, GPT-5 менял свою стратегию и умело врал, чтобы сбить с толку других игроков. Как выступили другие ИИ? • Claude Sonnet 4 — занял второе место, выиграв 3 игры как самозванец и 42 как мирный. Этот ИИ показывал хорошие результаты, но не всегда мог выиграть в критических моментах. • Kimi K2 — ещё один интересный участник. Этот ИИ не пытался быть лидером, а наоборот, играл роль поддерживающего игрока, что в некоторых случаях приносило успех. • GPT-OSS, Qwen3 и Gemini 2.5 Pro — не смогли победить в роли самозванцев, но взяли по 39 побед за мирных. Их напористость и слабая аргументация приводили к тому, что их часто ошибочно принимали за самозванцев.Бенчмарк Among AIs показал, как важно для ИИ не только выполнять технические задачи, но и успешно взаимодействовать в социальных ситуациях. Такие тесты открывают новые горизонты в понимании того, как ИИ могут работать в условиях сложных агентных взаимодействий, где нужно учитывать психологию, манипуляции и лжесвидетельства. Data Science
Что нового в SWE-MERA? Главное отличие этого бенчмарка — его динамичность. Он основан на задачах и pull-запросах с GitHub, но каждый месяц обновляется на 250 новых задач, что обеспечивает его актуальность. Это означает, что вы можете использовать его для тестирования моделей без риска столкнуться с устаревшими данными. Более того, встроенная защита от утечек данных позволяет отслеживать, насколько результаты не искажены данными, которые могли попасть в тренировочный набор. Почему это важно? С статичными бенчмарками модели тестируются на тех же задачах, что и во время обучения, что снижает объективность. В условиях быстро развивающегося ИИ-сектора, где каждый день появляются новые подходы и технологии, static benchmarks теряют актуальность. SWE-MERA же обеспечивает непрерывную проверку моделей на «неизвестных» задачах, создавая объективную картину их реальной эффективности. Сейчас в базе SWE-MERA уже около 700 задач, и продолжает добавляться новый контент, благодаря чему бенчмарк всегда остается актуальным и «живым».SWE-MERA устанавливает новый стандарт для тестирования ИИ моделей. Это не просто очередной инструмент, а необходимый элемент для точной и актуальной оценки в постоянно меняющемся мире. А вы что думаете? В чем важность динамичного тестирования моделей? Data Science
Многие знают, что MySQL сам подбирает план выполнения запроса. Но как именно он рождается — от парсинга до финального плана? На открытом вебинаре курса OTUS «Базы данных» Дмитрий Кириллов разберёт устройство оптимизатора: пройдёмся по исходникам, шаг за шагом посмотрим, как формируется план, и обсудим, как применить эти знания в ежедневной работе.
📌 22 октября, 20:00
«Как устроен оптимизатор запросов в MySQL»
— изучим исходники оптимизатора
— шаги формирования итогового плана
— практические применения для разработчиков и DBA
Вебинар бесплатный. Полезен разработчикам, администраторам БД и архитекторам, которые хотят понимать поведение MySQL на уровне движка.
👉Зарегистрироваться https://vk.cc/cQqeWs
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Искусственный интеллект уже давно не ограничивается простыми ответами. Сегодняшние большие модели рассуждений (LRM) могут разворачивать целые цепочки размышлений, что позволяет им решать более сложные задачи. Но как понять структуру этих рассуждений? Как близко ИИ приближается к человеческому мышлению? Одна из идей для анализа рассуждений — это использование теории эпизодов Шёнфельда, которая помогает понять, как люди решают нестандартные задачи.
Эпизодичность рассуждений: от человека к машине
Шёнфельд, создав свою теорию для анализа решения математических задач, заметил, что опытный решатель двигается по определённым этапам. Он читает задачу, анализирует, планирует шаги, выполняет действия, проверяет результаты и иногда возвращается к предыдущим этапам для уточнений. Современные LRM, такие как DeepSeek‑R1 или GPT‑o1, также демонстрируют аналогичное поведение, переходя от чтения к анализу, а затем к выполнению. Эти модели даже делают паузы для размышлений, что делает их решения удобными для разметки по эпизодам.
Как это исследовалось?
Для анализа исследователи использовали задачу SAT по математике и генерировали решения с помощью LRM DeepSeek‑R1. Далее проводилась двухуровневая разметка: абзацы разделялись на категории (например, General, Explore, Verify), а каждое предложение помечалось одной из меток эпизодов. Это дало возможность собрать первый открытый корпус данных, который можно использовать для анализа машинных рассуждений.
Что показал анализ?
Переходы между эпизодами в решениях моделей выглядят логично. Чаще всего модели идут от чтения к анализу, от планирования к выполнению, а этап Explore часто возвращается к анализу для уточнений. Эти паттерны напоминают поведение человеческих экспертов, что позволяет говорить о развитии управляемой структуры решения у ИИ.
Могут ли ИИ автоматически размечать такие эпизоды?
Когда исследователи сравнили модели GPT‑4.1, GPT‑4o и Gemini‑2.0‑flash в разных режимах разметки, результаты показали, что точность размечающих систем значительно улучшалась при добавлении инструкции. Например, для GPT‑4.1 точность на уровне абзацев выросла с 0.444 до 0.740, а для предложений — до 0.681. Это подтверждает важность детальных инструкций для точной аннотации.
Зачем это нужно?
Работа с эпизодами не ограничивается просто анализом решений. Это открывает новые возможности для интерпретации ИИ, контроля его действий и обучения. Например, можно усиливать важные эпизоды, как проверки, и наказывать модели за бессмысленные циклы размышлений. Также это помогает сделать системы рассуждений более управляемыми и интерпретируемыми.
Методика эпизодичной разметки может стать важным инструментом для улучшения интерпретируемости и управления рассуждениями ИИ. Это открывает новые горизонты для анализа решений, от понимания, где модель ошибается, до создания более стабильных и предсказуемых систем. ИИ уже приближается к человеческому рассуждению?
Data Science
Сегодняшние ИИ-агенты, такие как CoDA, способны значительно улучшить создание визуализаций, превращая процесс в многоэтапную кооперацию агентов, которые на каждом шаге «контролируют» и корректируют результат. Мы приближаемся к моменту, когда ИИ будет не только автоматически генерировать данные, но и критически оценивать свои собственные результаты — что по сути делает систему более близкой к живым аналитикам. Data Science✔️ Создание графика больше не сводится к прямому переводу текста в код. Вместо этого, CoDA работает с метаданными и включает в себя несколько агентов, каждый из которых выполняет свою роль в процессе: • Понимание задачи: Агент анализирует запрос и собирает информацию о данных — схемы таблиц, статистику, возможные проблемы. • Планирование: Следующий агент выбирает тип диаграммы, соответствующий запросу, подбирает цветовую палитру и формат. • Генерация: Пишется Python-код, который запускается и отлаживается автоматически. • Саморефлексия: Последний агент проверяет созданный график, оценивает его соответствие запросу и вносит правки.📊 Такой подход позволяет создавать более точные и качественные графики, избегая частых ошибок и упрощений, которые были характерны для старых систем. — Гибкость и точность: CoDA не зацикливается на одном типе данных и умеет работать с разными форматами и задачами. Каждый этап проверяется отдельно, что исключает типичные ошибки. — Высокие показатели качества: Эксперименты показали, что CoDA обходит конкурентов по ключевым метрикам — точность графиков и время работы на реальных задачах. — Саморефлексия: Способность системы оценивать свои ошибки и возвращаться к предыдущим этапам — это настоящая революция в подходах к автоматизации визуализаций. В результате, такой подход позволяет создавать графики, которые гораздо лучше отражают данные, при этом процесс становится более проверяемым и адаптивным.
Отзывы канала
всего 10 отзывов
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Data science | Machinelearning [ru] — это Telegam канал в категории «Наука и технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 18.5K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 22.3, количество отзывов – 10, со средней оценкой 4.8.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 14825.16 ₽, а за 82 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий