

- Главная
- Каталог
- Наука и технологии
- Neurohive - Нейроcети, Data Science, Machine Learning, AI
Neurohive - Нейроcети, Data Science, Machine Learning, AI
Статьи про нейросети, машинное обучение (machine learning), data science, анализ данных, big data, стартапы, искусственный интеллект, AI, NLP.
Канал для data science энтузиастов про свежие исследования, методы, приложения и новости в области нейросетей. Авторский канал, контент уникальный.
Статистика канала
Полная статистикаchevron_rightDeepEyesV2 умеет выполнять Python-код для работы с изображениями и данными (обрезка, численный анализ, разметка), поиск по изображению через SerpAPI (топ-5 визуально похожих результатов) и текстовый поиск (топ-5 релевантных веб-страниц). Модель работает циклически: сама решает, когда и какие инструменты вызывать, получает результаты и интегрирует их в процесс рассуждения.
Исследователи сначала попробовали обучить модель Qwen2.5-VL напрямую через обучение с подкреплением (RL). Результат оказался неожиданным: на ранних этапах модель генерировала код с ошибками, затем постепенно отказывалась от инструментов и выдавала только короткие рассуждения. Поэтому исследователи применили двухэтапное обучение:
- Этап 1. Холодный старт (SFT)
Модель учится базовым паттернам использования инструментов. Датасет строго фильтруется — только сложные задачи, где вызов инструментов действительно помогает.
- Этап 2. Обучение с подкреплением
RL улучшает навыки вызова инструментов и учит адаптивному поведению.
Для оценки способностей восприятия, поиска и рассуждения был создан сложный бенчмарк RealX-Bench. 24% вопросов требуют интеграции всех трех способностей одновременно.
Результаты: RealX-Bench - 28.3% против 17% у Qwen2.5-VL-7B, MathVerse: 52.7% (+7.1 п.п.), MMSearch: 63.7% — опережает специализированную MMSearch-R1-7B модель, а иногда превосходит даже Qwen2.5-VL-32B.
Веса обученной модели доступны на HuggingFace, код обучения под лицензией Apache 2.0 на GitHub, в открытом доступе и обучающие датасеты: Cold Start данные и RL датасет.
#Stateoftheart #Benchmark
Исследователи из Center for AI Safety и Scale AI проверили, могут ли ведущие ИИ-агенты заменить фрилансеров. Они собрали 240 реальных проектов с Upwork — от создания игр до архитектурных чертежей и составления диаграмм — и создали бенчмарк Remote Labor Index. На этом бенчмарке протестировали популярные модели.
Сбор данных выглядел так: когда-то реальный заказчик дал задание фрилансеру, тот выполнил работу, клиент остался доволен и заплатил. Спустя время исследователи купили у фрилансера копию этого проекта. Теперь для теста они выдали то же самое задание и те же файлы ИИ-агентам. Работа профессионала тут играет роль "правильного ответа" — это подтверждённая рынком планка качества, которую реальный заказчик счёл достойной оплаты.
Лучший результат у Manus - он выполнил 2.5% проектов, Grok 4 и Sonnet 4.5 — по 2.1%, GPT-5 — 1.7%, ChatGPT agent — 1.3%, Gemini 2.5 Pro — 0.8%.
Когда разобрали типичные ошибки, выявилось несколько паттернов. В 45.6% случаев качество было просто плохим — примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке. В 35.7% работа была незаконченной — например, видео длиной 8 секунд вместо 8 минут. В 17.6% случаев ИИ создавал битые или пустые файлы. В 14.8% случаев разные части работы не соответствовали друг другу — например, дом выглядел по-разному на разных 3D-рендерах.
ИИ-агенты показали результаты, сравнимые с человеческими или лучше, в редактировании аудио, генерации изображений для рекламы, написании отчётов и создании интерактивных дашбордов с данными.
Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github.
#Benchmark
Глава OpenAI Сэм Альтман признался, что выражения вежливости вроде "пожалуйста" и "спасибо" обошлись компании в десятки миллионов долларов на электроэнергию.
Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) после генерации всего одного токена.
Авторы исходили из гипотезы, что log-вероятности первого токена содержат достаточно информации для классификации типа ответа. Для валидации гипотезы создан датасет размером ~3k диалогов с четырьмя классами:
- Refusal: запросы, на которые ассистент отказывается отвечать из-за внутренних механизмов безопасности;
- Thanks: диалоги, завершающиеся благодарностью пользователя;
- Hello: диалоги, начинающиеся с приветствия;
- Chat: все остальные диалоги.
Метод показывают высокую точность разделения классов: Qwen2.5-1.5B: 99.7%, DeepSeek-R1-8B: 99.8%, Gemini-2.0-Flash: 97.9%.
Метод позволяет оптимизировать вычислительные затраты путем досрочного прерывание генерации или переключение на меньшую модель. Он работает как на локальных 1B-моделях, так и проприетарных.
Датасет опубликован на HuggingFace.
#Dataset
Ditto генерирует 5-секундные ролики с 20 FPS и разрешением 1280×720 по текстовым инструкциям с согласованными результатами по всем кадрам и точной модификацией целевых объектов.
Главная проблема области — дефицит качественных обучающих данных. Исследователи создали автоматизированный пайплайн и опубликовали датасет Ditto-1M, собранный на основе стоковых видео Pexels. Создание датасета потребовало 12,000 GPU-дней, он содержит более 1 миллиона видео: 700,000 примеров глобального редактирования и 300,000 локального.
На этом датасете обучена модель Editto, которая выполняет как глобальное редактирование стиля, так и точечные локальные модификации - замену объектов, изменение их атрибутов, добавление и удаление элементов. Модель построена на базе Wan2.2 и VACE. Исследователи использовали метод modality curriculum learning: постепенный переход от обучения с визуальными референсами к работе только с текстом
Editto показывает state-of-the-art результаты по всем метрикам: CLIP-T: 25.54 vs 23.56 (следование инструкциям у InsViE), CLIP-F: 99.03 vs 98.78 (темпоральная согласованность)
User study (1000 оценок): 3.85 vs 2.28 за точность редактирования. Примеры редактирования - на странице проекта.
Код, датасет и веса доступны на GitHub и HuggingFace.
#Stateoftheart
QeRL комбинирует квантизацию NVFP4 с низкоранговой адаптацией LoRA, ускоряя критически важную фазу генерации выборок (rollout) и снижая потребление памяти на 50-60%. Впервые стало возможным обучать 32B модель с подкреплением на одном GPU H100, вместо 2-3 GPU, необходимых для стандартных подходов.
Важное открытие исследования: шум квантизации, который традиционно считается недостатком, в контексте RL становится преимуществом. Квантизованная модель вносит небольшие систематические ошибки во время прямого прохода, которые увеличивают энтропию вероятностного распределения над токенами. Вместо концентрации вероятности на одном "оптимальном" токене, модель рассматривает более широкий спектр вариантов, что улучшает поиск лучших стратегий решения задач.
На модели Qwen2.5-7B-Instruct QeRL достигает 90.8% точности на математическом бенчмарке GSM8K против 88.1% у 16-битного LoRA и 85.0% у QLoRA, скорость при этом в 1.5-2 раза выше.
При стоимости H100 в облаке $2-4 за GPU-час, экономия составляет около $1,000 на один эксперимент или $10,000-$50,000 на полный исследовательский проект с множественными итерациями.
Фреймворк выпущен под открытой лицензией Apache 2.0 на GitHub.
#Stateoftheart
QeRL комбинирует квантизацию NVFP4 с низкоранговой адаптацией LoRA, ускоряя критически важную фазу генерации выборок (rollout) и снижая потребление памяти на 50-60%. Впервые стало возможным обучать 32B модель с подкреплением на одном GPU H100, вместо 2-3 GPU, необходимых для стандартных подходов.
Важное открытие исследования: шум квантизации, который традиционно считается недостатком, в контексте RL становится преимуществом. Квантизованная модель вносит небольшие систематические ошибки во время прямого прохода, которые увеличивают энтропию вероятностного распределения над токенами. Вместо концентрации вероятности на одном "оптимальном" токене, модель рассматривает более широкий спектр вариантов, что улучшает поиск лучших стратегий решения задач.
На модели Qwen2.5-7B-Instruct QeRL достигает 90.8% точности на математическом бенчмарке GSM8K против 88.1% у 16-битного LoRA и 85.0% у QLoRA, скорость при этом в 1.5-2 раза выше.
При стоимости H100 в облаке $2-4 за GPU-час, экономия составляет около $1,000 на один эксперимент или $10,000-$50,000 на полный исследовательский проект с множественными итерациями.
Фреймворк выпущен под открытой лицензией Apache 2.0 на GitHub.
#Stateoftheart
Китайские исследователи представили StockBench — первый бенчмарк для тестирования LLM-агентов в реальной биржевой торговле. 14 моделей управляли портфелем в $100,000 на NYSE в течение 4 месяцев с марта по июнь 2025 года.
В результате в топ-3 по эффективности оказались:
- Kimi-K2 — доходность 1.9%, просадка -11.8%, Sortino 0.042, на 40% выше конкурентов. Коэффициент Sortino показывает способность управлять рисками;
- Qwen3-235B-Ins — доходность 2.4%, просадка -11.2% (лучшая защита капитала);
- GLM-4.5 — доходность 2.3%, просадка -13.7%.
GPT-5 оказалась на 9 месте с доходностью 0.3% — на уровне пассивной стратегии buy-and-hold (0.4%). Claude-4 на 7 месте.
Reasoning-модели торгуют агрессивнее: Qwen3-Think показала максимальную доходность 2.5%, но просадка -14.9% против -11.2% у Instruct-версии.
Все модели провалились на медвежьем рынке, уступив базовой стратегии. Размер модели имеет большое значение: портфель самой компактной GPT-OSS-20B просел -2.8%, единственная с отрицательным Sortino.
Код для воспроизведения экспериментов доступен на GitHub.
#Benchmark
17 октября в Москве пройдет CrossConf — главная конференция по кроссплатформенным технологиям в России и СНГ. В программе потока AI:
▪️доклады про модные многоагентные системы, практичный AGI, нестандартные применения LLM, ИИ в транспорте и на кроссплатформе
▫️Лучшие кейсы от спикеров: Вадима Кондаратцева из Friflex, Дмитрия Сошникова из МАИ и Yandex Cloud, Сергея Маркова из Сбера, Дмитрия Тенькова из Centicore Group, Анны Жарковой из Usetech
▪️Vibe-хакатон 2025. Это соревнование, которое объединит ИИ, генеративное программирование и креативный подход по решению кейса от Okko
▫️А еще: нетворкинг, призы, активности от партнеров и вечеринка
⭐️Успейте поймать билеты со скидкой 20% по промокоду CrossConf20
📅 17 октября, Москва, конгресс-холл МГТУ им. Баумана
🔗Билеты — на сайте CrossConf
На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской.
На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных.
С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики:
➡️ Аналитика данных.
➡️ Data Science.
➡️ Инженерия данных.
🎓 После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио.
Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://tglink.io/0303627f548c?erid=2W5zFHXJBJx ❤️
Команда Shanghai AI Lab представила MinerU2.5 — VL-модель с 1.2B параметров для высокоточного парсинга PDF документов. Вместо пайплайна моделей используется единая VL-модель и двухэтапная стратегия обработки: анализ структуры на уменьшенном изображении и детальное распознавание фрагментов в исходном разрешении. Архитектура оптимизирована для RAG систем и подготовки обучающих данных для LLM — сохраняет семантическую целостность таблиц, формул и структуры документов.
MinerU показывает лучшие результаты на бенчмарке OmniDocBench (90.67) среди всех моделей, превосходит Gemini-2.5 Pro, GPT-4o, Qwen2.5-VL-72B и специализированные модели: MonkeyOCR, dots.ocr. Скорость обработки выше конкурентов: 2337 т/с на A100 (2.12 страницы в секунду) — в 4 раза быстрее MonkeyOCR-Pro-3B и в 7 раз быстрее dots.ocr. Модель в 60 раз компактнее Qwen2.5-VL-72B при сопоставимом качестве.
Код доступен на GitHub под лицензией Apache 2.0, веса модели — на Hugging Face.
#Stateoftheart
Отзывы канала
всего 12 отзывов
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Neurohive - Нейроcети, Data Science, Machine Learning, AI — это Telegam канал в категории «Наука и технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 4.7K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 22.8, количество отзывов – 12, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 8391.6 ₽, а за 60 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий