
- Главная
- Каталог
- Наука и технологии
- Neurohive - Нейроcети, Data Science, Machine Learning, AI
Neurohive - Нейроcети, Data Science, Machine Learning, AI
Статьи про нейросети, машинное обучение (machine learning), data science, анализ данных, big data, стартапы, искусственный интеллект, AI, NLP.
Канал для data science энтузиастов про свежие исследования, методы, приложения и новости в области нейросетей. Авторский канал, контент уникальный.
Статистика канала
Исследователи из Oxford, NUS и CUHK представили Video Reality Test — первый бенчмарк для тестирования способности VLM отличать настоящие ASMR-видео от сгенерированных. Одновременно проверялась способность моделей генерировать фейки.
До реального понимания достоверности и создания неотличимого от реальности контента моделям еще далеко. 11 моделей анализировали 149 популярных ASMR-видео с Youtube и их вариации, которые создали 7 видео-генераторов.
Video Reality Test выявил три критические проблемы современных VLM: они излишне полагаются на водяные знаки, систематически склонны классифицировать большинство видео как настоящие, и плохо используют несоответствия между звуком и изображением для детекции фейков.
Люди показали лучший результат, правильно распознав как фейки 89.11% видео.
Топ-3 детекторов (VLM)
- Gemini-3-Pro — 76.27% точности;
- GPT-5 — 67.14% точности, но зависим от водяных знаков;
- Gemini-2.5-Pro — 67.34% точности, с аудио 68.44%.
Топ-3 генераторов (VGM) по реалистичности
- Veo3.1-Fast — только 12.54% видео от этой модели другие модели распознали как фейки;
- HunyuanVideo-I2V — 14.77%;
- Wan2.2-A14B — 16.10% (лучшая опенсорс-модель).
Qwen3-VL-30B на 12 месте с точностью 54.87% — на уровне случайного угадывания (50%).
GPT-5 показал 95.43% точности на видео Sora2 с водяным знаком, но после его удаления рухнул до 53.4%. Gemini-2.5-Pro аналогично: с 84.5% до 56.0%. Модели используют водяные знаки как прямое указание вместо анализа качества видео.
Код и примеры доступны на Github проекта.
#Benchmark
Команда Tongyi Lab из Alibaba, Университета Цинхуа и Гонконгского университета представила Wan-Move — открытую модель для точного управления движением в генеративных видео. В пользовательских тестах модель превзошла коммерческий Kling 1.5 Pro по качеству движения и может применяться для создания маркетингового контента, анимации и обучающих материалов, где критичен контроль траекторий объектов.
Wan-Move генерирует 5-секундные видео 480p без дополнительных энкодеров, не требуя изменений архитектуры базовой модели Wan-I2V-14B.
Метод использует траектории точек: для каждой траектории модель копирует признаки из стартовой позиции первого кадра во все соответствующие позиции последующих кадров в латентном пространстве. Скопированные признаки сохраняют визуальный контекст (объекты, текстуры, цвета) и одновременно задают направление движения.
В тесте, где пользотелям предлагали выбрать лучший вариант из двух генераций, Wan-I2V-14B превзошла Kling 1.5 Pro по качеству движения в 53.4% случаев, а другие открытые методы в 96% случаев.
Модель Wan-Move-14B-480P доступна на GitHub, веса на Hugging Face под лицензией Apache 2.0.
#Stateoftheart
Исследователи опубликовали 3 модели на 8B, 30B и 72B параметров с контекстом 256К. ИИ-агент поддерживает 3 категории иструментов:
- Linux-среда для выполнения Python кода;
- Управление файлами: агент может загружать файлы в Linux-среду с компьютера или из интернета и выгружать результаты работы;
- Поиск в Google и парсинг веб-страниц.
MiroThinker работает по парадигме ReAct — это циклический процесс «подумать–действовать–наблюдать». На каждом шаге модель анализирует текущую ситуацию и формулирует мысль, вызывает нужный инструмент, получает результат и обновляет своё понимание задачи. Этот цикл повторяется, пока задача не будет решена.
На бенчмарке GAIA (проверяет способность к многошаговому рассуждению и использованию инструментов) результат 81.9%, а на экстремально сложном Humanity’s Last Exam результат 37.7%, что выше GPT-5-high при использовании тех же инструментов.
Проект полностью открыт: код доступен на Github, веса моделей — на HuggingFace, попробовать модель можно в онлайн-демо.
#Stateoftheart
Модель P1-235B-A22B от Shanghai AI Laboratory стала первой открытой моделью, которая получила золотую медаль на IPhO 2025 — самой престижной физической олимпиаде в мире, где решение каждой задачи требует и аналитической точности, и творческого подхода.
P1 обучали исключительно с подкреплением на 5,000+ физических задач олимпиадного уровня. Базовая модель - Qwen3 с режимом развернутого мышления.
Результаты:
🥇 21.2 из 30 баллов — 3-е место после Gemini-2.5-Pro и GPT-5
🎯 12 золотых + 1 серебро на 13 олимпиадах 2024-2025
🚀 С агентной системой PhysicsMinions — 23.2 балла и общее 1-е место
Фреймворк PhysicsMinions включает агентов для логических рассуждений и проверки решений. С его помощью P1 может итеративно рассуждать, критиковать собственные решения и улучшать их, подобно тому, как работают физики-исследователи.
Модели P1 демонстрируют отличную обобщаемость. Версия 30B значительно превосходит свою базовую модель Qwen3-30B-A3B-Thinking-2507 на бенчмарках по математике, программированию и общим задачам на рассуждение. Это говорит о том, что обучение на физических задачах развивает универсальные навыки логического мышления, применимые в разных областях.
Модель, веса и код — в открытом доступе на GitHub и HuggingFace.
#Stateoftheart #Benchmark
DeepEyesV2 умеет выполнять Python-код для работы с изображениями и данными (обрезка, численный анализ, разметка), поиск по изображению через SerpAPI (топ-5 визуально похожих результатов) и текстовый поиск (топ-5 релевантных веб-страниц). Модель работает циклически: сама решает, когда и какие инструменты вызывать, получает результаты и интегрирует их в процесс рассуждения.
Исследователи сначала попробовали обучить модель Qwen2.5-VL напрямую через обучение с подкреплением (RL). Результат оказался неожиданным: на ранних этапах модель генерировала код с ошибками, затем постепенно отказывалась от инструментов и выдавала только короткие рассуждения. Поэтому исследователи применили двухэтапное обучение:
- Этап 1. Холодный старт (SFT)
Модель учится базовым паттернам использования инструментов. Датасет строго фильтруется — только сложные задачи, где вызов инструментов действительно помогает.
- Этап 2. Обучение с подкреплением
RL улучшает навыки вызова инструментов и учит адаптивному поведению.
Для оценки способностей восприятия, поиска и рассуждения был создан сложный бенчмарк RealX-Bench. 24% вопросов требуют интеграции всех трех способностей одновременно.
Результаты: RealX-Bench - 28.3% против 17% у Qwen2.5-VL-7B, MathVerse: 52.7% (+7.1 п.п.), MMSearch: 63.7% — опережает специализированную MMSearch-R1-7B модель, а иногда превосходит даже Qwen2.5-VL-32B.
Веса обученной модели доступны на HuggingFace, код обучения под лицензией Apache 2.0 на GitHub, в открытом доступе и обучающие датасеты: Cold Start данные и RL датасет.
#Stateoftheart #Benchmark
Исследователи из Center for AI Safety и Scale AI проверили, могут ли ведущие ИИ-агенты заменить фрилансеров. Они собрали 240 реальных проектов с Upwork — от создания игр до архитектурных чертежей и составления диаграмм — и создали бенчмарк Remote Labor Index. На этом бенчмарке протестировали популярные модели.
Сбор данных выглядел так: когда-то реальный заказчик дал задание фрилансеру, тот выполнил работу, клиент остался доволен и заплатил. Спустя время исследователи купили у фрилансера копию этого проекта. Теперь для теста они выдали то же самое задание и те же файлы ИИ-агентам. Работа профессионала тут играет роль "правильного ответа" — это подтверждённая рынком планка качества, которую реальный заказчик счёл достойной оплаты.
Лучший результат у Manus - он выполнил 2.5% проектов, Grok 4 и Sonnet 4.5 — по 2.1%, GPT-5 — 1.7%, ChatGPT agent — 1.3%, Gemini 2.5 Pro — 0.8%.
Когда разобрали типичные ошибки, выявилось несколько паттернов. В 45.6% случаев качество было просто плохим — примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке. В 35.7% работа была незаконченной — например, видео длиной 8 секунд вместо 8 минут. В 17.6% случаев ИИ создавал битые или пустые файлы. В 14.8% случаев разные части работы не соответствовали друг другу — например, дом выглядел по-разному на разных 3D-рендерах.
ИИ-агенты показали результаты, сравнимые с человеческими или лучше, в редактировании аудио, генерации изображений для рекламы, написании отчётов и создании интерактивных дашбордов с данными.
Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github.
#Benchmark
Глава OpenAI Сэм Альтман признался, что выражения вежливости вроде "пожалуйста" и "спасибо" обошлись компании в десятки миллионов долларов на электроэнергию.
Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) после генерации всего одного токена.
Авторы исходили из гипотезы, что log-вероятности первого токена содержат достаточно информации для классификации типа ответа. Для валидации гипотезы создан датасет размером ~3k диалогов с четырьмя классами:
- Refusal: запросы, на которые ассистент отказывается отвечать из-за внутренних механизмов безопасности;
- Thanks: диалоги, завершающиеся благодарностью пользователя;
- Hello: диалоги, начинающиеся с приветствия;
- Chat: все остальные диалоги.
Метод показывают высокую точность разделения классов: Qwen2.5-1.5B: 99.7%, DeepSeek-R1-8B: 99.8%, Gemini-2.0-Flash: 97.9%.
Метод позволяет оптимизировать вычислительные затраты путем досрочного прерывание генерации или переключение на меньшую модель. Он работает как на локальных 1B-моделях, так и проприетарных.
Датасет опубликован на HuggingFace.
#Dataset
Ditto генерирует 5-секундные ролики с 20 FPS и разрешением 1280×720 по текстовым инструкциям с согласованными результатами по всем кадрам и точной модификацией целевых объектов.
Главная проблема области — дефицит качественных обучающих данных. Исследователи создали автоматизированный пайплайн и опубликовали датасет Ditto-1M, собранный на основе стоковых видео Pexels. Создание датасета потребовало 12,000 GPU-дней, он содержит более 1 миллиона видео: 700,000 примеров глобального редактирования и 300,000 локального.
На этом датасете обучена модель Editto, которая выполняет как глобальное редактирование стиля, так и точечные локальные модификации - замену объектов, изменение их атрибутов, добавление и удаление элементов. Модель построена на базе Wan2.2 и VACE. Исследователи использовали метод modality curriculum learning: постепенный переход от обучения с визуальными референсами к работе только с текстом
Editto показывает state-of-the-art результаты по всем метрикам: CLIP-T: 25.54 vs 23.56 (следование инструкциям у InsViE), CLIP-F: 99.03 vs 98.78 (темпоральная согласованность)
User study (1000 оценок): 3.85 vs 2.28 за точность редактирования. Примеры редактирования - на странице проекта.
Код, датасет и веса доступны на GitHub и HuggingFace.
#Stateoftheart
QeRL комбинирует квантизацию NVFP4 с низкоранговой адаптацией LoRA, ускоряя критически важную фазу генерации выборок (rollout) и снижая потребление памяти на 50-60%. Впервые стало возможным обучать 32B модель с подкреплением на одном GPU H100, вместо 2-3 GPU, необходимых для стандартных подходов.
Важное открытие исследования: шум квантизации, который традиционно считается недостатком, в контексте RL становится преимуществом. Квантизованная модель вносит небольшие систематические ошибки во время прямого прохода, которые увеличивают энтропию вероятностного распределения над токенами. Вместо концентрации вероятности на одном "оптимальном" токене, модель рассматривает более широкий спектр вариантов, что улучшает поиск лучших стратегий решения задач.
На модели Qwen2.5-7B-Instruct QeRL достигает 90.8% точности на математическом бенчмарке GSM8K против 88.1% у 16-битного LoRA и 85.0% у QLoRA, скорость при этом в 1.5-2 раза выше.
При стоимости H100 в облаке $2-4 за GPU-час, экономия составляет около $1,000 на один эксперимент или $10,000-$50,000 на полный исследовательский проект с множественными итерациями.
Фреймворк выпущен под открытой лицензией Apache 2.0 на GitHub.
#Stateoftheart
QeRL комбинирует квантизацию NVFP4 с низкоранговой адаптацией LoRA, ускоряя критически важную фазу генерации выборок (rollout) и снижая потребление памяти на 50-60%. Впервые стало возможным обучать 32B модель с подкреплением на одном GPU H100, вместо 2-3 GPU, необходимых для стандартных подходов.
Важное открытие исследования: шум квантизации, который традиционно считается недостатком, в контексте RL становится преимуществом. Квантизованная модель вносит небольшие систематические ошибки во время прямого прохода, которые увеличивают энтропию вероятностного распределения над токенами. Вместо концентрации вероятности на одном "оптимальном" токене, модель рассматривает более широкий спектр вариантов, что улучшает поиск лучших стратегий решения задач.
На модели Qwen2.5-7B-Instruct QeRL достигает 90.8% точности на математическом бенчмарке GSM8K против 88.1% у 16-битного LoRA и 85.0% у QLoRA, скорость при этом в 1.5-2 раза выше.
При стоимости H100 в облаке $2-4 за GPU-час, экономия составляет около $1,000 на один эксперимент или $10,000-$50,000 на полный исследовательский проект с множественными итерациями.
Фреймворк выпущен под открытой лицензией Apache 2.0 на GitHub.
#Stateoftheart
Отзывы канала
всего 12 отзывов
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Neurohive - Нейроcети, Data Science, Machine Learning, AI — это Telegam канал в категории «Наука и технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 4.6K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 16.2, количество отзывов – 12, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 8391.6 ₽, а за 60 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий