
- Главная
- Каталог
- Наука и технологии
- Neurohive - Нейроcети, Data Science, Machine Learning, AI
Neurohive - Нейроcети, Data Science, Machine Learning, AI
Статьи про нейросети, машинное обучение (machine learning), data science, анализ данных, big data, стартапы, искусственный интеллект, AI, NLP.
Канал для data science энтузиастов про свежие исследования, методы, приложения и новости в области нейросетей. Авторский канал, контент уникальный.
Статистика канала
Исследователи из Пекинского университета и ByteDance выпустили Helios — открытую 14B-модель, которая генерирует видео в реальном времени - 19,5 кадров в секунду, длительностью больше минуты. Для сравнения, базовая модель Wan-2.1 14B тратит около 17 минут на 5-секундный клип. Helios делает то же самое в 128 раз быстрее — и при этом генерирует видео длиной в минуту без деградации качества. Helios работает в трех режимах: text-to-video, image-to-video, video-to-video.
Исследователям это удалось без KV-cache, квантования и sparse attention. Токены сжимаются в 8 раз: чем старше кадр, тем ниже его разрешение. Диффузионное сэмплирование идёт от низкого разрешения к высокому, сокращая токены ещё в 2,3 раза. Дистилляция урезает шаги сэмплирования с 50 до 3. Накопление ошибок при длинных видео решается тремя приёмами: относительное позиционное кодирование, первый кадр как визуальный якорь на всё видео, и намеренное зашумление предыдущих кадров во время обучения.
На коротких видео (81 кадр) Helios-Distilled обходит все дистиллированные модели и не уступает базовым того же размера — при скорости 19,53 FPS на одной H100. FastVideo и TurboDiffusion работают в 2–3 раза медленнее, Wan 2.1 14B — в 52 раза.
На длинных (1440 кадров, ~74 секунды при 19,5 FPS) Helios-Distilled показывает лучший суммарный результат с учётом скорости, при этом накопление ошибок ниже по большинству метрик — сцена не плывёт, цвета не уходят на протяжении тысяч кадров. Пользовательское тестирование на 200 человек подтверждает: Helios побеждает в 70–92,5% попарных сравнений на длинных видео и в 56–99,2% — на коротких.
Исследователи опубликовали код на GitHub, а также демо и веса трёх версий модели на Hugging Face.
#Stateoftheart
Хотите собирать AI-агентов и RAG-сервисы так, чтобы это стабильно работало в эксплуатации: с метриками, оценкой качества, контролем стоимости и нормальным деплоем? Этот курс — полный путь от прототипа к прод-сервису.
Агенты: LangGraph/AutoGen, роли/состояния, FSM/DAG, параллелизм
RAG: hybrid retrieval + rerank (Qdrant/FAISS/Weaviate)
Надёжность: таймауты, ретраи, идемпотентность, DLQ
Eval/качество: golden-сеты, LLM-judge, pass@k, quality-гейты
Observability: логи/трейсы, OpenTelemetry, Prometheus/Grafana
Security: строгий JSON (Pydantic), guardrails, PII, RBAC/ABAC
🎓 Сертификат Stepik — добавьте в резюме или LinkedIn
🚀 Скидка 25% по ссылке — действует 48ч
👉 Забрать курс на Stepik
Команда из 50+ исследователей из Berkeley, Stanford, CMU и Oxford опубликовала датасет Very Big Video Reasoning (VBVR) — и дообученная на нём модель Wan2.2 обогнала Sora 2 и Veo 3.1 в задачах на рассуждение.
Sora, Veo, Kling умеют делать красивое видео. Но они проваливаются в задачах, где требуется провести агента через лабиринт или предсказать, как упадёт мяч после броска. Проблема не в качестве картинки, а в том, что модели не умеют рассуждать. И данных для обучения этому навыку почти не было: все существующие датасеты для видеорассуждения вместе содержат около 12 800 размеченных задач с правильными ответами.
VBVR — это 2 015 000 примеров. В 157 раз больше.
Авторы взяли за основу когнитивную науку и выделили пять способностей: восприятие, трансформацию, пространственность, абстракцию и знание. Под каждую написали параметрические генераторы — программы, которые автоматически создают задачи и сразу считают правильный ответ. 990 серверов AWS Lambda генерируют миллион примеров за 2-4 часа. На вход принимается текст и изображение, на выходе - видео с решением и последний кадр видео.
Wan2.2, дообученная на VBVR, набрала 0,685 из 1,0 на бенчмарке VBVR-Bench, который оценивает способность видеомоделей решать логические задачи. Для сравнения: Sora 2 — 0,546, Veo 3.1 — 0,480, человек — 0,974.
Разница между открытой дообученной моделью и лучшими закрытыми коммерческими заметная. При этом Wan2.2 научилась делать ровно то, что просят: удалить символ — только его, повернуть объект — только его, не трогая рамку. Sora 2 на тех же задачах добавляла лишние действия или теряла контроль над сценой.
Проект полностью открытый — датасет, веса и код на Github и Hugging Face под лицензией Apache 2.0.
#Stateoftheart #Benchmark #Dataset
Baichuan-M3 ведет себя как опытный терапевт — методично выясняет детали: когда именно началась боль, какого она характера, есть ли сопутствующие симптомы, какие лекарства принимались, были ли подобные эпизоды раньше. Только собрав достаточно клинической информации, поставит диагноз и пропишет лечение. Baichuan-M3 — первая модель такого класса, которую можно скачать, развернуть и независимо проверить.
Модель использует многоэтапное рассуждение, связывая разрозненные симптомы в логичную диагностическую картину точно так же, как это делают врачи. На вход принимается только текст.
Baichuan-M3 обучалась по трёхэтапной схеме:
— Task-Specific RL создаёт отдельных «экспертов» по опросу, консультациям и клиническому рассуждению;
— Offline Policy Distillation объединяет экспертов без катастрофического забывания;
— Multi-Teacher Online Distillation донастраивает модель в реалистичных клинических сценариях.
Для обучения диалогу разработан алгоритм SPAR, который оценивает каждую реплику отдельно, а не консультацию целиком. Это позволяет устранять логические ошибки, повторы и некорректные медицинские формулировки точечно. Благодаря методу Fact-Aware Reinforcement Learning ошибки в диагнозах и лечении штрафуются сильнее, чем неточности в общих рекомендациях, что резко снижает риск опасных галлюцинаций.
На тестах Baichuan-M3 показывает результаты выше GPT-5-High и людей-врачей. На ScanBench (клинический опрос) 74.9 против 62.5 у GPT-5.2-High и 54.6 у людей. На HealthBench-Hard: 44.4 против 42.0 у GPT-5.2-High. Галлюцинации в ответах - 3.5%, что лучше всех конкурентов.
Модель 235B, W4-квантованная версия и веса доступны на Hugging Face и GitHub под лицензией Apache 2.0.
#Benchmark #Stateoftheart
Baichuan-M3 ведет себя как опытный терапевт — методично выясняет детали: когда именно началась боль, какого она характера, есть ли сопутствующие симптомы, какие лекарства принимались, были ли подобные эпизоды раньше. Только собрав достаточно клинической информации, поставит диагноз и пропишет лечение. Baichuan-M3 — первая модель такого класса, которую можно скачать, развернуть и независимо проверить.
Модель использует многоэтапное рассуждение, связывая разрозненные симптомы в логичную диагностическую картину точно так же, как это делают врачи. На вход принимается только текст.
Baichuan-M3 обучалась по трёхэтапной схеме:
— Task-Specific RL создаёт отдельных «экспертов» по опросу, консультациям и клиническому рассуждению;
— Offline Policy Distillation объединяет экспертов без катастрофического забывания;
— Multi-Teacher Online Distillation донастраивает модель в реалистичных клинических сценариях.
Для обучения диалогу разработан алгоритм SPAR, который оценивает каждую реплику отдельно, а не консультацию целиком. Это позволяет устранять логические ошибки, повторы и некорректные медицинские формулировки точечно. Благодаря методу Fact-Aware Reinforcement Learning ошибки в диагнозах и лечении штрафуются сильнее, чем неточности в общих рекомендациях, что резко снижает риск опасных галлюцинаций.
На тестах Baichuan-M3 показывает результаты выше GPT-5-High и людей-врачей. На ScanBench (клинический опрос) 74.9 против 62.5 у GPT-5.2-High и 54.6 у людей. На HealthBench-Hard: 44.4 против 42.0 у GPT-5.2-High. Галлюцинации в ответах - 3.5%, что лучше всех конкурентов.
Модель 235B, W4-квантованная версия и веса доступны на Hugging Face и GitHub под лицензией Apache 2.0.
#Benchmark #Stateoftheart
ABC-Bench — первый бенчмарк, который проверяет способность ИИ-агентов решать полноценные задачи backend-разработки: от изучения кода в репозитории до настройки окружения и запуска сервиса в контейнере. Исследователи опубликовали код платформы оценки на Github, а датасет доступен на Hugging Face.
ABC-Bench проверяет полный цикл: агент должен изучить структуру репозитория, понять, что нужно исправить, написать код, настроить зависимости, создать Dockerfile, и в конце система запускает сервис в Docker-контейнере и проверяет его работу через HTTP-запросы к API.
Бенчмарк содержит 224 задачи, покрывающие 8 языков программирования (C#, JavaScript, Python, Java, Ruby, PHP, Go, Rust) и 19 фреймворков (ASP.NET Core, Express, FastAPI, Spring Boot, Ruby on Rails и другие), включающие домены от аналитики и e-commerce до DevTools и систем аутентификации. Задачи собраны на основе данных из открытых репозиториев Github.
На бенчмарке проверили 11 моделей с помощью фреймворка OpenHands, каждую задачу модель могла пробовать решить три раза. Лучший результат показал Claude Sonnet 4.5 с 63.2% решенных задач. DeepSeek-V3.2 набрал около 50%, GPT-5 — 49.4%. Маленькие модели вроде Qwen3-8B не дотянули даже до 10%. GPT-5 и DeepSeek-V3.2 демонстрируют дисбаланс: они отлично справляются с написанием кода (>80%), но проваливаются на этапе настройки окружения (<50%).
#Benchmark
Команда Shanghai AI Laboratory и Fudan University представила Yume1.5 — открытую модель для генерации бесконечных интерактивных видео-миров с управлением WASD и стрелками, как в играх от первого лица. Модель превосходит конкурентов в скорости в 70 раз: 6-секундное видео генерируется за 8 секунд против 572-971 у конкурентов.
Yume1.5 на базе Wan2.2-5B генерирует видео 544×960 с 12 fps на одной A100, используя всего 4 шага диффузии вместо стандартных 50. Модель поддерживает три режима: генерацию мира из текста, из изображения и внесение изменений в мир текстом.
Метод использует TSCM (Temporal-Spatial-Channel Modeling) — двойное параллельное сжатие исторических кадров. Для временно-пространственного сжатия недавние кадры сжимаются меньше (1,2,2), старые сильнее (1,8,8). Одновременно канальное сжатие до 96 каналов обрабатывается через линейное внимание. Self-Forcing с дистилляцией уменьшает накопление ошибок, используя собственные сгенерированные кадры как контекст.
На тестах в следовании инструкциям модель показала 0.836, значительно превзойдя Matrix-Game (0.271) и Wan-2.1 (0.057).
Исследователи опубликовали код и датасет на Github. Веса модели обещают выложить в ближайшее время.
#Stateoftheart
Исследователи из Oxford, NUS и CUHK представили Video Reality Test — первый бенчмарк для тестирования способности VLM отличать настоящие ASMR-видео от сгенерированных. Одновременно проверялась способность моделей генерировать фейки.
До реального понимания достоверности и создания неотличимого от реальности контента моделям еще далеко. 11 моделей анализировали 149 популярных ASMR-видео с Youtube и их вариации, которые создали 7 видео-генераторов.
Video Reality Test выявил три критические проблемы современных VLM: они излишне полагаются на водяные знаки, систематически склонны классифицировать большинство видео как настоящие, и плохо используют несоответствия между звуком и изображением для детекции фейков.
Люди показали лучший результат, правильно распознав как фейки 89.11% видео.
Топ-3 детекторов (VLM)
- Gemini-3-Pro — 76.27% точности;
- GPT-5 — 67.14% точности, но зависим от водяных знаков;
- Gemini-2.5-Pro — 67.34% точности, с аудио 68.44%.
Топ-3 генераторов (VGM) по реалистичности
- Veo3.1-Fast — только 12.54% видео от этой модели другие модели распознали как фейки;
- HunyuanVideo-I2V — 14.77%;
- Wan2.2-A14B — 16.10% (лучшая опенсорс-модель).
Qwen3-VL-30B на 12 месте с точностью 54.87% — на уровне случайного угадывания (50%).
GPT-5 показал 95.43% точности на видео Sora2 с водяным знаком, но после его удаления рухнул до 53.4%. Gemini-2.5-Pro аналогично: с 84.5% до 56.0%. Модели используют водяные знаки как прямое указание вместо анализа качества видео.
Код и примеры доступны на Github проекта.
#Benchmark
Команда Tongyi Lab из Alibaba, Университета Цинхуа и Гонконгского университета представила Wan-Move — открытую модель для точного управления движением в генеративных видео. В пользовательских тестах модель превзошла коммерческий Kling 1.5 Pro по качеству движения и может применяться для создания маркетингового контента, анимации и обучающих материалов, где критичен контроль траекторий объектов.
Wan-Move генерирует 5-секундные видео 480p без дополнительных энкодеров, не требуя изменений архитектуры базовой модели Wan-I2V-14B.
Метод использует траектории точек: для каждой траектории модель копирует признаки из стартовой позиции первого кадра во все соответствующие позиции последующих кадров в латентном пространстве. Скопированные признаки сохраняют визуальный контекст (объекты, текстуры, цвета) и одновременно задают направление движения.
В тесте, где пользотелям предлагали выбрать лучший вариант из двух генераций, Wan-I2V-14B превзошла Kling 1.5 Pro по качеству движения в 53.4% случаев, а другие открытые методы в 96% случаев.
Модель Wan-Move-14B-480P доступна на GitHub, веса на Hugging Face под лицензией Apache 2.0.
#Stateoftheart
Отзывы канала
всего 12 отзывов
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Neurohive - Нейроcети, Data Science, Machine Learning, AI — это Telegam канал в категории «Наука и технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 4.6K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 12.4, количество отзывов – 12, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 8391.6 ₽, а за 61 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий