
- Главная
- Каталог
- Наука и технологии
- Neurohive - Нейроcети, Data Science, Machine Learning, AI
Neurohive - Нейроcети, Data Science, Machine Learning, AI
Статьи про нейросети, машинное обучение (machine learning), data science, анализ данных, big data, стартапы, искусственный интеллект, AI, NLP.
Канал для data science энтузиастов про свежие исследования, методы, приложения и новости в области нейросетей. Авторский канал, контент уникальный.
Статистика канала
Исследователи из Fudan University опубликовали PixelSmile — диффузионную модель для редактирования эмоций на фото и аниме. PixelSmile не просто добавляет эмоцию, но и плавно управляет степенью её выраженности, а также позволяет смешивать несколько эмоций одновременно. Поддерживается 12 эмоций: радость, грусть, злость, удивление, страх, отвращение, тревога, презрение, уверенность, застенчивость, сонливость, растерянность.
PixelSmile построена на базе Qwen-Image-Edit-2511. На вход подаётся одно изображение с лицом и название целевой эмоции. Степень выраженности управляется через коэффициент интенсивности α от 0 до 1.
Для оценки результатов авторы представили бенчмарк FFE-Bench, он содержит 198 задач для оценки - 98 реальных портретов и 100 аниме. PixelSmile показала лучший результат в точности редактирования эмоций среди всех моделей - 0.8627, включая Nano Banana Pro (0.8431) и GPT-Image (0.8039). В плавном управлении интенсивностью эмоций PixelSmile тоже впереди: CLS-6 0.808 против 0.560 у SliderEdit и отрицательного значения у K-Slider. Это значит, что у конкурентов выраженность эмоций при увеличении α ведет себя более непредсказуемо.
Код модели опубликован на GitHub, веса и бенчмарк на Hugging Face.
#Stateoftheart
Исследователи из StepFun и Китайской академии наук выпустили RealRestorer — открытую модель, которая убирает размытость, шум, дождь, дымку, муар, артефакты сжатия и засветку от объектива. Результаты на тестах превосходят все открытые модели и близки к закрытым Nano Banana Pro и GPT-Image-1.5.
Модель построена на базе Step1X-Edit (архитектура FLUX DiT) и управляется текстовыми промптами — например, «Убери размытость с изображения и сделай его чётче». RealRestorer обучалась в два этапа на датасете из 1,65 миллиона пар изображений — 95% синтетика, 5% реальные деградированные фото из интернета. Для запуска нужна видеокарта с 34+ ГБ VRAM и Python 3.12. Квантованных версий пока нет.
На бенчмарке FoundIR с реальными снимками модель обогнала закрытую Nano Banana Pro по метрике PSNR — 21,45 дБ против 20,37 дБ. Разница больше 1 дБ заметна невооружённым глазом. На втором бенчмарке — RealIR-Bench — RealRestorer занял первое место среди всех открытых решений и отстал от Nano Banana Pro всего на 0,007 балла. На пользовательских тестах Nano Banana впереди - 32% против 21,5%, у GPT-Image-1.5 результат 23,8%.
Код модели, веса, датасет и бенчмарк опубликованы на GitHub и Hugging Face под некоммерческой лицензией. На HF есть бесплатная демо-версия.
#Stateoftheart
Исследователи из CUHK MMLab представили OpenGame — открытый агентный фреймворк для создания 2D-игр. Пользователь пишет идею, агент самостоятельно генерирует код, графику и музыку. На выходе получается работающая браузерная игра.
Фреймворк состоит из трёх компонентов:
1. Модель GameCoder-27B, обученная на базе Qwen3.5-27B на репозиториях Phaser/JavaScript в три этапа: дообучение на корпусе без разметки, обучение с учителем, обучение с подкреплением.
2. Агентный пайплайн из 6 фаз: классификация типа игры, построение каркаса проекта (scaffolding), генерация геймдизайн-документа, создание мультимодальных ассетов (изображения, музыка), написание кода, верификация с самоисправлением через запуск билда в браузере.
3. Механизм итеративного улучшения GameSkill. Агент учится на своих ошибках. Механизм Debug Skill ведёт «живой» протокол отладки: каждый раз, когда что-то ломается, агент записывает сигнатуру ошибки, причину и проверенное исправление.
По мере решения задач фреймворк выделяет переиспользуемые фрагменты и добавляет их в библиотеку. В результате возникли пять классов: платформер с гравитацией, top-down с непрерывным движением, grid-механика, tower defense с волнами врагов и UI-ориентированные игры.
На бенчмарке OpenGame-Bench из 150 игр конфигурация OpenGame с Claude Sonnet 4.6 в качестве движка рассуждений показывает SOTA результат: корректность сборки 72.4, визуальная читаемость 67.2, соответствие замыслу 65.1 — на 5–6 пунктов выше Cursor с тем же бэкендом. GameCoder-27B превосходит все открытые модели при значительно меньшем размере.
Код, веса GameCoder-27B и датасеты доступны на GitHub.
#Stateoftheart
Команда Shanghai AI Lab и Пекинского университета представила MinerU-Diffusion — 2.5B-модель для парсинга документов, которая заменяет авторегрессивное декодирование параллельным диффузионным. Вместо генерации текста токен за токеном модель стартует с полностью замаскированной последовательности и восстанавливает все токены параллельно за несколько итераций. Порядок токенов в документе — это инженерное решение при подготовке данных, а не свойство задачи, поэтому их можно восстанавливать одновременно, а не строго слева направо.
Исследователи считают диффузионный подход принципиально более подходящим для OCR: текст в документе — это детерминированное отображение визуального контента, а не вероятностная языковая генерация.
MinerU-Diffusion по точности практически не уступает авторегрессионной MinerU2.5 — 93.37 против 93.44 на OmniDocBench с разметкой, 88.94 против 90.67 без. Зато работает вдвое быстрее на рабочих настройках - 108.9 против 52 TPS (токены/сек) и в 3.2× быстрее на пиковых - 164.8 TPS. PaddleOCR-VL показывает скорость 40.77 TPS.
По конкретным задачам результаты неоднородные. Формулы: 91.6 против 96.6 у MinerU2.5 на сложных печатных выражениях — заметный разрыв. Таблицы: 88.66 против 90.62 TEDS-S — разрыв небольшой. Финансовые отчёты — лучший результат среди всех моделей в тесте. Слайды и рукописные заметки — слабое место: нестандартная верстка требует точной детекции разметки, которая пока остаётся узким местом.
Код модели доступен на GitHub, веса модели — на Hugging Face.
#Stateoftheart
Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео и синхронное аудио и создает 5-секундный клип в 256p за 2 секунды на одном GPU H100. Базовая модель, дистиллированная версия, модуль суперразрешения и код для запуска доступны на GitHub и Hugging Face под лицензией Apache 2.0. Демо-версия выложена на HF Spaces.
Текст, видео и аудио просто складываются в одну последовательность токенов и прогоняются через единый трансформер с самовниманием. Никакого перекрёстного внимания, никаких отдельных блоков слияния модальностей. Это однопоточная архитектура, и главный её плюс — простота оптимизации как на уровне модели, так и на уровне инфраструктуры.
На одном GPU H100 дистиллированная модель генерирует 5-секундное видео в 256p за 2 секунды, в 540p — за 8 секунд, в 1080p — за 38.4 секунды.
В попарной оценке на 2000 сравнений модель обошла конкуретнов в 80% случаев против Ovi 1.1 и в 60.9% против LTX 2.3. По разборчивости сгенерированной речи daVinci-MagiHuman тоже впереди — WER 14.60% против 40.45% у Ovi 1.1. Модель поддерживает китайский, английский, японский, корейский, немецкий и французский.
#Stateoftheart
Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео и синхронное аудио и создает 5-секундный клип в 256p за 2 секунды на одном GPU H100. Базовая модель, дистиллированная версия, модуль суперразрешения и код для запуска доступны на GitHub и Hugging Face под лицензией Apache 2.0. Демо-версия выложена на HF Spaces.
Текст, видео и аудио просто складываются в одну последовательность токенов и прогоняются через единый трансформер с самовниманием. Никакого перекрёстного внимания, никаких отдельных блоков слияния модальностей. Это однопоточная архитектура, и главный её плюс — простота оптимизации как на уровне модели, так и на уровне инфраструктуры.
На одном GPU H100 дистиллированная модель генерирует 5-секундное видео в 256p за 2 секунды, в 540p — за 8 секунд, в 1080p — за 38.4 секунды.
В попарной оценке на 2000 сравнений модель обошла конкуретнов в 80% случаев против Ovi 1.1 и в 60.9% против LTX 2.3. По разборчивости сгенерированной речи daVinci-MagiHuman тоже впереди — WER 14.60% против 40.45% у Ovi 1.1. Модель поддерживает китайский, английский, японский, корейский, немецкий и французский.
#Stateoftheart
Zhipu AI опубликовали техрепорт GLM-5 — на сегодня лучшей открытой LLM в индексе Artificial Analysis и топ-1 в кодинге и тексте на LMArena, лидер на бенчмарках BrowseComp и HLE с инструментами среди всех моделей, включая закрытые. Модель умеет писать код, искать информацию в интернете, генерировать презентации и выполнять многошаговые задачи с рассуждениями.
Авторы называют GLM-5 переходом от «вайб-кодинга» к агентной инженерии. Получив задачу, GLM-5 сама анализирует репозиторий, пишет патч, запускает тесты, видит ошибки и исправляет их — пока задача не выполнена. Такое поведение стало результатом агентного обучения с подкреплением на более чем 10000 задач из открытых репозиториев. Чтобы это обучение стало возможным в разумные сроки, авторы разработали асинхронную RL-инфраструктуру: инференс и обучение разведены на разные GPU. В обычном синхронном RL GPU простаивают, пока модель медленно проходит длинный агентный роллаут. Асинхронное разделение убирает эти простои и существенно ускоряет итерации.
GLM-5 — это Mixture of Experts модель с 744B параметров, из которых в каждый момент активны только 40B. Это в два раза больше предшественника GLM-4.5 (355B/32B). Исследователи применили DSA (DeepSeek Sparse Attention) - разреженный механизм внимания, который вместо того чтобы смотреть на все токены в контексте, динамически выбирает только важные. MLA-256 (Multi-Latent Attention) с оптимизацией Muon Split сжимает ключи и значения в attention до компактного скрытого вектора, что экономит память. Multi-Token Prediction (MTP) с разделением параметров позволяет модели предсказывать несколько токенов за один шаг, что ускоряет генерацию: 2.76 токена против 2.55 у DeepSeek-V3.2. Для агентных задач доступны три режима мышления.
На реальных задачах разработки (CC-Bench-V2) GLM-5 достигает 98% Build Success Rate и конкурирует с Claude Opus 4.5 по частичному выполнению задач (71.0% vs 70.7% на React). Но довести сложную задачу до полного завершения пока сложнее: 34.6% против 39.7% у Claude.
Полная модель в BF16 весит 1.65 ТБ — для продакшна нужно 8× H200. FP8-версия вдвое легче и влезает в 8× H100 или H20 с минимальными потерями качества. Для экспериментов подойдет 2-bit GGUF от Unsloth на 241 ГБ: запускается на Mac с 256 ГБ unified-памяти или на сервере с GPU 24 ГБ + 256 ГБ RAM.
Код, веса и документация доступны на GitHub и Hugging Face под лицензией MIT.
#Stateoftheart
Zhipu AI опубликовали техрепорт GLM-5 — на сегодня лучшей открытой LLM в индексе Artificial Analysis и топ-1 в кодинге и тексте на LMArena, лидер на бенчмарках BrowseComp и HLE с инструментами среди всех моделей, включая закрытые. Модель умеет писать код, искать информацию в интернете, генерировать презентации и выполнять многошаговые задачи с рассуждениями.
Авторы называют GLM-5 переходом от «вайб-кодинга» к агентной инженерии. Получив задачу, GLM-5 сама анализирует репозиторий, пишет патч, запускает тесты, видит ошибки и исправляет их — пока задача не выполнена. Такое поведение стало результатом агентного обучения с подкреплением на более чем 10000 задач из открытых репозиториев. Чтобы это обучение стало возможным в разумные сроки, авторы разработали асинхронную RL-инфраструктуру: инференс и обучение разведены на разные GPU. В обычном синхронном RL GPU простаивают, пока модель медленно проходит длинный агентный роллаут. Асинхронное разделение убирает эти простои и существенно ускоряет итерации.
GLM-5 — это Mixture of Experts модель с 744B параметров, из которых в каждый момент активны только 40B. Это в два раза больше предшественника GLM-4.5 (355B/32B). Исследователи применили DSA (DeepSeek Sparse Attention) - разреженный механизм внимания, который вместо того чтобы смотреть на все токены в контексте, динамически выбирает только важные. MLA-256 (Multi-Latent Attention) с оптимизацией Muon Split сжимает ключи и значения в attention до компактного скрытого вектора, что экономит память. Multi-Token Prediction (MTP) с разделением параметров позволяет модели предсказывать несколько токенов за один шаг, что ускоряет генерацию: 2.76 токена против 2.55 у DeepSeek-V3.2. Для агентных задач доступны три режима мышления.
На реальных задачах разработки (CC-Bench-V2) GLM-5 достигает 98% Build Success Rate и конкурирует с Claude Opus 4.5 по частичному выполнению задач (71.0% vs 70.7% на React). Но довести сложную задачу до полного завершения пока сложнее: 34.6% против 39.7% у Claude.
Полная модель в BF16 весит 1.65 ТБ — для продакшна нужно 8× H200. FP8-версия вдвое легче и влезает в 8× H100 или H20 с минимальными потерями качества. Для экспериментов подойдет 2-bit GGUF от Unsloth на 241 ГБ: запускается на Mac с 256 ГБ unified-памяти или на сервере с GPU 24 ГБ + 256 ГБ RAM.
Код, веса и документация доступны на GitHub и Hugging Face под лицензией MIT.
#Stateoftheart
В программе — два трека: технический и бизнесовый.
На бизнес-треке обсудят, как внедрять ИИ в процессы компании, считать эффект и управлять результатом:
🔹 Data Sapiens — из каких компонентов состоит современный стек для разработки и внедрения LLM-агентов, с чего начать и каких результатов ожидать.
🔹 Альфа-Банк — про реальных агентов в продакшене: от анализа логов и проверки кода до разбора ошибок и маршрутизации задач
🔹 Just AI — как довести пилот до производственного решения и не попасть в 95% проектов, которые не дают измеримого результата
🔹 X5 Digital — как выстроить базу знаний через технологию умного поиска и перестать терять время на поиск информации внутри компании
🔹 Axenix — про экономику ИИ-агентов: сколько стоит внедрение, какой эффект дают агенты в разных сферах и какие риски за собой влекут
На техническом треке — как все устроено под капотом:
🔹 Selectel — как выбрать серверное железо под разные ИИ-нагрузки
🔹 AvitoTech — как построить единую платформу машинного обучения и не наступить на типичные грабли
🔹 Wildberries — про интерпретируемость языковых моделей и безопасное использование генеративных технологий
🔹 red_mad_robot — инженерия ИИ-агентов и критерии готовности компании к работе с ними
🔹 Chaitex — про китайские видеокарты как реальную альтернативу в российской ИИ-инфраструктуре
Присоединяйтесь к трансляции.
Зал №1: главный доклад, бизнес-трек и дискуссия
✔ Смотреть трансляцию в VK
✔ Смотреть трансляцию на YouTube
Зал №2: технический трек
✔ Смотреть трансляцию в VK
✔ Смотреть трансляцию на YouTube
Реклама, АО «Селектел», erid: 2Vtzqwu4LyD
Исследователи из Чжэцзянского университета представили фреймворк для разработки GUI-агентов ClawGUI. ИИ-агент управляет телефоном или компьютером как человек: нажимает, скроллит, вводит текст без доступа к API.
Фреймворк состоит из трёх модулей: ClawGUI-RL для обучения с подкреплением на параллельных эмуляторах и реальных устройствах, ClawGUI-Eval для стандартизированной оценки на 6 бенчмарках, ClawGUI-Agent для деплоя на Android, HarmonyOS и iOS через 12 мессенджеров.
Модель ClawGUI-2B была обучена на базе MAI-UI-2B c использованием 64 параллельных Android-эмуляторов на 8 GPU A6000. На бенчмарке MobileWorld GUI-Only она набирает 17.1% — лучше исходной MAI-UI-2B (11.1%) того же размера, и выше Qwen3-VL-32B (11.9%) и UI-Venus-72B (16.4%).
Примечательно, что обучение 2B-модели на этом фреймворке могло обойтись авторам относительно недорого. Аренда одной A6000 в облаке стоит от $0.27/час на Thunder Compute до $0.91/час на Lambda — при 8 GPU в сумме от $2.16 до $7.28 в час.
Для прохождения коротких специализированных сценариев, таких как тестирование приложения после релиза или заполнение форм, точность после дообучения будет заметно выше, чем на универсальном бенчмарке.
Код, веса модели и датасеты доступны на GitHub и HuggingFace под лицензией Apache 2.0.
#Frameworks #Stateoftheart
Baichuan-M3 ведет себя как опытный терапевт — методично выясняет детали: когда именно началась боль, какого она характера, есть ли сопутствующие симптомы, какие лекарства принимались, были ли подобные эпизоды раньше. Только собрав достаточно клинической информации, поставит диагноз и пропишет лечение. Baichuan-M3 — первая модель такого класса, которую можно скачать, развернуть и независимо проверить.
Модель использует многоэтапное рассуждение, связывая разрозненные симптомы в логичную диагностическую картину точно так же, как это делают врачи. На вход принимается только текст.
Baichuan-M3 обучалась по трёхэтапной схеме:
— Task-Specific RL создаёт отдельных «экспертов» по опросу, консультациям и клиническому рассуждению;
— Offline Policy Distillation объединяет экспертов без катастрофического забывания;
— Multi-Teacher Online Distillation донастраивает модель в реалистичных клинических сценариях.
Для обучения диалогу разработан алгоритм SPAR, который оценивает каждую реплику отдельно, а не консультацию целиком. Это позволяет устранять логические ошибки, повторы и некорректные медицинские формулировки точечно. Благодаря методу Fact-Aware Reinforcement Learning ошибки в диагнозах и лечении штрафуются сильнее, чем неточности в общих рекомендациях, что резко снижает риск опасных галлюцинаций.
На тестах Baichuan-M3 показывает результаты выше GPT-5-High и людей-врачей. На ScanBench (клинический опрос) 74.9 против 62.5 у GPT-5.2-High и 54.6 у людей. На HealthBench-Hard: 44.4 против 42.0 у GPT-5.2-High. Галлюцинации в ответах - 3.5%, что лучше всех конкурентов.
Модель 235B, W4-квантованная версия и веса доступны на Hugging Face и GitHub под лицензией Apache 2.0.
#Benchmark #Stateoftheart
Baichuan-M3 ведет себя как опытный терапевт — методично выясняет детали: когда именно началась боль, какого она характера, есть ли сопутствующие симптомы, какие лекарства принимались, были ли подобные эпизоды раньше. Только собрав достаточно клинической информации, поставит диагноз и пропишет лечение. Baichuan-M3 — первая модель такого класса, которую можно скачать, развернуть и независимо проверить.
Модель использует многоэтапное рассуждение, связывая разрозненные симптомы в логичную диагностическую картину точно так же, как это делают врачи. На вход принимается только текст.
Baichuan-M3 обучалась по трёхэтапной схеме:
— Task-Specific RL создаёт отдельных «экспертов» по опросу, консультациям и клиническому рассуждению;
— Offline Policy Distillation объединяет экспертов без катастрофического забывания;
— Multi-Teacher Online Distillation донастраивает модель в реалистичных клинических сценариях.
Для обучения диалогу разработан алгоритм SPAR, который оценивает каждую реплику отдельно, а не консультацию целиком. Это позволяет устранять логические ошибки, повторы и некорректные медицинские формулировки точечно. Благодаря методу Fact-Aware Reinforcement Learning ошибки в диагнозах и лечении штрафуются сильнее, чем неточности в общих рекомендациях, что резко снижает риск опасных галлюцинаций.
На тестах Baichuan-M3 показывает результаты выше GPT-5-High и людей-врачей. На ScanBench (клинический опрос) 74.9 против 62.5 у GPT-5.2-High и 54.6 у людей. На HealthBench-Hard: 44.4 против 42.0 у GPT-5.2-High. Галлюцинации в ответах - 3.5%, что лучше всех конкурентов.
Модель 235B, W4-квантованная версия и веса доступны на Hugging Face и GitHub под лицензией Apache 2.0.
#Benchmark #Stateoftheart
Исследователи из Princeton выпустили OpenClaw-RL — фреймворк, который дообучает агента в фоне, пока тот отвечает на запросы, без отдельного датасета и без ручной разметки. Cигналы извлекаются автоматически в процессе диалога.
Языковые модели не меняются от разговора к разговору: веса фиксированы, и после завершения сессии ничего не сохраняется в параметрах. То, что выглядит как «запоминание» — это контекстное окно, а не обучение. OpenClaw-RL устроен иначе: он дообучает модель, запущенную на сервере пользователя, обновляя веса через градиентный спуск прямо во время использования — если пользователь переспросил, это сигнал недовольства, а если написал конкретную поправку, фреймворк извлекает из неё подсказку и обучает модель на уровне отдельных токенов.
Подключается всё это через OpenClaw — он принимает запросы в том же формате, что OpenAI API, так что переключиться и начать дообучать собственную модель можно просто сменив базовый URL. Два метода работают в паре: Binary RL оценивает каждый ход (+1/−1) и обновляет политику через PPO, тогда как Hindsight-Guided OPD конвертирует текстовые поправки пользователя в токен-уровневый сигнал — какие токены усилить, какие подавить.
В результате комбинация обоих методов за 16 взаимодействий поднимает оценку персонализации Qwen3-4B с 0.17 до 0.81, а для агента с вызовами инструментов точность выросла с 0.17 до 0.30 при добавлении пошаговых наград.
Инфраструктура поддерживает терминальных, GUI, SWE и tool-call агентов с масштабированием до 128 параллельных окружений, запускается на 8 GPU или без GPU через облачный Tinker, поддерживает LoRA. Все данные остаются на инфраструктуре пользователя.
Код фреймворка доступен на Github под лицензией Apache 2.0.
#Stateoftheart
Отзывы канала
всего 12 отзывов
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Neurohive - Нейроcети, Data Science, Machine Learning, AI — это Telegam канал в категории «Наука и технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 4.6K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 9.9, количество отзывов – 12, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 8391.6 ₽, а за 63 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий