
⚡️ Telega AI — персональный каталог и пост за 30 секунд
AI-агент подберет каналы и напишет рекламный пост на основе вашего продукта
В каталог

РегистрацияВойтиВойти
Скидка 3,5% на первые три заказа
Получите скидку на первые три заказа!
Зарегистрируйтесь и получите скидку 3,5% на первые рекламные кампании — промокод активен 7 дней.
17.2

Neurohive - Нейроcети, Data Science, Machine Learning, AI
5.0
18
Наука и технологии
919
14
Канал для data science разработчиков про нейросети. Свежие исследования, методы, приложения и новости. Авторский канал, контент уникальный.
Нейронные сети, машинное обучение (machine learning), data science, анализ данных, big data, стартапы, искусственный интеллект, AI, NLP.
ВП возможен.
Поделиться
В избранное
Купить рекламу в этом канале
Формат:
keyboard_arrow_down
- 1/24
- 2/48
- 3/72
- Нативный
- 7 дней
- Репост
1 час в топе / 24 часа в ленте
Количество:
keyboard_arrow_down
- 1
- 2
- 3
- 4
- 5
- 8
- 10
- 15
Стоимость публикации:
local_activity
7 692.30₽7 692.30₽local_mall
0.0%
Осталось по этой цене:0
Последние посты канала
imageИзображение не доступно для предпросмотра
🚀Kafka must-have инструмент для современных проектов MLOps!
Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.
🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.
🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/
👉 Запишись сейчас, количество мест ограничено!
Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.
🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.
🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/
👉 Запишись сейчас, количество мест ограничено!
378
15:30
08.07.2025
imageИзображение не доступно для предпросмотра
Работаете с FLUX, Stable Diffusion, custom LLM, или генерите видео и звук на своих пайплайнах? Знакомо, когда все виснет из-за одной лишней задачи. А еще — когда нужно быстро протестировать идею, а сервер поднимается полчаса?
В этот момент проще всего — перейти в облако ☁️
В immers.cloud можно быстро запустить мощную и стабильную GPU-машину — и сразу продолжить работу:
💰 Посекундная тарификация: тарифы от 23 руб/час, платите только за время, когда сервер реально работает.
⚡️ Быстрый старт: нужный сервер поднимается за пару минут.
📈 Гибкость и масштабируемость: 12 моделей видеокарт на выбор
🔧 Удобство: готовые образы для ваших задач, чтобы не тратить время на настройку.
А если нужно прерваться — можно просто заморозить ВМ с помощью функции Shelve: данные сохранятся, а платить за простои не придется.
🎁 Дарим +20% к первому пополнению. чтобы было приятнее начать
В этот момент проще всего — перейти в облако ☁️
В immers.cloud можно быстро запустить мощную и стабильную GPU-машину — и сразу продолжить работу:
💰 Посекундная тарификация: тарифы от 23 руб/час, платите только за время, когда сервер реально работает.
⚡️ Быстрый старт: нужный сервер поднимается за пару минут.
📈 Гибкость и масштабируемость: 12 моделей видеокарт на выбор
🔧 Удобство: готовые образы для ваших задач, чтобы не тратить время на настройку.
А если нужно прерваться — можно просто заморозить ВМ с помощью функции Shelve: данные сохранятся, а платить за простои не придется.
🎁 Дарим +20% к первому пополнению. чтобы было приятнее начать
421
12:47
23.07.2025
imageИзображение не доступно для предпросмотра
Какой путь в Data Science выбрать?
Мечтаете о карьере в DS, но не знаете, с чего начать? Давайте в первую очередь разберёмся в основных направлениях и задачах, которые решают специалисты этой сферы.
🔍 Data Scientist работает на стыке статистики, машинного обучения и программирования. Работает с массивами данных, используя алгоритмы машинного обучения, строит и тестирует математические модели поведения данных для прогнозов.
🛠 Data Engineer создаёт и поддерживает инфраструктуру big data, управляя целой экосистемой данных.
📊 Data Analyst анализирует данные по событиям, которые уже произошли, и выявляет в них закономерности, которые можно использовать в дальнейшем.
🤖 ML Engineer разрабатывает и внедряет модели ML, создавая интеллектуальные системы для прогнозов и решений.
Делимся полезной ссылкой на краткий путеводитель, где описаны первые шаги и стек для старта будущей карьеры: https://tglink.io/78525e950b69?erid=2W5zFJz7vG8
#реклама
О рекламодателе
Мечтаете о карьере в DS, но не знаете, с чего начать? Давайте в первую очередь разберёмся в основных направлениях и задачах, которые решают специалисты этой сферы.
🔍 Data Scientist работает на стыке статистики, машинного обучения и программирования. Работает с массивами данных, используя алгоритмы машинного обучения, строит и тестирует математические модели поведения данных для прогнозов.
🛠 Data Engineer создаёт и поддерживает инфраструктуру big data, управляя целой экосистемой данных.
📊 Data Analyst анализирует данные по событиям, которые уже произошли, и выявляет в них закономерности, которые можно использовать в дальнейшем.
🤖 ML Engineer разрабатывает и внедряет модели ML, создавая интеллектуальные системы для прогнозов и решений.
Делимся полезной ссылкой на краткий путеводитель, где описаны первые шаги и стек для старта будущей карьеры: https://tglink.io/78525e950b69?erid=2W5zFJz7vG8
#реклама
О рекламодателе
359
12:01
24.07.2025
imageИзображение не доступно для предпросмотра
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач
Решения олимпиадных задач требуют глубокого понимания, креативности и навыков формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro на опубликованных задачах олимпиады IMO 2025.
Исследователи использовали пайплайн агентов с верификатором, который опубликовали на Github:
1. Генерация начального решения с акцентом на строгость доказательств;
2. Самосовершенствование: пересмотр решения, выявление слабых мест и улучшение ответа;
3. Верификация решения и создание отчета об ошибках;
4. Анализ отчета об ошибках, исправление и улучшение решения;
5. Принятие или отклонение решения.
Этапы 3-4-5 повторяются итеративно.
Ключевые принципы промптинга:
- Каждый шаг должен быть логически обоснован;
- Лучше представить частичный, но строгий результат;
- Использование верстки TeX;
- Структурированный формат ответа с резюме и детальным решением.
Контекст Gemini 2.5 Pro ограничен 32768 токенами, что недостаточно для решения задач IMO, поэтому исследователи разбивали решение на этапы для продолжения рассуждения.
Модель успешно решила 5 задач: из комбинаторной и аналитической геометрии, теории чисел, анализа рекуррентных последовательностей, теории игр.
Gemini 2.5 Pro не справилась с задачей 6 на комбинаторную оптимизацию. В задаче о минимальном числе плиток на сетке 2025×2025, где необходимо, чтобы в каждой строке и столбце был ровно один непокрытый квадрат, модель сообщила только тривиальную верхнюю границу 4048. Это решение оказалось неоптимальным. Неспособность найти более точную оценку указывает на ограничения текущих LLM в задачах дискретной оптимизации высокой размерности.
Результат подчеркивает важность разработки оптимальных стратегий для использования полного потенциала мощных LLM в сложных задачах рассуждения.
#Stateoftheart
Решения олимпиадных задач требуют глубокого понимания, креативности и навыков формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro на опубликованных задачах олимпиады IMO 2025.
Исследователи использовали пайплайн агентов с верификатором, который опубликовали на Github:
1. Генерация начального решения с акцентом на строгость доказательств;
2. Самосовершенствование: пересмотр решения, выявление слабых мест и улучшение ответа;
3. Верификация решения и создание отчета об ошибках;
4. Анализ отчета об ошибках, исправление и улучшение решения;
5. Принятие или отклонение решения.
Этапы 3-4-5 повторяются итеративно.
Ключевые принципы промптинга:
- Каждый шаг должен быть логически обоснован;
- Лучше представить частичный, но строгий результат;
- Использование верстки TeX;
- Структурированный формат ответа с резюме и детальным решением.
Контекст Gemini 2.5 Pro ограничен 32768 токенами, что недостаточно для решения задач IMO, поэтому исследователи разбивали решение на этапы для продолжения рассуждения.
Модель успешно решила 5 задач: из комбинаторной и аналитической геометрии, теории чисел, анализа рекуррентных последовательностей, теории игр.
Gemini 2.5 Pro не справилась с задачей 6 на комбинаторную оптимизацию. В задаче о минимальном числе плиток на сетке 2025×2025, где необходимо, чтобы в каждой строке и столбце был ровно один непокрытый квадрат, модель сообщила только тривиальную верхнюю границу 4048. Это решение оказалось неоптимальным. Неспособность найти более точную оценку указывает на ограничения текущих LLM в задачах дискретной оптимизации высокой размерности.
Результат подчеркивает важность разработки оптимальных стратегий для использования полного потенциала мощных LLM в сложных задачах рассуждения.
#Stateoftheart
1830
15:21
25.07.2025
imageИзображение не доступно для предпросмотра
📚Знакомство с Pandas на примере разведочного анализа данных
В проектах данные редко бывают идеальными: пропуски, дубликаты и аномалии могут искажать результаты анализа и снижать качество ML-моделей.
👩🏻💻 Программа вебинара:
- Обработка пропусков
- Удаление дубликатов
- Поиск аномалий
- Причины появления аномалий и способы их обработки
🎓 Вебинар буде полезен:
- начинающим специалистам в области DS
- тем кто работает с данными в электронных таблицах и хочет повысить объемы и скорость обработки данных
➡️ Ссылка для регистрации: https://tglink.io/c1ee7bf19d55?erid=2W5zFGgMDZa
💡 Урок проходит в рамках старта курса «Специализация Machine Learning» от Otus, где за 11 месяцев студенты проходят обучение с нуля до middle. Оставьте заявку на курс прямо сейчас, чтобы воспользоваться 10% скидкой на курс + 5% промокодом MachLearn_5 и учиться весь год по летним ценам! Условия актуальны до 31.07.2025г.
#реклама
О рекламодателе
В проектах данные редко бывают идеальными: пропуски, дубликаты и аномалии могут искажать результаты анализа и снижать качество ML-моделей.
👩🏻💻 Программа вебинара:
- Обработка пропусков
- Удаление дубликатов
- Поиск аномалий
- Причины появления аномалий и способы их обработки
🎓 Вебинар буде полезен:
- начинающим специалистам в области DS
- тем кто работает с данными в электронных таблицах и хочет повысить объемы и скорость обработки данных
➡️ Ссылка для регистрации: https://tglink.io/c1ee7bf19d55?erid=2W5zFGgMDZa
💡 Урок проходит в рамках старта курса «Специализация Machine Learning» от Otus, где за 11 месяцев студенты проходят обучение с нуля до middle. Оставьте заявку на курс прямо сейчас, чтобы воспользоваться 10% скидкой на курс + 5% промокодом MachLearn_5 и учиться весь год по летним ценам! Условия актуальны до 31.07.2025г.
#реклама
О рекламодателе
431
12:51
28.07.2025
imageИзображение не доступно для предпросмотра
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
🗓 Регистрация: https://cnrlink.com/ecup25neurohive
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25neurohive
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25neurohive
524
13:15
29.07.2025
imageИзображение не доступно для предпросмотра
🔍 Как трансформеры меняют область NLP и что стоит за LLM?
На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.
Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.
🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://otus.pw/ptAw/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.
Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.
🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://otus.pw/ptAw/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
431
15:10
05.08.2025
play_circleВидео недоступно для предпросмотра
Seed Diffusion: новый state-of-the-art в балансе скорость-качество для моделей генерации кода
Исследователи ByteDance Seed представили Seed Diffusion Preview — модель генерации кода на основе дискретной диффузии. Скорость вывода модели - 2146 токенов в секунду, что в 5.4 раза быстрее автрегрессионных моделей и в 1.5 раза быстрее Gemini Diffusion. Модель доступна в демо-режиме.
В Seed Diffusion Preview применяется диффузия дискретных состояний вместо традиционного авторегрессивного декодирования токен-за-токеном, что позволяет модели генерировать токены параллельно. Модель построена на плотной архитектуре трансформера, оптимизированной для задач генерации кода. Исследователи исключили сложные компоненты логических рассуждений, сосредоточившись на максимизации скорости вывода.
Ключевая инновация — двухэтапный процесс обучения TSC. На первых 80% шагов процесс контролируется функцией зашумления, которая определяет, какую долю токенов нужно замаскировать на каждом этапе. На финальных 20% шагах добавляется искажение данных через имитацию реальных операций редактирования кода (удаления, вставки, замены), контролируемое через расстояние Левенштейна. Объединенная функция потерь интегрирует математический критерий ELBO с метрикой восстановления после редактирования.
Модель создает оптимальные траектории генерации через отбор лучших стратегий восстановления на основе ELBO-критерия. Используя обучение с подкреплением, модель учится генерировать код за минимальное число итераций, достигая ускорения до 400%. Применяется блочная параллельная выборка с причинно-следственным упорядочиванием и KV-кэширование для эффективности без потери качества.
В результате на мультиязыковом бенчмарке MBXP Seed Diffusion Preview достигает среднего балла 72.6%, что сопоставимо с SOTA моделями. Cкорость вывода в 2146 т/c на графических процессорах H20 примерно в два раза быстрее Mercury Coder (1109 т/с) и в полтора раза быстрее Gemini Diffusion (1489 т/с), и в 5.4 раза быстрее авторегрессионных моделей схожего размера.
#Stateoftheart
Исследователи ByteDance Seed представили Seed Diffusion Preview — модель генерации кода на основе дискретной диффузии. Скорость вывода модели - 2146 токенов в секунду, что в 5.4 раза быстрее автрегрессионных моделей и в 1.5 раза быстрее Gemini Diffusion. Модель доступна в демо-режиме.
В Seed Diffusion Preview применяется диффузия дискретных состояний вместо традиционного авторегрессивного декодирования токен-за-токеном, что позволяет модели генерировать токены параллельно. Модель построена на плотной архитектуре трансформера, оптимизированной для задач генерации кода. Исследователи исключили сложные компоненты логических рассуждений, сосредоточившись на максимизации скорости вывода.
Ключевая инновация — двухэтапный процесс обучения TSC. На первых 80% шагов процесс контролируется функцией зашумления, которая определяет, какую долю токенов нужно замаскировать на каждом этапе. На финальных 20% шагах добавляется искажение данных через имитацию реальных операций редактирования кода (удаления, вставки, замены), контролируемое через расстояние Левенштейна. Объединенная функция потерь интегрирует математический критерий ELBO с метрикой восстановления после редактирования.
Модель создает оптимальные траектории генерации через отбор лучших стратегий восстановления на основе ELBO-критерия. Используя обучение с подкреплением, модель учится генерировать код за минимальное число итераций, достигая ускорения до 400%. Применяется блочная параллельная выборка с причинно-следственным упорядочиванием и KV-кэширование для эффективности без потери качества.
В результате на мультиязыковом бенчмарке MBXP Seed Diffusion Preview достигает среднего балла 72.6%, что сопоставимо с SOTA моделями. Cкорость вывода в 2146 т/c на графических процессорах H20 примерно в два раза быстрее Mercury Coder (1109 т/с) и в полтора раза быстрее Gemini Diffusion (1489 т/с), и в 5.4 раза быстрее авторегрессионных моделей схожего размера.
#Stateoftheart
1080
12:38
06.08.2025
imageИзображение не доступно для предпросмотраplay_circleВидео недоступно для предпросмотра
Matrix-3D — открытый фреймворк для создания полностью исследуемых 3D-миров из одного изображения или текста. Martix-3D решает проблему ограниченного поля зрения существующих методов генерации 3D-сцен, позволяя получать 360-градусный обзор без артефактов и границ. Код моделей доступен на Github.
Генерацию 3D-сцены можно запускать как одной командой, так и поэтапно: сначала преобразовать текст или изображение в панорамное фото, затем создать панорамное видео управляемой траектоорией и разрешением 960×480 или 1440×720, и в конце реконструировать 3D-сцену, сохранив ее в формате .ply вместе с рендерингами.
Matrix-3D использует панорамные изображения как промежуточное представление сцены, захватывая полный обзор 360° × 180°. Фреймворк построен на базе видео-диффузионной модели Wan2.1-I2V-14B. Основное отличие от предыдущих работ — использование mesh-рендеров вместо облаков точек. Эксперименты показали, что рендеры облаков точек создают муаровые паттерны и некорректно обрабатывают окклюзии между объектами.
Фреймворк Matrix-3D предлагает на выбор 2 метода реконструкции панорамного видео в 3D-мир:
- Оптимизационный метод выбирает ключевые кадры каждые 5 кадров из сгенерированного видео. Каждый панорамный кадр разбивается на 12 перспективных изображений, которые проходят через super-resolution (StableSR) перед подачей в пайплайн 3D Gaussian Splatting. Глубина оценивается через MoGe с последующим выравниванием через метод наименьших квадратов.
- Feed-forward модель (Large Panorama Reconstruction Model) работает напрямую с латентными представлениями видео.
На бенчмарках Matrix-3D обходит существующие открытые методы генерации 3D-сцен и панорманых видео.
Генерация требует 40GB GPU для разрешения 480p и 60GB для 720p.
#StateoftheArt
Генерацию 3D-сцены можно запускать как одной командой, так и поэтапно: сначала преобразовать текст или изображение в панорамное фото, затем создать панорамное видео управляемой траектоорией и разрешением 960×480 или 1440×720, и в конце реконструировать 3D-сцену, сохранив ее в формате .ply вместе с рендерингами.
Matrix-3D использует панорамные изображения как промежуточное представление сцены, захватывая полный обзор 360° × 180°. Фреймворк построен на базе видео-диффузионной модели Wan2.1-I2V-14B. Основное отличие от предыдущих работ — использование mesh-рендеров вместо облаков точек. Эксперименты показали, что рендеры облаков точек создают муаровые паттерны и некорректно обрабатывают окклюзии между объектами.
Фреймворк Matrix-3D предлагает на выбор 2 метода реконструкции панорамного видео в 3D-мир:
- Оптимизационный метод выбирает ключевые кадры каждые 5 кадров из сгенерированного видео. Каждый панорамный кадр разбивается на 12 перспективных изображений, которые проходят через super-resolution (StableSR) перед подачей в пайплайн 3D Gaussian Splatting. Глубина оценивается через MoGe с последующим выравниванием через метод наименьших квадратов.
- Feed-forward модель (Large Panorama Reconstruction Model) работает напрямую с латентными представлениями видео.
На бенчмарках Matrix-3D обходит существующие открытые методы генерации 3D-сцен и панорманых видео.
Генерация требует 40GB GPU для разрешения 480p и 60GB для 720p.
#StateoftheArt
Matrix-3D — открытый фреймворк для создания полностью исследуемых 3D-миров из одного изображения или текста. Martix-3D решает проблему ограниченного поля зрения существующих методов генерации 3D-сцен, позволяя получать 360-градусный обзор без артефактов и границ. Код моделей доступен на Github.
Генерацию 3D-сцены можно запускать как одной командой, так и поэтапно: сначала преобразовать текст или изображение в панорамное фото, затем создать панорамное видео управляемой траектоорией и разрешением 960×480 или 1440×720, и в конце реконструировать 3D-сцену, сохранив ее в формате .ply вместе с рендерингами.
Matrix-3D использует панорамные изображения как промежуточное представление сцены, захватывая полный обзор 360° × 180°. Фреймворк построен на базе видео-диффузионной модели Wan2.1-I2V-14B. Основное отличие от предыдущих работ — использование mesh-рендеров вместо облаков точек. Эксперименты показали, что рендеры облаков точек создают муаровые паттерны и некорректно обрабатывают окклюзии между объектами.
Фреймворк Matrix-3D предлагает на выбор 2 метода реконструкции панорамного видео в 3D-мир:
- Оптимизационный метод выбирает ключевые кадры каждые 5 кадров из сгенерированного видео. Каждый панорамный кадр разбивается на 12 перспективных изображений, которые проходят через super-resolution (StableSR) перед подачей в пайплайн 3D Gaussian Splatting. Глубина оценивается через MoGe с последующим выравниванием через метод наименьших квадратов.
- Feed-forward модель (Large Panorama Reconstruction Model) работает напрямую с латентными представлениями видео.
На бенчмарках Matrix-3D обходит существующие открытые методы генерации 3D-сцен и панорманых видео.
Генерация требует 40GB GPU для разрешения 480p и 60GB для 720p.
#StateoftheArt
Генерацию 3D-сцены можно запускать как одной командой, так и поэтапно: сначала преобразовать текст или изображение в панорамное фото, затем создать панорамное видео управляемой траектоорией и разрешением 960×480 или 1440×720, и в конце реконструировать 3D-сцену, сохранив ее в формате .ply вместе с рендерингами.
Matrix-3D использует панорамные изображения как промежуточное представление сцены, захватывая полный обзор 360° × 180°. Фреймворк построен на базе видео-диффузионной модели Wan2.1-I2V-14B. Основное отличие от предыдущих работ — использование mesh-рендеров вместо облаков точек. Эксперименты показали, что рендеры облаков точек создают муаровые паттерны и некорректно обрабатывают окклюзии между объектами.
Фреймворк Matrix-3D предлагает на выбор 2 метода реконструкции панорамного видео в 3D-мир:
- Оптимизационный метод выбирает ключевые кадры каждые 5 кадров из сгенерированного видео. Каждый панорамный кадр разбивается на 12 перспективных изображений, которые проходят через super-resolution (StableSR) перед подачей в пайплайн 3D Gaussian Splatting. Глубина оценивается через MoGe с последующим выравниванием через метод наименьших квадратов.
- Feed-forward модель (Large Panorama Reconstruction Model) работает напрямую с латентными представлениями видео.
На бенчмарках Matrix-3D обходит существующие открытые методы генерации 3D-сцен и панорманых видео.
Генерация требует 40GB GPU для разрешения 480p и 60GB для 720p.
#StateoftheArt
551
11:06
14.08.2025
close
С этим каналом часто покупают
Отзывы канала
keyboard_arrow_down
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
5.0
1 отзыва за 6 мес.
Превосходно (100%) За последние 6 мес
m
**cromarketing@****.ru
на сервисе с августа 2023
01.07.202517:47
5
Оперативное размещение
Показать еще
Новинки в тематике
Хочешь больше рекомендаций?
Запускай кампании
Создавай подборки каналов
Добавляй каналы в избранное
Лучшие в тематике
Статистика канала
Рейтинг
17.2
Оценка отзывов
5.0
Выполнено заявок
55
Подписчики:
4.7K
Просмотры на пост:
lock_outline
ER:
9.3%
Публикаций в день:
0.0
CPV
lock_outlineВыбрано
0
каналов на сумму:0.00₽
Подписчики:
0
Просмотры:
lock_outline
Перейти в корзинуКупить за:0.00₽
Комментарий