
💸 Скидки до 70% для бизнеса и финансов
Ловите лучшие слоты в каналах бизнес-тематик — только до 6 апреля!
Забрать скидку

18.1

Neurohive - Нейроcети, Data Science, Machine Learning, AI
5.0
16
Наука и технологии
919
13
Канал для data science разработчиков про нейросети. Свежие исследования, методы, приложения и новости. Авторский канал, контент уникальный.
Нейронные сети, машинное обучение (machine learning), data science, анализ данных, big data, стартапы, искусственный интеллект, AI, NLP.
ВП возможен.
Поделиться
В избранное
Купить рекламу в этом канале
Формат:
keyboard_arrow_down
- 1/24
- 2/48
- 3/72
- Нативный
- 7 дней
- Репост
1 час в топе / 24 часа в ленте
Количество:
keyboard_arrow_down
- 1
- 2
- 3
- 4
- 5
- 8
- 10
- 15
Стоимость публикации:
local_activity
7 692.30₽7 692.30₽local_mall
0.0%
Осталось по этой цене:0
Последние посты канала
play_circleВидео недоступно для предпросмотра
Успейте зарегистрироваться на Data Fusion. Мы ждем всех!
Data Fusion Contest 2025 это —
🛑возможность прокачать скилы на практике, внести вклад в развитие сообщества DS в России, а также погрузиться в новые DS/ML-методы;
🛑шанс сразиться с лучшими представителями профессии и проявить себя;
🛑возможность получить внушительный приз.
Общий призовой фонд — 3 000 000 рублей 🔥
В этом году участников ждут 2 основные задачи:
«Label Craft» — про предсказание категории товаров.
«4 Cast» — про предсказание динамики платежей на последующие 12 недель.
И одна образовательная задача — «Distribution».
А ещё будет специальная номинация Companion за лучшие публичные решения, в которой победителей определит жюри, учитывая поддержку со стороны других конкурсантов в чате соревнования.
⏰ Даты проведения соревнования: с 13 февраля по 7 апреля 2025 года.
❗️Формат — онлайн: участвовать можно из любой точки мира.
Информация о рекламодателе
Data Fusion Contest 2025 это —
🛑возможность прокачать скилы на практике, внести вклад в развитие сообщества DS в России, а также погрузиться в новые DS/ML-методы;
🛑шанс сразиться с лучшими представителями профессии и проявить себя;
🛑возможность получить внушительный приз.
Общий призовой фонд — 3 000 000 рублей 🔥
В этом году участников ждут 2 основные задачи:
«Label Craft» — про предсказание категории товаров.
«4 Cast» — про предсказание динамики платежей на последующие 12 недель.
И одна образовательная задача — «Distribution».
А ещё будет специальная номинация Companion за лучшие публичные решения, в которой победителей определит жюри, учитывая поддержку со стороны других конкурсантов в чате соревнования.
⏰ Даты проведения соревнования: с 13 февраля по 7 апреля 2025 года.
❗️Формат — онлайн: участвовать можно из любой точки мира.
Информация о рекламодателе
458
15:05
20.03.2025
imageИзображение не доступно для предпросмотра
NVIDIA представила семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Сложный трехступенчатый процесс обучения моделей Llama позволил улучшить их точность на 20% при достижении в 5 раз большей скорости инференса. Llama Nemotron специализированы для задач математики, программирования, рассуждений и принятия сложных решений.
Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.
Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.
На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.
Модели доступны на build.nvidia.com и Hugging Face.
#StateoftheArt
Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.
Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.
На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.
Модели доступны на build.nvidia.com и Hugging Face.
#StateoftheArt
NVIDIA представила семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Сложный трехступенчатый процесс обучения моделей Llama позволил улучшить их точность на 20% при достижении в 5 раз большей скорости инференса. Llama Nemotron специализированы для задач математики, программирования, рассуждений и принятия сложных решений.
Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.
Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.
На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.
Модели доступны на build.nvidia.com и Hugging Face.
#StateoftheArt
Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.
Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.
На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.
Модели доступны на build.nvidia.com и Hugging Face.
#StateoftheArt
1900
09:24
19.03.2025
imageИзображение не доступно для предпросмотра
R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в математике и рассуждениях
Модель построена на базе Qwen2.5-VL-Instruct дообученной с помощью библиотеки LLama Factory. Два ключевых компонента метода:
- датасет R1-Onevision, созданный с помощью DeepSeek-R1 для созданий цепочек рассуждений и GPT-4o для оценки качества и создания формальных репрезентаций, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
- фреймворк Rule-Based RL объединяет традиционные методы обучения с подкреплением с явными правилами. Подход кодирует экспертные рассуждения в формальные правила, которым следует модель. Так модель следует цепочкам рассуждений, которые доказали свою эффективность при решении сложных задач.
R1-Onevision 7B обходит GPT-4o, GPT-4V и Qwen2.5-VL-7B на бенчмарке Mathverse и представленном авторами модели бенчмарке R1-Onevision-Bench.
Датасет, бенчмарк и код модели доступны на GitHub, Hugging Face, есть веб-демо.
#Stateoftheart
Модель построена на базе Qwen2.5-VL-Instruct дообученной с помощью библиотеки LLama Factory. Два ключевых компонента метода:
- датасет R1-Onevision, созданный с помощью DeepSeek-R1 для созданий цепочек рассуждений и GPT-4o для оценки качества и создания формальных репрезентаций, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
- фреймворк Rule-Based RL объединяет традиционные методы обучения с подкреплением с явными правилами. Подход кодирует экспертные рассуждения в формальные правила, которым следует модель. Так модель следует цепочкам рассуждений, которые доказали свою эффективность при решении сложных задач.
R1-Onevision 7B обходит GPT-4o, GPT-4V и Qwen2.5-VL-7B на бенчмарке Mathverse и представленном авторами модели бенчмарке R1-Onevision-Bench.
Датасет, бенчмарк и код модели доступны на GitHub, Hugging Face, есть веб-демо.
#Stateoftheart
R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в математике и рассуждениях
Модель построена на базе Qwen2.5-VL-Instruct дообученной с помощью библиотеки LLama Factory. Два ключевых компонента метода:
- датасет R1-Onevision, созданный с помощью DeepSeek-R1 для созданий цепочек рассуждений и GPT-4o для оценки качества и создания формальных репрезентаций, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
- фреймворк Rule-Based RL объединяет традиционные методы обучения с подкреплением с явными правилами. Подход кодирует экспертные рассуждения в формальные правила, которым следует модель. Так модель следует цепочкам рассуждений, которые доказали свою эффективность при решении сложных задач.
R1-Onevision 7B обходит GPT-4o, GPT-4V и Qwen2.5-VL-7B на бенчмарке Mathverse и представленном авторами модели бенчмарке R1-Onevision-Bench.
Датасет, бенчмарк и код модели доступны на GitHub, Hugging Face, есть веб-демо.
#Stateoftheart
Модель построена на базе Qwen2.5-VL-Instruct дообученной с помощью библиотеки LLama Factory. Два ключевых компонента метода:
- датасет R1-Onevision, созданный с помощью DeepSeek-R1 для созданий цепочек рассуждений и GPT-4o для оценки качества и создания формальных репрезентаций, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
- фреймворк Rule-Based RL объединяет традиционные методы обучения с подкреплением с явными правилами. Подход кодирует экспертные рассуждения в формальные правила, которым следует модель. Так модель следует цепочкам рассуждений, которые доказали свою эффективность при решении сложных задач.
R1-Onevision 7B обходит GPT-4o, GPT-4V и Qwen2.5-VL-7B на бенчмарке Mathverse и представленном авторами модели бенчмарке R1-Onevision-Bench.
Датасет, бенчмарк и код модели доступны на GitHub, Hugging Face, есть веб-демо.
#Stateoftheart
2000
11:15
27.02.2025
imageИзображение не доступно для предпросмотраplay_circleВидео недоступно для предпросмотра
Stepfun AI представила Step-Video-T2V, text-to-video модель с 30B параметров, способную генерировать видео длиной до 204 кадров, с разрешением 544x992. Модель принимает промпты на китайском и английском языках. Метод VideoVAE позволил достичь сжатия 16x16 (по сравнению с 2x-4x в стандарте H.264, принятом в индустриии). Видео с разрешением 768x768px генерируются за 860-1437 секунд в зависимости от оптимизации.
Архитектура модели включает VideoVAE для глубокого сжатия с сохранением качества видео, DiT (Diffusion Transformer) с 48 слоями для обработки сжатых данных, двойные текстовые энкодеры для обработки английского и китайского языков.
Модель выложена в открытый доступ на Github, Hugging Face и ModelScope, есть веб-версия.
Рекомендуется иметь 4 GPU с 80GB памяти для запуска. Квантизированная турбо модель работает на GPU с 24GB памяти.
#Stateoftheart
Архитектура модели включает VideoVAE для глубокого сжатия с сохранением качества видео, DiT (Diffusion Transformer) с 48 слоями для обработки сжатых данных, двойные текстовые энкодеры для обработки английского и китайского языков.
Модель выложена в открытый доступ на Github, Hugging Face и ModelScope, есть веб-версия.
Рекомендуется иметь 4 GPU с 80GB памяти для запуска. Квантизированная турбо модель работает на GPU с 24GB памяти.
#Stateoftheart
Stepfun AI представила Step-Video-T2V, text-to-video модель с 30B параметров, способную генерировать видео длиной до 204 кадров, с разрешением 544x992. Модель принимает промпты на китайском и английском языках. Метод VideoVAE позволил достичь сжатия 16x16 (по сравнению с 2x-4x в стандарте H.264, принятом в индустриии). Видео с разрешением 768x768px генерируются за 860-1437 секунд в зависимости от оптимизации.
Архитектура модели включает VideoVAE для глубокого сжатия с сохранением качества видео, DiT (Diffusion Transformer) с 48 слоями для обработки сжатых данных, двойные текстовые энкодеры для обработки английского и китайского языков.
Модель выложена в открытый доступ на Github, Hugging Face и ModelScope, есть веб-версия.
Рекомендуется иметь 4 GPU с 80GB памяти для запуска. Квантизированная турбо модель работает на GPU с 24GB памяти.
#Stateoftheart
Архитектура модели включает VideoVAE для глубокого сжатия с сохранением качества видео, DiT (Diffusion Transformer) с 48 слоями для обработки сжатых данных, двойные текстовые энкодеры для обработки английского и китайского языков.
Модель выложена в открытый доступ на Github, Hugging Face и ModelScope, есть веб-версия.
Рекомендуется иметь 4 GPU с 80GB памяти для запуска. Квантизированная турбо модель работает на GPU с 24GB памяти.
#Stateoftheart
2100
09:52
20.02.2025
play_circleВидео недоступно для предпросмотра
Adobe выпустила в открытый доступ модель генерации видео Firefly, разработанную для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами: она обучена исключительно на лицензированных материалах Adobe Stock и общедоступных данных, не нарушающих авторские права.
Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.
Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.
Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.
#AIapps
Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.
Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.
Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.
#AIapps
Adobe выпустила в открытый доступ модель генерации видео Firefly, разработанную для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами: она обучена исключительно на лицензированных материалах Adobe Stock и общедоступных данных, не нарушающих авторские права.
Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.
Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.
Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.
#AIapps
Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.
Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.
Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.
#AIapps
2100
09:55
13.02.2025
imageИзображение не доступно для предпросмотра
Статья, опубликованная на канале ProAI, рассматривает вопрос о том, как языковые модели обрабатывают разные языки, учитывая, что они обучаются преимущественно на английских текстах. Исследователи из EPFL провели эксперимент с моделями семейства Llama-2, используя методику Logit lens для анализа скрытых состояний модели.
Результаты показали, что обработка информации в модели проходит через три фазы: сначала идёт этап с высокой энтропией, где строятся представления входных токенов без доминирования какого-либо языка; затем наступает фаза с низкой энтропией, где доминирует английский язык и формируются абстрактные концепции; и наконец, на последнем этапе происходит генерация ответа на целевом языке. Исследователи пришли к выводу, что у языковых моделей есть своего рода "родной язык", но это не английский, а язык концепций, хотя английский и остаётся опорным языком из-за преобладания в обучающих данных.
Результаты показали, что обработка информации в модели проходит через три фазы: сначала идёт этап с высокой энтропией, где строятся представления входных токенов без доминирования какого-либо языка; затем наступает фаза с низкой энтропией, где доминирует английский язык и формируются абстрактные концепции; и наконец, на последнем этапе происходит генерация ответа на целевом языке. Исследователи пришли к выводу, что у языковых моделей есть своего рода "родной язык", но это не английский, а язык концепций, хотя английский и остаётся опорным языком из-за преобладания в обучающих данных.
2700
14:55
29.01.2025
imageИзображение не доступно для предпросмотра
ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к увеличению производительности text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.
TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.
MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.
#StateoftheArt
TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.
MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.
#StateoftheArt
ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к увеличению производительности text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.
TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.
MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.
#StateoftheArt
TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.
MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.
#StateoftheArt
3200
05:48
20.01.2025
imageИзображение не доступно для предпросмотра
MiniMax опубликовал модель MiniMax-01 с 456 миллиардами параметров. Языковая модель MiniMax-Text-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов. Модель доступна через Hailou chat и по API, веса выложены на Github.
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
MiniMax опубликовал модель MiniMax-01 с 456 миллиардами параметров. Языковая модель MiniMax-Text-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов. Модель доступна через Hailou chat и по API, веса выложены на Github.
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
2500
06:51
16.01.2025
imageИзображение не доступно для предпросмотра
На CES 2025 Nvidia представила микросервисы NIM для локального запуска ИИ-пайплайнов и новую серию RTX 50.
GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.
Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs, Meta и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.
Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.
Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.
#Development
GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.
Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs, Meta и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.
Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.
Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.
#Development
2100
05:20
08.01.2025
imageИзображение не доступно для предпросмотра
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.
В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.
В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
3000
11:00
18.12.2024
close
С этим каналом часто покупают
Отзывы канала
keyboard_arrow_down
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
5.0
2 отзыва за 6 мес.
Превосходно (100%) За последние 6 мес
p
**ystech.genesis@******.com
на сервисе с января 2023
22.11.202418:48
5
Оперативное размещение
Показать еще
Новинки в тематике
Лучшие в тематике
Выбрано
0
каналов на сумму:0.00₽
Подписчики:
0
Просмотры:
lock_outline
Перейти в корзинуКупить за:0.00₽
Комментарий