Получите клиентов в любой нише!
Делегируйте запуск рекламы нам — бесплатно
Подробнее
7.3
Neurogen
5
Канал посвящен популяризации нейросетей. Автор выпускает удобные портативные программы для работы с ними, а также пишет о работе с ChatGPT и Stable-diffusion и другими различными популярными нейросетями.
Поделиться
В избранное
Купить рекламу в этом канале
Формат:
keyboard_arrow_down
- 1/24
- 2/48
- 3/72
- Нативный
- 7 дней
- Репост
1 час в топе / 24 часа в ленте
Количество:
%keyboard_arrow_down
- 1
- 2
- 3
- 4
- 5
- 8
- 10
- 15
Стоимость публикации:
local_activity
10 769.22₽10 769.22₽local_mall
0.0%
Последние посты канала
imageИзображение не доступно для предпросмотра
Хотите попробовать передовые нейросети без вложений? BotHub дарит вам 100 000 токенов по нашей ссылке только до 28.02.2025!
BotHub – это:
- Бесплатный доступ к ChatGPT, Claude, Midjourney и другим ИИ-моделям с подарочными токенами;
- Все необходимые нейросети в одном окне;
- Создание контента нового уровня с Easy Writer – мощным визуальным редактором с генерацией тем, планов, SEO-настройками, поддержкой референсов и экспортом в разных форматах;
- Одни из самых низких тарифов в РФ, включая безлимитные пакеты;
- Мгновенный доступ без VPN с оплатой российскими картами, а также быстрым доступом к нейросетям через Telegram-бота;
- А также шифрование чатов, тонкие настройки параметров ИИ, работа с документами, моментальное подключение новых моделей и многое другое.
Успейте забрать свои 100 000 токенов, пока не поздно, и откройте для себя мир возможностей ИИ с BotHub!
Реклама. ООО “БотХаб”. ИНН 6382097218. erid: CQH36pWzJqDgDUbK1CbUbGfqmfJVg3Qi19hfatC16UfxeH
BotHub – это:
- Бесплатный доступ к ChatGPT, Claude, Midjourney и другим ИИ-моделям с подарочными токенами;
- Все необходимые нейросети в одном окне;
- Создание контента нового уровня с Easy Writer – мощным визуальным редактором с генерацией тем, планов, SEO-настройками, поддержкой референсов и экспортом в разных форматах;
- Одни из самых низких тарифов в РФ, включая безлимитные пакеты;
- Мгновенный доступ без VPN с оплатой российскими картами, а также быстрым доступом к нейросетям через Telegram-бота;
- А также шифрование чатов, тонкие настройки параметров ИИ, работа с документами, моментальное подключение новых моделей и многое другое.
Успейте забрать свои 100 000 токенов, пока не поздно, и откройте для себя мир возможностей ИИ с BotHub!
Реклама. ООО “БотХаб”. ИНН 6382097218. erid: CQH36pWzJqDgDUbK1CbUbGfqmfJVg3Qi19hfatC16UfxeH
3200
09:04
30.01.2025
imageИзображение не доступно для предпросмотра
Могучий синий кит Китай ронять Запад бесплатно
Последние несколько дней с момента релиза новой модели Deepseek R1 примерно такой оборот событий набирает новостной фон.
Хронология событий после релиза DeepSeek-R1 (20–29 января 2025):
1. 20 января:
- Официальный релиз DeepSeek-R1 — модели с 660B параметров, сравнимой по производительности с OpenAI o1 в задачах математики, кода и естественного языка. Ключевые особенности:
- Использование усиленного обучения (RL) вместо классического SFT, что снизило зависимость от размеченных данных .
- Открытый код (MIT License) и дистилляция 6 малых моделей (1.5B–70B), включая версии для Qwen и Llama, превосходящие OpenAI o1-mini .
- Стоимость API в 27–55 раз ниже, чем у o1 (1–4 RMB за млн входных токенов, 16 — за выходные) .
2. 21 января:
- Публикация технических деталей:
- R1-Zero — базовая версия, обученная без человеческих данных, достигла 71% на AIME 2024 после самооптимизации через RL .
- Сравнение с Kimi k1.5 (128K контекстное окно): DeepSeek-R1 сильнее в логике, Kimi — в мультимодальности .
3. 22 января:
- Обсуждение в сообществе:
- «RL is all you need» — тезис DeepSeek, бросивший вызов традиционным подходам .
- Модель получила прозвище «AlphaGo для открытых LLM» за способность к самообучению .
4. 23 января:
- Запуск «цепочки рассуждений» (Chain-of-Thought) в API: пользователи могут видеть логику модели перед финальным ответом .
- Meta начинает внутренние эксперименты по воспроизведению R1, опасаясь потери лидерства .
5. 25 января:
- DeepSeek-R1 занимает 1-е место в рейтинге Arena (стиль и логика), обойдя OpenAI o1 .
- Акции NVIDIA падают на 3,12% на фоне дискуссий о снижении спроса на GPU из-за эффективности R1 .
6. 26 января:
- Реакция Запада:
- Scale AI CEO Александр Ванг называет R1 «переломным моментом» в гонке ИИ .
- Марк Андриссен хвалит открытость модели как «дар миру» .
- Meta анонсирует ускорение разработки Llama 4 и инвестиции в 1,3 млн GPU .
7. 28–29 января:
- Аналитики (Morgan Stanley, UBS) прогнозируют волну инноваций благодаря снижению стоимости ИИ-разработки .
- Влияние на рынок: сомнения в устойчивости оценки американских AI-стартапов, чьи модели дороже и закрытее .
В целом, можно сделать вывод, что DeepSeek-R1 не просто «догнал» OpenAI — он изменил правила игры через открытость и экономическую эффективность. Это заставило Запад пересмотреть стратегии, а инвесторов — усомниться в монополии США на ИИ. Главный урок: «Китай работает, пока Америка отдыхает» .
Партия давать +100 социальный рейтинг за комментарий про силу Синий Китайский Кит над Запад 😺
#ai #llm #ainews
Последние несколько дней с момента релиза новой модели Deepseek R1 примерно такой оборот событий набирает новостной фон.
Хронология событий после релиза DeepSeek-R1 (20–29 января 2025):
1. 20 января:
- Официальный релиз DeepSeek-R1 — модели с 660B параметров, сравнимой по производительности с OpenAI o1 в задачах математики, кода и естественного языка. Ключевые особенности:
- Использование усиленного обучения (RL) вместо классического SFT, что снизило зависимость от размеченных данных .
- Открытый код (MIT License) и дистилляция 6 малых моделей (1.5B–70B), включая версии для Qwen и Llama, превосходящие OpenAI o1-mini .
- Стоимость API в 27–55 раз ниже, чем у o1 (1–4 RMB за млн входных токенов, 16 — за выходные) .
2. 21 января:
- Публикация технических деталей:
- R1-Zero — базовая версия, обученная без человеческих данных, достигла 71% на AIME 2024 после самооптимизации через RL .
- Сравнение с Kimi k1.5 (128K контекстное окно): DeepSeek-R1 сильнее в логике, Kimi — в мультимодальности .
3. 22 января:
- Обсуждение в сообществе:
- «RL is all you need» — тезис DeepSeek, бросивший вызов традиционным подходам .
- Модель получила прозвище «AlphaGo для открытых LLM» за способность к самообучению .
4. 23 января:
- Запуск «цепочки рассуждений» (Chain-of-Thought) в API: пользователи могут видеть логику модели перед финальным ответом .
- Meta начинает внутренние эксперименты по воспроизведению R1, опасаясь потери лидерства .
5. 25 января:
- DeepSeek-R1 занимает 1-е место в рейтинге Arena (стиль и логика), обойдя OpenAI o1 .
- Акции NVIDIA падают на 3,12% на фоне дискуссий о снижении спроса на GPU из-за эффективности R1 .
6. 26 января:
- Реакция Запада:
- Scale AI CEO Александр Ванг называет R1 «переломным моментом» в гонке ИИ .
- Марк Андриссен хвалит открытость модели как «дар миру» .
- Meta анонсирует ускорение разработки Llama 4 и инвестиции в 1,3 млн GPU .
7. 28–29 января:
- Аналитики (Morgan Stanley, UBS) прогнозируют волну инноваций благодаря снижению стоимости ИИ-разработки .
- Влияние на рынок: сомнения в устойчивости оценки американских AI-стартапов, чьи модели дороже и закрытее .
В целом, можно сделать вывод, что DeepSeek-R1 не просто «догнал» OpenAI — он изменил правила игры через открытость и экономическую эффективность. Это заставило Запад пересмотреть стратегии, а инвесторов — усомниться в монополии США на ИИ. Главный урок: «Китай работает, пока Америка отдыхает» .
#ai #llm #ainews
5300
00:18
29.01.2025
imageИзображение не доступно для предпросмотра
Могучий синий кит Китай ронять Запад бесплатно
Последние несколько дней с момента релиза новой модели Deepseek R1 примерно такой оборот событий набирает новостной фон.
Хронология событий после релиза DeepSeek-R1 (20–29 января 2025):
1. 20 января:
- Официальный релиз DeepSeek-R1 — модели с 660B параметров, сравнимой по производительности с OpenAI o1 в задачах математики, кода и естественного языка. Ключевые особенности:
- Использование усиленного обучения (RL) вместо классического SFT, что снизило зависимость от размеченных данных .
- Открытый код (MIT License) и дистилляция 6 малых моделей (1.5B–70B), включая версии для Qwen и Llama, превосходящие OpenAI o1-mini .
- Стоимость API в 27–55 раз ниже, чем у o1 (1–4 RMB за млн входных токенов, 16 — за выходные) .
2. 21 января:
- Публикация технических деталей:
- R1-Zero — базовая версия, обученная без человеческих данных, достигла 71% на AIME 2024 после самооптимизации через RL .
- Сравнение с Kimi k1.5 (128K контекстное окно): DeepSeek-R1 сильнее в логике, Kimi — в мультимодальности .
3. 22 января:
- Обсуждение в сообществе:
- «RL is all you need» — тезис DeepSeek, бросивший вызов традиционным подходам .
- Модель получила прозвище «AlphaGo для открытых LLM» за способность к самообучению .
4. 23 января:
- Запуск «цепочки рассуждений» (Chain-of-Thought) в API: пользователи могут видеть логику модели перед финальным ответом .
- Meta начинает внутренние эксперименты по воспроизведению R1, опасаясь потери лидерства .
5. 25 января:
- DeepSeek-R1 занимает 1-е место в рейтинге Arena (стиль и логика), обойдя OpenAI o1 .
- Акции NVIDIA падают на 3,12% на фоне дискуссий о снижении спроса на GPU из-за эффективности R1 .
6. 26 января:
- Реакция Запада:
- Scale AI CEO Александр Ванг называет R1 «переломным моментом» в гонке ИИ .
- Марк Андриссен хвалит открытость модели как «дар миру» .
- Meta анонсирует ускорение разработки Llama 4 и инвестиции в 1,3 млн GPU .
7. 28–29 января:
- Аналитики (Morgan Stanley, UBS) прогнозируют волну инноваций благодаря снижению стоимости ИИ-разработки .
- Влияние на рынок: сомнения в устойчивости оценки американских AI-стартапов, чьи модели дороже и закрытее .
В целом, можно сделать вывод, что DeepSeek-R1 не просто «догнал» OpenAI — он изменил правила игры через открытость и экономическую эффективность. Это заставило Запад пересмотреть стратегии, а инвесторов — усомниться в монополии США на ИИ. Главный урок: «Китай работает, пока Америка отдыхает» .
Партия давать +100 социальный рейтинг за комментарий про силу Синий Китайский Кит над Запад 😺
#ai #llm #ainews
Последние несколько дней с момента релиза новой модели Deepseek R1 примерно такой оборот событий набирает новостной фон.
Хронология событий после релиза DeepSeek-R1 (20–29 января 2025):
1. 20 января:
- Официальный релиз DeepSeek-R1 — модели с 660B параметров, сравнимой по производительности с OpenAI o1 в задачах математики, кода и естественного языка. Ключевые особенности:
- Использование усиленного обучения (RL) вместо классического SFT, что снизило зависимость от размеченных данных .
- Открытый код (MIT License) и дистилляция 6 малых моделей (1.5B–70B), включая версии для Qwen и Llama, превосходящие OpenAI o1-mini .
- Стоимость API в 27–55 раз ниже, чем у o1 (1–4 RMB за млн входных токенов, 16 — за выходные) .
2. 21 января:
- Публикация технических деталей:
- R1-Zero — базовая версия, обученная без человеческих данных, достигла 71% на AIME 2024 после самооптимизации через RL .
- Сравнение с Kimi k1.5 (128K контекстное окно): DeepSeek-R1 сильнее в логике, Kimi — в мультимодальности .
3. 22 января:
- Обсуждение в сообществе:
- «RL is all you need» — тезис DeepSeek, бросивший вызов традиционным подходам .
- Модель получила прозвище «AlphaGo для открытых LLM» за способность к самообучению .
4. 23 января:
- Запуск «цепочки рассуждений» (Chain-of-Thought) в API: пользователи могут видеть логику модели перед финальным ответом .
- Meta начинает внутренние эксперименты по воспроизведению R1, опасаясь потери лидерства .
5. 25 января:
- DeepSeek-R1 занимает 1-е место в рейтинге Arena (стиль и логика), обойдя OpenAI o1 .
- Акции NVIDIA падают на 3,12% на фоне дискуссий о снижении спроса на GPU из-за эффективности R1 .
6. 26 января:
- Реакция Запада:
- Scale AI CEO Александр Ванг называет R1 «переломным моментом» в гонке ИИ .
- Марк Андриссен хвалит открытость модели как «дар миру» .
- Meta анонсирует ускорение разработки Llama 4 и инвестиции в 1,3 млн GPU .
7. 28–29 января:
- Аналитики (Morgan Stanley, UBS) прогнозируют волну инноваций благодаря снижению стоимости ИИ-разработки .
- Влияние на рынок: сомнения в устойчивости оценки американских AI-стартапов, чьи модели дороже и закрытее .
В целом, можно сделать вывод, что DeepSeek-R1 не просто «догнал» OpenAI — он изменил правила игры через открытость и экономическую эффективность. Это заставило Запад пересмотреть стратегии, а инвесторов — усомниться в монополии США на ИИ. Главный урок: «Китай работает, пока Америка отдыхает» .
#ai #llm #ainews
5300
00:18
29.01.2025
imageИзображение не доступно для предпросмотраplay_circleВидео недоступно для предпросмотра
Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
▪operator
В преддверии релиза OpenAI Operator разработчики начали собирать полезные ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
▪Github
Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .
Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
▪Dataset
⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?
Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
▪Github ▪Статья ▪HF
Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
▪Доступ
▪Новость
Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.
Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
▪Новость
@ai_machinelearning_big_data
#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot #Anthropic #Claude
7700
04:07
25.01.2025
Собрал для вас редкие и полезные каналы про нейронки:
НейроProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.
Tips AI | IT & AI — пишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.
Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.
Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект приносящий прибыль.
Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.
7800
06:22
23.01.2025
Deepseek выпустила собственные мобильные приложения.
Приложение DeepSeek - AI Assistant доступно для загрузки в Google Play и App Store
В целом, приложение повторяет функционал веб версии чата:
- Веб поиск
- Распознавание текста на изображениях
- Работа с документами
#llm #deepseek
Приложение DeepSeek - AI Assistant доступно для загрузки в Google Play и App Store
В целом, приложение повторяет функционал веб версии чата:
- Веб поиск
- Распознавание текста на изображениях
- Работа с документами
#llm #deepseek
10500
16:02
21.01.2025
imageИзображение не доступно для предпросмотраplay_circleВидео недоступно для предпросмотра
Генерация AI видео у себя на ПК: HunyuanVideo.
Из всех open-source моделей - HunyuanVideo наиболее интересная, она может генерировать видео в разрешении 720P и с длиной до 129 кадров.
Рекомендуемые системные требования:
Для более-менее нормальной работы с данной моделью вам потребуется ПК с RTX 4090 или 3090 на борту, а также 64+ Гб оперативной памяти.
Наиболее актуальным решением для работы с моделью является ComfyUI - там больше всего полезных оптимизаций.
Если вы уже разбираетесь в ComfyUI и умеете ставить pip пакеты - то дальше рекомендую ознакомиться с постом от TensorBanana.
Я немного пошел дальше, прикрутил более квантованный text encoder, а также объединил все актуальные способы ускорения инференса:
- За основу взята модель FastHunyuan, которая позволяет сгенерировать нормальный результат за 6-10 шагов вместо 30, а еще она и квантованная до FP8.
- Сборка основана на Cuda 12.6 и torch-nightly 2.7.0
- Используются sage-attn-2 и triton
- Активирован WaveSpeed (он, кстати, еще и генерации Flux ускорять должен)
- Включен TeaCache
- Используется Tiled Vae
В конечном итоге, генерация видео в разрешении 960x544 и длинной в 89 кадров (несколько секунд видео) занимает у меня полторы-две минуты. Результаты генераций вы можете увидеть наверху.
Из минусов, наверное, то что она не умеет в нормальное img2video. По крайней мере - на данный момент.
Да, кстати, совсем забыл. Модель отлично умеет работать с NSFW контентом, есть огромное количество LoRA, которые расширяют эти возможности - позы, действия и прочие непотребности. Вполне достаточно, чтобы наплодить виртуальных онлифанс моделей.☕️
Искать, разумеется, на civit.ai, примеры тут показывать не буду.
Архив со сборкой получился более чем на 20 гигабайт. Поэтому хотел бы спросить вас - нужна ли вам такая сборка? Достаточно ли среди моих пользователей владельцев карт, которые могут себе позволить работу с данной моделью?
#aivideo #txt2video
Из всех open-source моделей - HunyuanVideo наиболее интересная, она может генерировать видео в разрешении 720P и с длиной до 129 кадров.
Рекомендуемые системные требования:
Для более-менее нормальной работы с данной моделью вам потребуется ПК с RTX 4090 или 3090 на борту, а также 64+ Гб оперативной памяти.
Наиболее актуальным решением для работы с моделью является ComfyUI - там больше всего полезных оптимизаций.
Если вы уже разбираетесь в ComfyUI и умеете ставить pip пакеты - то дальше рекомендую ознакомиться с постом от TensorBanana.
Я немного пошел дальше, прикрутил более квантованный text encoder, а также объединил все актуальные способы ускорения инференса:
- За основу взята модель FastHunyuan, которая позволяет сгенерировать нормальный результат за 6-10 шагов вместо 30, а еще она и квантованная до FP8.
- Сборка основана на Cuda 12.6 и torch-nightly 2.7.0
- Используются sage-attn-2 и triton
- Активирован WaveSpeed (он, кстати, еще и генерации Flux ускорять должен)
- Включен TeaCache
- Используется Tiled Vae
В конечном итоге, генерация видео в разрешении 960x544 и длинной в 89 кадров (несколько секунд видео) занимает у меня полторы-две минуты. Результаты генераций вы можете увидеть наверху.
Из минусов, наверное, то что она не умеет в нормальное img2video. По крайней мере - на данный момент.
Да, кстати, совсем забыл. Модель отлично умеет работать с NSFW контентом, есть огромное количество LoRA, которые расширяют эти возможности - позы, действия и прочие непотребности. Вполне достаточно, чтобы наплодить виртуальных онлифанс моделей.
Искать, разумеется, на civit.ai, примеры тут показывать не буду.
Архив со сборкой получился более чем на 20 гигабайт. Поэтому хотел бы спросить вас - нужна ли вам такая сборка? Достаточно ли среди моих пользователей владельцев карт, которые могут себе позволить работу с данной моделью?
#aivideo #txt2video
9400
17:17
20.01.2025
imageИзображение не доступно для предпросмотра
DeepSeek-R1: Китайский ответ на o1-модели.
Ключевые особенности
Улучшенная версия DeepSeek-R1
Несмотря на успехи Zero-версии, в DeepSeek-R1 добавили холодный SFT, чтобы поднять читабельность ответов и устранить бесконечные повторы. В итоге модель удачно сбалансировала мощное reasoning-ядро, полученное через RL, и аккуратную стилистику «человеческих» ответов. На целой серии бенчмарков (математика, код и логические вопросы) DeepSeek-R1 демонстрирует уровень, сопоставимый с коммерческими системами вроде OpenAI-o1.
Архитектура, параметры и открытость
- DeepSeek-R1-Zero и DeepSeek-R1 строятся на базе DeepSeek-V3-Base.
- По архитектуре это MoE-модель с общим числом параметров около 671B и «активированными» параметрами порядка 37B.
- Поддерживается контекст до 128K
- Обе версии доступны в открытом доступе на HuggingFace
Дистилляция: уменьшенные модели без потери качества
Создатели DeepSeek-R1 не остановились лишь на гигантских вариантах. Они показали, что «умение рассуждать» вполне может быть передано более компактным архитектурам. С помощью ответов, генерируемых DeepSeek-R1, разработчики «дистиллировали» набор меньших dense-моделей: от 1.5B до 70B параметров, основанных на Qwen2.5 и Llama3.
Результаты на бенчмарках
Ниже — некоторые из самых заметных показателей, по которым команда оценивала модели:
- Математика:
- AIME 2024: DeepSeek-R1 достиг 79.8% (pass@1), что выше, чем у конкурирующих решений (к примеру, 79.2% у OpenAI-o1-1217).
- MATH-500: 97.3% pass@1! Это один из лучших результатов среди представленных систем.
- CNMO 2024: прорыв в решении китайских олимпиадных задач — 78.8% pass@1.
- Программирование:
- Codeforces: DeepSeek-R1 «выдаёт» около 96.3% (percentile) и «рейтинг» 2029, сопоставимый с очень сильными ботами (OpenAI-o1-1217 набирает 96.6% и рейтинг 2061).
- LiveCodeBench: 65.9% (pass@1-COT), то есть уверенное решение кода, включая пошаговые рассуждения.
- Общий reasoning:
- MMLU: pass@1 = 90.8%, очень близко к 91.8% у OpenAI-o1-1217.
- GPQA Diamond: DeepSeek-R1 вышел на 71.5% против 75.7% у OpenAI-o1-1217, что всё равно довольно внушительно.
Также впечатляет, что несколько дистиллированных моделей (DeepSeek-R1-Distill) сумели близко приблизиться к этим же результатам и даже обогнать некоторые коммерческие аналоги на отдельных наборах. К примеру, DeepSeek-R1-Distill-Qwen-32B вышел на 62.1% (pass@1) в GPQA Diamond и 57.2% на LiveCodeBench (pass@1), уступая лишь большим моделям, но при этом значительно опережая аналогичные 32B-модели без дистилляции.
Доступные версии
Разработчики открыли исходные веса, а также подготовили удобные точки входа:
1. DeepSeek-R1-Zero и DeepSeek-R1
- Параметров (общее/активные): ~671B / 37B
- Контекст: до 128K
2. DeepSeek-R1-Distill (различные модели на базе Qwen2.5 и Llama3)
- Qwen: 1.5B, 7B, 14B, 32B
- Llama: 8B, 70B
Отдельно стоит отметить, что конфигурации и токенизаторы у дистиллированных моделей немного модифицированы по сравнению с оригиналами (Qwen2.5 и Llama3), поэтому важно использовать именно настройки от команды DeepSeek при запуске.
Официальные ссылки и ресурсы:
- DeepSeek-R1-Zero и DeepSeek-R1 на Hugging Face
Квантованная версия в GGUF формате:
DeepSeek-R1-Distill-Qwen-7B-gguf (Q5_K_M)
DeepSeek-R1-Distill-Qwen-14B-GGUF (Q4_K_M)
Также DeepSeek-R1 доступна бесплатно в официальном чате: https://chat.deepseek.com/
Ключевые особенности
Улучшенная версия DeepSeek-R1
Несмотря на успехи Zero-версии, в DeepSeek-R1 добавили холодный SFT, чтобы поднять читабельность ответов и устранить бесконечные повторы. В итоге модель удачно сбалансировала мощное reasoning-ядро, полученное через RL, и аккуратную стилистику «человеческих» ответов. На целой серии бенчмарков (математика, код и логические вопросы) DeepSeek-R1 демонстрирует уровень, сопоставимый с коммерческими системами вроде OpenAI-o1.
Архитектура, параметры и открытость
- DeepSeek-R1-Zero и DeepSeek-R1 строятся на базе DeepSeek-V3-Base.
- По архитектуре это MoE-модель с общим числом параметров около 671B и «активированными» параметрами порядка 37B.
- Поддерживается контекст до 128K
- Обе версии доступны в открытом доступе на HuggingFace
Дистилляция: уменьшенные модели без потери качества
Создатели DeepSeek-R1 не остановились лишь на гигантских вариантах. Они показали, что «умение рассуждать» вполне может быть передано более компактным архитектурам. С помощью ответов, генерируемых DeepSeek-R1, разработчики «дистиллировали» набор меньших dense-моделей: от 1.5B до 70B параметров, основанных на Qwen2.5 и Llama3.
Результаты на бенчмарках
Ниже — некоторые из самых заметных показателей, по которым команда оценивала модели:
- Математика:
- AIME 2024: DeepSeek-R1 достиг 79.8% (pass@1), что выше, чем у конкурирующих решений (к примеру, 79.2% у OpenAI-o1-1217).
- MATH-500: 97.3% pass@1! Это один из лучших результатов среди представленных систем.
- CNMO 2024: прорыв в решении китайских олимпиадных задач — 78.8% pass@1.
- Программирование:
- Codeforces: DeepSeek-R1 «выдаёт» около 96.3% (percentile) и «рейтинг» 2029, сопоставимый с очень сильными ботами (OpenAI-o1-1217 набирает 96.6% и рейтинг 2061).
- LiveCodeBench: 65.9% (pass@1-COT), то есть уверенное решение кода, включая пошаговые рассуждения.
- Общий reasoning:
- MMLU: pass@1 = 90.8%, очень близко к 91.8% у OpenAI-o1-1217.
- GPQA Diamond: DeepSeek-R1 вышел на 71.5% против 75.7% у OpenAI-o1-1217, что всё равно довольно внушительно.
Также впечатляет, что несколько дистиллированных моделей (DeepSeek-R1-Distill) сумели близко приблизиться к этим же результатам и даже обогнать некоторые коммерческие аналоги на отдельных наборах. К примеру, DeepSeek-R1-Distill-Qwen-32B вышел на 62.1% (pass@1) в GPQA Diamond и 57.2% на LiveCodeBench (pass@1), уступая лишь большим моделям, но при этом значительно опережая аналогичные 32B-модели без дистилляции.
Доступные версии
Разработчики открыли исходные веса, а также подготовили удобные точки входа:
1. DeepSeek-R1-Zero и DeepSeek-R1
- Параметров (общее/активные): ~671B / 37B
- Контекст: до 128K
2. DeepSeek-R1-Distill (различные модели на базе Qwen2.5 и Llama3)
- Qwen: 1.5B, 7B, 14B, 32B
- Llama: 8B, 70B
Отдельно стоит отметить, что конфигурации и токенизаторы у дистиллированных моделей немного модифицированы по сравнению с оригиналами (Qwen2.5 и Llama3), поэтому важно использовать именно настройки от команды DeepSeek при запуске.
Официальные ссылки и ресурсы:
- DeepSeek-R1-Zero и DeepSeek-R1 на Hugging Face
Квантованная версия в GGUF формате:
DeepSeek-R1-Distill-Qwen-7B-gguf (Q5_K_M)
DeepSeek-R1-Distill-Qwen-14B-GGUF (Q4_K_M)
Также DeepSeek-R1 доступна бесплатно в официальном чате: https://chat.deepseek.com/
7900
14:15
20.01.2025
play_circleВидео недоступно для предпросмотра
Hailuo S2V-01
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
Hailuo S2V-01
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
новая модель видеогенератора Minimax
Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа
#text2video #image2video #personalization
9900
14:59
15.01.2025
imageИзображение не доступно для предпросмотра
🤖 Монетизация ИИ за 3 дня: без кода, без сложностей, только практика
Уже научились общаться с ChatGPT и генерировать арты в DALL-E? Отлично! Время пойти дальше и начать зарабатывать на этих навыках.
💥 С 21 по 23 января на интенсиве по разработке ИИ-ассистентов вы:
• Разберетесь, как ИИ становится не просто помощником, а настоящим бизнес-инструментом
• Научитесь создавать собственные GPT для автоматизации рутинных задач (регламенты, планы, стратегии)
• Запустите контент-мейкера на основе Claude, который будет работать за вас
• Соберете универсального продавца на nocode-платформе для создания ИИ-ассистентов, который умеет продавать и закрывать сделки
• Получите новую возможность для заработка в 2025
Звучит круто?
Это ещё не всё.
Средняя стоимость одного такого ассистента на заказ — от 250$. И вы научитесь делать их за 3 дня.
Почему вам это нужно?
ИИ изменил правила игры. Если вы уже освоили базовые навыки, время перейти на следующий уровень: научиться применять их для автоматизации и зарабатывать на этом.
Что будет на интенсиве?
✅Никакого кода или заумных терминов
✅Только практические кейсы от людей, которые уже делают деньги на ИИ
✅Каждый день — максимальная польза и реальные кейсы
🎁 Бонусом получите:
• Видеоурок по автоматизации в Make
• Скидка 50% на платформу для создания GPT-ассистентов
• Доступ к закрытому чату ИИ-энтузиастов
ИИ — это не просто новая технология, это новая эпоха. И вы можете быть среди тех, кто станет ее лидером.
👉 Регистрация по ссылке https://clck.ru/3FiLph
Уже научились общаться с ChatGPT и генерировать арты в DALL-E? Отлично! Время пойти дальше и начать зарабатывать на этих навыках.
💥 С 21 по 23 января на интенсиве по разработке ИИ-ассистентов вы:
• Разберетесь, как ИИ становится не просто помощником, а настоящим бизнес-инструментом
• Научитесь создавать собственные GPT для автоматизации рутинных задач (регламенты, планы, стратегии)
• Запустите контент-мейкера на основе Claude, который будет работать за вас
• Соберете универсального продавца на nocode-платформе для создания ИИ-ассистентов, который умеет продавать и закрывать сделки
• Получите новую возможность для заработка в 2025
Звучит круто?
Это ещё не всё.
Средняя стоимость одного такого ассистента на заказ — от 250$. И вы научитесь делать их за 3 дня.
Почему вам это нужно?
ИИ изменил правила игры. Если вы уже освоили базовые навыки, время перейти на следующий уровень: научиться применять их для автоматизации и зарабатывать на этом.
Что будет на интенсиве?
✅Никакого кода или заумных терминов
✅Только практические кейсы от людей, которые уже делают деньги на ИИ
✅Каждый день — максимальная польза и реальные кейсы
🎁 Бонусом получите:
• Видеоурок по автоматизации в Make
• Скидка 50% на платформу для создания GPT-ассистентов
• Доступ к закрытому чату ИИ-энтузиастов
ИИ — это не просто новая технология, это новая эпоха. И вы можете быть среди тех, кто станет ее лидером.
👉 Регистрация по ссылке https://clck.ru/3FiLph
8500
06:03
15.01.2025
close
С этим каналом часто покупают
Отзывы канала
Отзывов нет
Новинки в тематике
Лучшие в тематике
Выбрано
0
каналов на сумму:0.00₽
Подписчики:
0
Просмотры:
Перейти в корзинуКупить за:0.00₽
Комментарий