
🔥 Заказ на 20+ каналов — шанс выиграть iPhone 16 Pro
Массовые размещения дают просмотры в 2-3 раза дешевле и участие в розыгрыше
Подробнее

РегистрацияВойтиВойти
Скидка 3,5% на первые три заказа
Получите скидку на первые три заказа!
Зарегистрируйтесь и получите скидку 3,5% на первые рекламные кампании — промокод активен 7 дней.
19.3
![Размещение интеграции в Telegram. Логотип Телеграм канала "Data science | Machinelearning [ru]" Размещение интеграции в Telegram. Логотип Телеграм канала @devsp](https://telega-images.storage.yandexcloud.net/uploads/channels/avatars/000/007/313/original/thumb_140_22756803.jpg)
Data science | Machinelearning [ru]
4.8
33
Наука и технологии
1.3K
18
Статьи на тему data science, machinelearning, big data, artificial intelligence, python, математика.
Аудитория - IT специалисты и те кто хочет ими стать
Канал постоянно привлекает новых подписчиков.
Поделиться
В избранное
Купить рекламу в этом канале
Формат:
keyboard_arrow_down
- 1/24
- 2/48
- 3/72
- 7 дней
1 час в топе / 24 часа в ленте
Количество:
%keyboard_arrow_down
- 1
- 2
- 3
- 4
- 5
- 8
- 10
- 15
Стоимость публикации:
local_activity
14 825.16₽14 825.16₽local_mall
0.0%
Осталось по этой цене:0
Последние посты канала
play_circleВидео недоступно для предпросмотра
Разработчики: «У нас нет выгорания»
Разработчики после рабочего дня:
💥 xCode Journal
1363
21:37
11.09.2025
imageИзображение не доступно для предпросмотра
Разбираемся, что «под капотом» у дата-платформ
SmartData — это конференция не про «ценность данных для бизнеса». Это площадка, где обсуждают, как устроены реальные системы.
Программа конференции охватывает все стороны работы с данными — от Analytical до Data и ML Engineering, Data Governance и Data Quality, от старых добрых Airflow и Hadoop до Bleeding Edge «в лице» StarRocks и DataFusion Comet.
Станьте частью профессионального сообщества 5–6 октября в Санкт-Петербурге.
С промокодом YA10 персональные билеты дешевле.
Узнать больше
#реклама
smartdataconf.ru
О рекламодателе
1241
22:00
11.09.2025
imageИзображение не доступно для предпросмотра
Как подготовить качественные данные для LLM 👌
Когда речь идет о внедрении больших языковых моделей (LLM) в бизнес-процессы, от ботов техподдержки до HR-ассистентов, ключевым моментом становится качественная подготовка данных. И если объём данных важен, то качество играет решающую роль: хорошие данные снижают ошибки и помогают моделям работать точнее. В этом посте поделимся инструментами, которые упростят обработку и нормализацию ваших данных.
1. dlt — авто-создание датасетов для различных источников данных dlt — это Python-библиотека с открытым исходным кодом, которая позволяет генерировать датасеты из самых разных источников: SQL, векторные хранилища, локальные БД и многое другое. dlt не только помогает преобразовать данные, но и поддерживает автоматическую миграцию схем, инкрементальную загрузку и мониторинг. Это идеальное решение для быстрого формирования и нормализации больших объемов данных. 2. Databonsai — оптимизация данных с помощью LLM Databonsai помогает очищать и разметить данные с использованием LLM. Библиотека позволяет категоризировать неструктурированные данные и даже обрабатывать их пакетами для экономии токенов. В дополнение, Databonsai поддерживает трансформацию данных, создавая улучшенные шаблоны вывода для структурированных результатов. Это идеальный инструмент для тех, кто работает с большим количеством неструктурированных данных. 3. Lilac — проверка и кластеризация неструктурированных данных Lilac был создан для обработки неструктурированных данных перед обучением LLM. Этот инструмент помогает фильтровать, кластеризовать и аннотировать данные, а также отслеживать изменения в разных версиях датасетов. Lilac особенно полезен для обработки текстов и изображений, а его интеграция с Databricks позволяет более эффективно работать с большими данными. Это решение помогает устранить ошибки в данных до того, как они попадут в модель. 4. Oxen — система контроля версий для больших данных Oxen — это система для контроля версий больших датасетов, таких как CSV-файлы с миллионами строк. В отличие от стандартных инструментов, таких как Git LFS, Oxen оптимизирован для работы с крупными данными. Он имеет интерфейс командной строки и библиотеки для Python и Rust, а также интеграцию с HTTP. Это идеальный выбор для разработчиков, работающих с большими объемами данных и нуждающихся в высокой скорости.Каждый из этих инструментов решает специфические задачи по обработке данных, которые необходимы для успешного внедрения LLM в продакшн. Работали с подобными инструментами в своих проектах? Data Science
1680
09:07
12.09.2025
imageИзображение не доступно для предпросмотра
Qwen3-Next: Новая модель от Alibaba — мощь, цена и скорость в одном флаконе 🍒
Alibaba представила новое поколение своих языковых моделей — Qwen3-Next, которое обещает сочетание мощности крупных моделей с ценой и скоростью средних. В линейке доступны три версии:
— Base: для исследований и дообучения — Instruct: основная версия для приложений и общения — Thinking: для задач, требующих пошагового рассуждения, например, в математике или логике Что нового в Qwen3-Next? Qwen3-Next использует уникальную архитектуру mixture-of-experts: из 80 миллиардов параметров модель задействует лишь 3 миллиарда, выбирая «нужных специалистов» под задачу. Это позволяет значительно ускорить работу без потери качества. Кроме того, модель поддерживает работу с очень длинными документами — до 262 тысяч токенов «из коробки» и до 1 миллиона токенов в специальном режиме. По заявлению разработчиков, обучение модели обходится в 10 раз дешевле, чем у предыдущей версии Qwen3-32B, а её пропускная способность на длинных контекстах увеличена более чем в 10 раз. • Уровень производительности сопоставим с Gemini 2.5 Flash и Qwen3-235B, но при этом запуск требует меньших ресурсов • Открытая лицензия Apache-2.0, доступ через Hugging FaceПодходит для работы с движками SGLang и vLLM, поддерживающими как длинный контекст, так и ускоренные режимы генерации. Как вам такие решения от китайцев? 😮💨 Data Science
1785
22:37
12.09.2025
imageИзображение не доступно для предпросмотра
ИИ уже сам настраивает окружение и разворачивает приложения
Открытые репозитории с кодом, моделями и датасетами предлагают массу готовых решений. Однако, чтобы заставить всё работать, разработчикам часто приходится вручную настраивать окружение, устанавливать зависимости, скачивать нужные файлы и правильно настроить параметры. Но теперь есть решение, которое меняет подход.
EnvX — это не просто инструмент, а настоящий ассистент для разработчиков, который использует возможности больших языковых моделей (LLM) для автоматизации многих задач. Он помогает автоматизировать не только подготовку окружения, но и взаимодействие между разными репозиториями, обеспечивая их «умную» кооперацию через стандартный интерфейс. Агент понимает README файлы, автоматически настраивает все необходимые компоненты и выполняет функции, руководствуясь природными инструкциями, без необходимости переписывать код. Как это работает? Всё делится на три ключевых фазы. Первая — подготовка рабочего окружения. EnvX автоматически извлекает все необходимые шаги из документации и туториалов, собирает их в TODO-план и может выполнить их в нужной последовательности, при этом откатывая изменения, если что-то пошло не так. Это позволяет существенно упростить настройку и проверку окружения. Вторая фаза — агентная автоматизация. Агент осваивает базовые DevOps-инструменты и понимает, как взаимодействовать с конкретным репозиторием. Он находит нужные функции и вызывает их с корректными параметрами, объясняя, что именно происходит на каждом шаге. Важно, что это всё происходит прозрачно и с возможностью повторить шаги при необходимости. Третья фаза — взаимодействие агентов. Благодаря стандартизированному интерфейсу (A2A) агенты могут обмениваться информацией и работать вместе, решая задачи, которые требуют кооперации между различными репозиториями. Это позволяет создать действительно эффективную мультиагентную систему, где все элементы работают как единое целое. В основе работы EnvX лежат несколько важных технологий, включая загрузку артефактов, управление зависимостями, чтение и запись файлов, а также поддержку множества популярных инструментов. Всё это даёт возможность работать с репозиториями в любом контексте, независимо от их специфики. В испытаниях на репозиториях с различными типами задач (от обработки изображений до работы с текстами и видео) EnvX показал лучшие результаты в области исполнимости и качества работы. В сравнении с другими решениями, такими как OpenHands и Aider, система на основе EnvX продемонстрировала заметные улучшения по нескольким меткам, включая процент успешных завершённых задач (ECR) и качество выполнения задач (TPR).Data Science
4160
14:07
13.09.2025
imageИзображение не доступно для предпросмотра
Разработчики: пусть нейронка напишет ВЕСЬ проект
Астрологи:
💥 xCode Journal
1484
15:37
14.09.2025
imageИзображение не доступно для предпросмотра
Демис Хассабис о будущем ИИ: «Глупо сравнивать их с PhD»
В интервью на All-In Summit генеральный директор Google DeepMind, Демис Хассабис, поделился важными размышлениями о текущем состоянии искусственного интеллекта. Он резко осудил сравнением современных ИИ-систем с «интеллектом уровня PhD», назвав такие утверждения бессмысленными. По словам Хассабиса, текущие модели ИИ могут производить ответы на уровне аспиранта, но все же не справляются с простыми задачами, как, например, базовая школьная математика.
Хассабис пояснил, что современные ИИ обладают так называемым «рваным интеллектом». Эти системы могут блестяще выполнять узкоспециализированные задачи, но в той же мере терпят фиаско, если задача выходит за пределы их узкой специализации. Например, в математике, в отличие от человека, модель ИИ может допустить элементарные ошибки. Что такое AGI? На вопрос о настоящем искусственном общем интеллекте (AGI) Хассабис ответил, что до его появления остаётся ещё 5–10 лет. Он подчеркнул, что AGI должен быть способен делать логичные выводы и не совершать таких базовых ошибок. А чтобы достичь этого, необходимо совершить несколько крупных прорывов в области постоянного обучения и обновления знаний. Мировые модели и будущее ИИ. В DeepMind делают ставку на world models — модели, которые обучаются на видео и симуляциях для предсказания динамики окружающей среды. Эти модели должны стать основой для виртуальных агентов и роботов, которые смогут действовать в реальном мире, а не просто генерировать тексты или отвечать на вопросы.Кроме того, Хассабис отметил, что прогресс в достижении AGI нужно измерять не одним числом или индексом, а набором задач и реальными приложениями. Уже сейчас, через компанию Isomorphic Labs, DeepMind использует ИИ для разработки новых лекарств и ускорения научных исследований. Как вы считаете, когда ИИ достигнет уровня AGI?
👍 — Через 5–10 лет, как сказал Хассабис 🐳 — Скорее всего, намного позже и достигнет лиData Science
1246
19:07
14.09.2025
imageИзображение не доступно для предпросмотра
ArcMemo: ИИ, который не забывает важное!
В отличие от традиционных моделей, которые теряют нить рассуждений между запросами, ArcMemo представляет собой инновационную систему памяти для LLM (Large Language Models), позволяя моделям сохранять и повторно использовать ключевые концепции для решения задач 😊
Как работает ArcMemo? В обычных моделях длинные цепочки рассуждений исчезают после каждого запроса, что приводит к потере полезных паттернов и концепций. Вот что предлагает ArcMemo: • Сохранение концепций: ArcMemo позволяет сохранять абстрактные модули как концепции, представленные на естественном языке или в виде параметрических мини-функций. • Типы концепций. Открытые — описание ситуации и подсказка. Программируемые — псевдокод и функции с параметрами. • Процесс работы: после решения задачи она обобщается в набор таких концепций. Для новой задачи модель выбирает релевантные концепции и комбинирует их для решения. • Обновление памяти: с каждым тестом модель получает обратную связь, что позволяет расширять и актуализировать память. Система ArcMemo продемонстрировала +7.5% улучшения по сравнению с базовой моделью на бенчмарке ARC-AGI.Модульная память в виде концепций значительно улучшает переносимость знаний и делает решения более стабильными, позволяя модели учиться и адаптироваться к новым задачам, не забывая важное. А вы что думаете? Интересно будет почитать ваше мнение 🐹 Data Science
1002
11:07
15.09.2025
imageИзображение не доступно для предпросмотра
Оживи робота своим алгоритмом и поборись за призовой фонд в 10 250 000 рублей на True Tech Champ 2025.
True Tech Champ 2025 — это третий всероссийский чемпионат по программированию от МТС с онлайн-этапами отбора и грандиозным шоу-финалом в Москве.
Тебя ждут два трека — выбирай:
I. Алгоритмический [призовой фонд 2 750 000 рублей].
Если классический олимпиадный формат — твоя стихия, этот трек для тебя. Блесни математическими навыками, покажи скилы в работе со структурами данных и написании алгоритмов — и окажись выше соперников в турнирной таблице.
II. Программирование роботов [призовой фонд 7 500 000 рублей].
Запрограммируй робота на скоростное прохождение лабиринта в симуляторе и пройди в финал. На финале участники встретятся офлайн и сразятся на четырех уровнях с полосой препятствий, вспышками света, лазерами и другими препятствиями.
Трек будет интересен начинающим и опытным разработчикам: С++, Go, Python, JS, Java, C# и не только.
Подробности на сайте. Регистрация открыта до 20 октября.
923
15:07
15.09.2025
imageИзображение не доступно для предпросмотра
Галлюцинации или когда ИИ придумывает фальшивые библиотеки и запускает опасные атаки 🤔
Совсем недавно в мире опенсорсных библиотек произошло нечто странное — ИИ стал создавать выдуманные пакеты. Чат-боты генерируют несуществующие библиотеки и предлагают программистам их использовать. Одним из таких примеров стало создание несуществующего сервиса для генерации нот на основе текстовых файлов, который потом был воплощён разработчиком. Самое страшное, что это становятся настоящей угрозой для безопасности.
При использовании LLM (Large Language Models) для поиска опенсорсных библиотек, часто встречаются галлюцинации, когда ИИ генерирует библиотеки, которых на самом деле не существует. Злоумышленники уже начали использовать эти ошибки в своих целях, создавая вредоносные библиотеки. Это явление получило название slopsquatting и представляет собой создание фальшивых пакетов с целью кражи данных или внедрения вредоносного кода через цепочку поставок (supply chain). Внедрение таких фальшивых пакетов в код может привести к серьёзным последствиям. Когда программисты скачивают эти «несуществующие» библиотеки, они автоматически запускают опасный код, который может нарушить работу системы или даже украсть важные данные. Тесты показали: из всех предложенных библиотек 19,7% оказались фиктивными. Это вызывает серьёзные опасения, поскольку с каждым годом количество таких галлюцинаций растёт. Уровень ошибок у новых моделей ИИ на Python и JavaScript увеличился на 10% по сравнению с предыдущими версиями, что означает рост числа ложных рекомендаций. Защита от таких атак. Исследователи предлагают несколько методов защиты, таких как RAG (retrieval-augmented generation) и файнтюнинг (настройка моделей для более точных ответов). Эти методы помогли снизить уровень галлюцинаций на 83%, но в то же время повлияли на качество кода, что требует дополнительных доработок.Если ваша система работает с нейросетями для поиска библиотек, важно понимать риски, связанные с неверными рекомендациями. Чем более мощная модель, тем выше шанс получить вымышленную библиотеку. И хотя защита существует, как вы думаете, проблема останется актуальной? Data Science
728
20:07
15.09.2025
close
С этим каналом часто покупают
Отзывы канала
keyboard_arrow_down
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
4.8
0 отзыва за 6 мес.
m
**rketing@******.cloud
на сервисе с июля 2024
14.01.202512:30
3
Низкая конверсия
Показать еще
Лучшие в тематике
Новинки в тематике
keyboard_double_arrow_left
shopping_cart
Каналов:
0
Подписчиков:
0
Просмотров:
lock_outline
Итого:
0.00₽
Перейти в корзину
Очистить корзину
Вы действительно хотите очистить корзину?
Вы снова сможете добавить каналы в корзину из каталога
Вы снова сможете добавить каналы в корзину из каталога
Очистить
Отменить
Комментарий