
- Главная
- Каталог
- Интернет технологии
- Библиотека data scientist’а
Библиотека data scientist’а
Полезные материалы по всему, что может быть интересно дата сайентисту.
Статистика канала
Просто запустить модель — это 10% успеха. Остальные 90% — это логика рассуждений и доступ к актуальным данным. Мы подготовили глубокий курс по созданию автономных AI-агентов.
В фокусе курса:
— реализация паттерна
ReAct (Reasoning + Acting) для автономного планирования;— глубокий
RAG: построение баз знаний, работающих на скоростях ИИ;— использование
CrewAI и AutoGen для координации групп агентов;— освоение протокола
MCP для интеграции с внешними источниками.Ваш результат: готовый проект мультиагентной системы для анализа рынка или автоматизации поддержки.
Глубокое погружение в агентов 🧠
Anthropic выпустили Bloom — open-source фреймворк для поведенческих eval’ов LLM
Идея простая и болезненно актуальная: не тестировать сценарии, которые устаревают быстрее модели, а фиксировать само поведение. Bloom генерирует сценарии автоматически и прогоняет eval за дни, а не недели. Если вы хоть раз переписывали prompt-eval перед релизом — вы целевая аудитория.
Andrej Karpathy — LLM Year in Review 2025
Карпати аккуратно подводит итог: быстрые inference-движки, дистилляция как стандарт, агенты в реальном времени и рост реально сильных open-моделей. Читается как карта местности: где мы есть и куда всё это едет.
Your Year with ChatGPT
OpenAI сделали Spotify Wrapped для ChatGPT. Забавно, но за этим хорошо видно, что ChatGPT всё больше позиционируется как персональный рабочий инструмент, а не просто чат.
NotebookLM научился превращать источники в Data Tables
NotebookLM теперь автоматически собирает структурированные таблицы из документов и сразу готовит их к экспорту в Google Sheets. Мелочь, но именно такие фичи съедают куски ручной аналитической работы.
Google: итоги 2025 — 8 направлений прорывов
Агенты, reasoning, научные открытия — Google подводит итоги года без лишнего маркетинга. Хороший обзор, чтобы понять реальные исследования.
Gemma Scope 2 — интерпретируемость Gemma 3 от DeepMind
Полноценный стек инструментов, который показывает, как модель думает на уровне слоёв и представлений.
Apache Spark 4.1
Улучшения под капотом, оптимизации и стабильность.
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
SAM — одна из самых впечатляющих моделей для сегментации изображений. Внутри она состоит из трёх ключевых частей: image encoder, prompt encoder и mask decoder.
Изображение 1024×1024 разбивается на патчи 16×16 → всего 4096 патчей. Каждый патч кодируется в вектор размерности 1280 и проходит через ViT (self-attention).
На выходе получается общее визуальное представление изображения — тензор 256×64×64, своего рода «визуальная память», с которой дальше работает модель.
Обрабатывает пользовательские подсказки:
— точки и bounding box’ы → превращаются в векторы размерности 256
— mask-подсказки → уменьшаются до 64×64 и кодируются свёртками
Важно: никаких трансформеров и self-attention здесь нет, всё максимально лёгкое. Все prompt-векторы объединяются и дополняются специальными токенами для масок и IoU.
Здесь начинается «магия»:
— self-attention между токенами
— cross-attention между токенами и изображением (в обе стороны)
— совместное рассуждение о том, что запросил пользователь и что есть на картинке
Каждый mask-токен в итоге порождает маску, а отдельный IoU-токен оценивает её качество.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Разыскивается специалист, который видит паттерны там, где остальные видят хаос. Хватит тренировать модели в одиночку — пора обучать людей.
Приметы:
— мастерски владеет
Python и библиотеками анализа данных;— умеет объяснять сложную математику буквально «на пальцах»;
— реализовал несколько успешных ML-проектов в проде;
— готов делиться знаниями с большой аудиторией.
Суть сделки:
— гонорар за разработку и проведение программ;
— прокачка личного бренда в среде Data Science;
— медийная поддержка от команды Proglib.
Сдаться по ссылке
P.S. Знаешь того, кто «слишком много знает» о нейронках? Сдай его нам.
Небольшой, но очень наглядный проект: автор шаг за шагом собирает минималистичную tensor-библиотеку на C, объясняя, как работают нейросети на базовом уровне.
Без PyTorch и NumPy — только математика, структуры данных и явные вычисления.
📖 Статья и проект: https://clc.to/MQ3OGQ
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg
Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Всего несколько минут и у вас:
⏺️ готовая база на сетевых или локальных дисках⏺️ постоянный primary endpoint⏺️ безопасное подключение через Private Link⏺️ автоматические бэкапы и обслуживания по твоему расписанию
🎄🎁 И грант до 10 000 ₽ на запуск — чтобы точно не пришлось вспоминать, как настраивать failover вручную.
➡️Развернуть кластер
Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
Для каждого представления можно:
Всё интерактивно:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Весь этот год команда Академии запускала курсы для айтишников. А под Новый год мы запускаем новый курс по ИИ-агентам и ставим под ёлку самый свежий стек 2025 года и обучение проектированию автономных нейросетевых экосистем — от LLM и ReAct-циклов до мультиагентных систем, LangGraph, AutoGen и продакшн-практик.
🎁 Хотим дарить подарки и приглашаем вас поучаствовать в конкурсе:
1️⃣ Упомяните курс Академии у себя в блоге.
2️⃣ Пришлите скрин сюда.
3️⃣ Получите секретный промокод на 10 000 ₽ при оплате любого курса.
Подходит всё — соцсети, блоги, Telegram-каналы от 300 подписчиков и более.
🎄 Акция действует до Нового года.
Win-win, всё как мы любим!
Отзывы канала
всего 2 отзыва
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Библиотека data scientist’а — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 18.4K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 9.7, количество отзывов – 2, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 24475.5 ₽, а за 21 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий