
- Главная
- Каталог
- Интернет технологии
- Библиотека data scientist’а
Библиотека data scientist’а
Полезные материалы по всему, что может быть интересно дата сайентисту.
Статистика канала
Мир разделился на тех, кто просто пишет промпты, и тех, кто понимает, как работают Large Language Models (LLM) под капотом.
Если вы хотите попасть во вторую категорию, ловите выжимку лучшего опыта.
Джей Аламмар (автор популярного блога о трансформерах) выложил в открытый доступ код своей новой книги. Это не учебник, это «визуальный мастер-класс».
🔗 Ссылка на Github
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Мы собрали ключевые определения в одну шпаргалку.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Мы полностью переработали курс «Разработка AI-агентов» под реалии 2026 года. Никакой долгой теории — с самого начала пишем код. Обучать и делиться набитыми шишками будут эксперты-практики из Газпромбанка, Альфа-Банка и других бигтехов.
В программе:
— архитектура автономных систем с тестированием, ReAct-циклами и контролем токенов;
— практическая работа с актуальными фреймворками
LangGraph, AutoGen, MCP и CrewAI;— настройка продвинутого RAG для парсинга документов и точного поиска;
— внедрение решений с учётом действующего законодательства (152-ФЗ);
— дипломная работа, за основу которой можно взять свой рабочий проект или задачу, которую предложим мы.
Эксперты поделятся инсайтами из реального продакшна — тем, о чём вам никогда не расскажет ни одна нейросеть.
Запись первого открытого вебинара, на котором мы вместе с руководителем AI-направления в Альфа-Банке Полиной Полуниной пилили агента в прямом эфире.
Ах да, чуть не забыли! Дарим промокод
→ Освоить разработку AI-агентов
Библиотека Polars продолжает сокращать разрыв между локальной обработкой данных и полноценными хранилищами данных (Data Lakehouses).
Версия 1.39 принесла три ключевых фичи, которые сильно упростят жизнь дата-инженерам.
📈 1. Streaming AsOf Join
Функция
join_asof() теперь поддерживается стриминговым движком.Теперь можно объединять огромные временные ряды (time-series), которые не помещаются в оперативную память.
Идеально для финансового анализа и данных с датчиков (IoT), где нужно сопоставить события по ближайшей метке времени.
🧊 2. Полноценный цикл с Apache Iceberg
В дополнение к чтению (`scan_iceberg`), появился
sink_iceberg() для записи данных из LazyFrame.Polars теперь поддерживает полный цикл чтения/записи для архитектур Data Lakehouse на базе Iceberg.
Можно обрабатывать данные и сохранять их напрямую в аналитические таблицы без промежуточных CSV/Parquet файлов.
☁️ 3. Стриминг прямо из облака
Функции
scan_csv(), scan_ndjson() и scan_lines() теперь умеют скачивать данные потоково.Polars больше не нужно скачивать файл целиком из S3 или Azure Blob перед началом обработки.
Значительная экономия места на диске и ускорение «холодного» старта ваших скриптов.
🔗 Ссылка на релиз
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Если вы работаете с LLM, семантическим поиском или рекомендательными системами, выбор правильного хранилища векторов — это 50% успеха вашего проекта.
Разбираем топовые решения для разных задач.
1. Pinecone
Полностью управляемая облачная БД корпоративного уровня.
Плюсы: Zero infrastructure (серверы — не ваша забота), масштабируемость.
Лучший выбор для: Крупных продакшн-систем.
2. Chroma
Open-source база, которая встраивается прямо в ваше приложение.
Плюсы: Запускается локально (in-process), Python-native (всего 3 строчки кода для старта).
Лучший выбор для: Быстрого прототипирования и локальной разработки.
3. Weaviate
Мощная база с открытым кодом для текста, изображений и структурированных данных.
Плюсы: Нативная мультимодальность, гибридный поиск (GraphQL + векторный).
Лучший выбор для: Сложных мультимодальных RAG-систем.
4. Qdrant
Векторный движок на Rust, оптимизированный под экстремальные нагрузки.
Плюсы: Фильтрация метаданных (payload) во время запроса, самая высокая производительность на CPU.
Лучший выбор для: Высокопроизводительных систем (High Performance).
5. FAISS (от Meta*)
Библиотека для эффективного поиска сходства в плотных векторах.
Плюсы: GPU-ускорение, не требует сервера (просто Python-библиотека).
Лучший выбор для: Оффлайн-исследований и работы со статичными датасетами.
6. Redis Vector
In-memory поиск для приложений реального времени.
Плюсы: Подмиллисекундная задержка, объединяет кэширование и векторный поиск.
Лучший выбор для: Приложений с низким временем отклика (Low Latency).
А какую базу для векторов используете вы в своих проектах? Делитесь опытом в комментариях! 👇
*Meta признана экстремистской организацией в РФ.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
MessyData позволяет создавать реалистичные датафреймы, намеренно внедряя в них аномалии: пропуски, дубликаты, некорректные категории и выбросы. Это идеальный инструмент для проверки качества данных (Data Quality) и обучения моделей на устойчивость к шуму.
Установка:
uv pip install messydata
# или
pip install messydata
Суть библиотеки в декларативном подходе. Вы описываете схему данных в YAML, а MessyData превращает её в Pandas DataFrame.
Пример конфига (`config.yaml`):
name: sales_data
primary_key: transaction_id
records_per_primary_key:
type: uniform
min: 1
max: 3
anomalies:
- name: missing_values
prob: 1.0 # инжектить всегда
rate: 0.1 # 10% пропусков
columns: any
fields:
- name: transaction_id
dtype: int32
distribution:
type: sequential
start: 100
- name: price
dtype: float32
distribution:
type: lognormal
mu: 4.0
sigma: 0.5
Запуск в Python:
from messydata import Pipeline
pipeline = Pipeline.from_config("config.yaml")
df = pipeline.run(n_rows=1000, seed=42)
print(df.isna().sum()) # Проверяем внедренные пропуски
🔗 Github
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Репозиторий разбит на 5 логических блоков, которые можно проходить последовательно или выборочно:
Математика: Khan Academy и визуализации бэкпропа (обратного распространения ошибки) от Google.
Инструменты: NumPy, Pandas и база по Git/Shell.
Crash Course от Google: Регрессия, нейронки и эмбеддинги.
Reinforcement Learning: От основ OpenAI до современного RLHF (того самого обучения на отзывах людей, которое оживило ChatGPT).
Intro от Карпати: Маст-хэв для понимания, как работают трансформеры.
Reasoning: Как работают модели-рассуждатели (вроде OpenAI o1).
Agentic RAG: Как строить системы, которые не просто ищут информацию, а действуют.
Fine-tuning: Как дообучать модели под свои задачи (LoRA, PEFT).
MCP (Model Context Protocol): Как подключать ИИ к внешним инструментам и базам данных.
Эффективность: Как выжимать максимум из GPU.
Сборники задач по системному дизайну ИИ и планы подготовки к собесам в бигтех.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
В 19:00 МСК в рамках нашего курса «Разработка AI-агентов» стартует вебинар «ИИ-агенты в продакшене: от хайпа к деньгам». Спикер — Полина Полунина, руководитель AI-направления в Альфа-Банке.
Будет live-демо работающего агента, реальные метрики из корпоративной среды и честный разбор архитектурных граблей — без воды и «успешного успеха».
Всем зрителям эфира дадим эксклюзивный промокод AGENTS на скидку 10 000 ₽ на любой тариф курса.
👉 Занять место на вебинаре
Индустрия активно обсуждает потенциал нейросетей, способных автоматизировать бизнес-процессы и заменить целые отделы. Однако реальное внедрение агентов в
production вскрывает серьёзные проблемы: разработчикам приходится бороться с непредсказуемыми галлюцинациями моделей, нестабильными API и сложной интеграцией в существующую архитектуру.Сегодня в 19:00 МСК в рамках нашего курса «Разработка AI-агентов» мы проведём открытый вебинар «ИИ-агенты в продакшене: от хайпа к деньгам». Спикер — Полина Полунина, руководитель AI-направления в Альфа-Банке. Будем говорить о нейросетях с позиции жёсткой инженерии.
Разберём три реальных кейса из сурового банковского энтерпрайза, напишем и запустим агента прямо в эфире, честно обсудим грабли, на которые наступает бизнес при интеграции
LLM.Тем, кто придёт на эфир, дадим промокод AGENTS на скидку 10 000 ₽ на любой тариф курса.
👉 Занять место на вебинаре
Андрей Карпати опубликовал репозиторий AgentHub. Это серверная часть для координации «роев» ИИ-агентов. Главная идея: существующие инструменты вроде GitHub удобны для людей, но ограничивают потенциал нейросетей.
Проблема классического Git
Когда над кодом работают люди, нам нужна структура: ветки, постепенное слияние (merge) и одна «правильная» версия проекта. Но если код пишут тысячи агентов, такая линейная логика становится проблемой.
1. Хаос как стратегия
Вместо того чтобы ждать одобрения PR, агенты в AgentHub просто пушат код во всех направлениях сразу. Проект превращается в гигантское дерево (граф), где каждая ветка — это отдельный эксперимент. Сервер просто отслеживает «листья» — крайние точки, от которых еще никто не пробовал строить продолжение.
2. Код + Общение
Агенты не просто пишут код, они пользуются встроенной «доской объявлений». Один агент может запостить: «Я попробовал изменить эти параметры, точность упала». Другие агенты считывают это и не тратят ресурсы на заведомо ложный путь. Это превращает группу ботов в самообучающееся сообщество.
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Отзывы канала
всего 2 отзыва
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Библиотека data scientist’а — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 18.7K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 9.7, количество отзывов – 2, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 24475.5 ₽, а за 21 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий