Реклама в Telegram канале «Библиотека data scientist’а» от 24 475.50 рублей

О канале
Полная статистика

Статистика

Количество постов

6 174

Среднее количество просмотров на пост

1 330

Средний охват (24ч)

1 420

Упоминаний

2 157

Получить детальную аналитику

Последние посты канала

imageИзображение недоступно для предпросмотра

🛠 Бесплатный визуальный мастер-класс по LLM

Мир разделился на тех, кто просто пишет промпты, и тех, кто понимает, как работают Large Language Models (LLM) под капотом.

Если вы хотите попасть во вторую категорию, ловите выжимку лучшего опыта.

Джей Аламмар (автор популярного блога о трансформерах) выложил в открытый доступ код своей новой книги. Это не учебник, это «визуальный мастер-класс».

🔗 Ссылка на Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

625

15:19

14.03.2026

imageИзображение недоступно для предпросмотра

💡

Математический фундамент Data Science: 24 формулы, которые нужно знать

Мы собрали ключевые определения в одну шпаргалку.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

1050

21:41

13.03.2026

Самый востребованный навык в ИТ в 2026-м — навык создания ИИ-агентов

Мы полностью переработали курс «Разработка AI-агентов» под реалии 2026 года. Никакой долгой теории — с самого начала пишем код. Обучать и делиться набитыми шишками будут эксперты-практики из Газпромбанка, Альфа-Банка и других бигтехов.

В программе:

— архитектура автономных систем с тестированием, ReAct-циклами и контролем токенов;
— практическая работа с актуальными фреймворками LangGraph, AutoGen, MCP и CrewAI;
— настройка продвинутого RAG для парсинга документов и точного поиска;
— внедрение решений с учётом действующего законодательства (152-ФЗ);
— дипломная работа, за основу которой можно взять свой рабочий проект или задачу, которую предложим мы.

Эксперты поделятся инсайтами из реального продакшна — тем, о чём вам никогда не расскажет ни одна нейросеть.

Запись первого открытого вебинара, на котором мы вместе с руководителем AI-направления в Альфа-Банке Полиной Полуниной пилили агента в прямом эфире.

Ах да, чуть не забыли! Дарим промокод AGENTSWEB на скидку 10 000 рублей и два курса сверху при покупке до 15 марта 🎁

→ Освоить разработку AI-агентов

1160

15:58

13.03.2026

imageИзображение недоступно для предпросмотра

🚀 Polars 1.39: новая версия

Библиотека Polars продолжает сокращать разрыв между локальной обработкой данных и полноценными хранилищами данных (Data Lakehouses).

Версия 1.39 принесла три ключевых фичи, которые сильно упростят жизнь дата-инженерам.

📈 1. Streaming AsOf Join

Функция join_asof() теперь поддерживается стриминговым движком.

Теперь можно объединять огромные временные ряды (time-series), которые не помещаются в оперативную память.

Идеально для финансового анализа и данных с датчиков (IoT), где нужно сопоставить события по ближайшей метке времени.

🧊 2. Полноценный цикл с Apache Iceberg

В дополнение к чтению (`scan_iceberg`), появился sink_iceberg() для записи данных из LazyFrame.

Polars теперь поддерживает полный цикл чтения/записи для архитектур Data Lakehouse на базе Iceberg.
Можно обрабатывать данные и сохранять их напрямую в аналитические таблицы без промежуточных CSV/Parquet файлов.

☁️ 3. Стриминг прямо из облака

Функции scan_csv(), scan_ndjson() и scan_lines() теперь умеют скачивать данные потоково.

Polars больше не нужно скачивать файл целиком из S3 или Azure Blob перед началом обработки.
Значительная экономия места на диске и ускорение «холодного» старта ваших скриптов.

🔗 Ссылка на релиз

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

2330

15:32

13.03.2026

imageИзображение недоступно для предпросмотра

🚀 6 векторных БД, которые должен знать каждый RAG-инженер

Если вы работаете с LLM, семантическим поиском или рекомендательными системами, выбор правильного хранилища векторов — это 50% успеха вашего проекта.

Разбираем топовые решения для разных задач.

1. Pinecone

Полностью управляемая облачная БД корпоративного уровня.

Плюсы: Zero infrastructure (серверы — не ваша забота), масштабируемость.
Лучший выбор для: Крупных продакшн-систем.

2. Chroma

Open-source база, которая встраивается прямо в ваше приложение.

Плюсы: Запускается локально (in-process), Python-native (всего 3 строчки кода для старта).
Лучший выбор для: Быстрого прототипирования и локальной разработки.

3. Weaviate

Мощная база с открытым кодом для текста, изображений и структурированных данных.

Плюсы: Нативная мультимодальность, гибридный поиск (GraphQL + векторный).
Лучший выбор для: Сложных мультимодальных RAG-систем.

4. Qdrant

Векторный движок на Rust, оптимизированный под экстремальные нагрузки.

Плюсы: Фильтрация метаданных (payload) во время запроса, самая высокая производительность на CPU.
Лучший выбор для: Высокопроизводительных систем (High Performance).

5. FAISS (от Meta*)

Библиотека для эффективного поиска сходства в плотных векторах.

Плюсы: GPU-ускорение, не требует сервера (просто Python-библиотека).
Лучший выбор для: Оффлайн-исследований и работы со статичными датасетами.

6. Redis Vector

In-memory поиск для приложений реального времени.

Плюсы: Подмиллисекундная задержка, объединяет кэширование и векторный поиск.
Лучший выбор для: Приложений с низким временем отклика (Low Latency).

А какую базу для векторов используете вы в своих проектах? Делитесь опытом в комментариях! 👇

*Meta признана экстремистской организацией в РФ.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

1120

14:27

12.03.2026

imageИзображение недоступно для предпросмотра

🛠 MessyData: генератор «грязных» синтетических данных

MessyData позволяет создавать реалистичные датафреймы, намеренно внедряя в них аномалии: пропуски, дубликаты, некорректные категории и выбросы. Это идеальный инструмент для проверки качества данных (Data Quality) и обучения моделей на устойчивость к шуму.

Установка:


uv pip install messydata
# или
pip install messydata

Суть библиотеки в декларативном подходе. Вы описываете схему данных в YAML, а MessyData превращает её в Pandas DataFrame.

Пример конфига (`config.yaml`):


name: sales_data
primary_key: transaction_id
records_per_primary_key:
  type: uniform
  min: 1
  max: 3
anomalies:
  - name: missing_values
    prob: 1.0   # инжектить всегда
    rate: 0.1   # 10% пропусков
    columns: any
fields:
  - name: transaction_id
    dtype: int32
    distribution:
      type: sequential
      start: 100
  - name: price
    dtype: float32
    distribution:
      type: lognormal
      mu: 4.0
      sigma: 0.5

Запуск в Python:


from messydata import Pipeline

pipeline = Pipeline.from_config("config.yaml")
df = pipeline.run(n_rows=1000, seed=42)

print(df.isna().sum()) # Проверяем внедренные пропуски

🔗 Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

1160

15:34

11.03.2026

play_circleВидео недоступно для предпросмотра

🗺️ Дорожная карта ML 2026

Репозиторий разбит на 5 логических блоков, которые можно проходить последовательно или выборочно:

1️⃣

База (Prerequisites)

Математика: Khan Academy и визуализации бэкпропа (обратного распространения ошибки) от Google.
Инструменты: NumPy, Pandas и база по Git/Shell.

2️⃣

Фундамент ML

Crash Course от Google: Регрессия, нейронки и эмбеддинги.
Reinforcement Learning: От основ OpenAI до современного RLHF (того самого обучения на отзывах людей, которое оживило ChatGPT).

3️⃣

Эпоха LLM и Агентов (Самое актуальное)

Intro от Карпати: Маст-хэв для понимания, как работают трансформеры.
Reasoning: Как работают модели-рассуждатели (вроде OpenAI o1).
Agentic RAG: Как строить системы, которые не просто ищут информацию, а действуют.

4️⃣

Инженерия и MLOps

Fine-tuning: Как дообучать модели под свои задачи (LoRA, PEFT).
MCP (Model Context Protocol): Как подключать ИИ к внешним инструментам и базам данных.
Эффективность: Как выжимать максимум из GPU.

5️⃣

Подготовка к интервью

Сборники задач по системному дизайну ИИ и планы подготовки к собесам в бигтех.

➡️ В гайд встроена поддержка AI-агентов (Claude Code, Cursor, Gemini CLI). Вы можете просто загрузить репозиторий в свой любимый редактор, и агент сам составит вам план тренировок, найдет нужные статьи и создаст проверочные упражнения.

🔗

Ссылка на репозиторий: https://clc.to/aAtT_g

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

1450

22:01

10.03.2026

⏳ Часовая готовность: создаём ИИ-агента в прямом эфире

В 19:00 МСК в рамках нашего курса «Разработка AI-агентов» стартует вебинар «ИИ-агенты в продакшене: от хайпа к деньгам». Спикер — Полина Полунина, руководитель AI-направления в Альфа-Банке.

Будет live-демо работающего агента, реальные метрики из корпоративной среды и честный разбор архитектурных граблей — без воды и «успешного успеха».

Всем зрителям эфира дадим эксклюзивный промокод AGENTS на скидку 10 000 ₽ на любой тариф курса.

👉 Занять место на вебинаре

1450

18:00

10.03.2026

☝️ Уже сегодня: ИИ-агенты в продакшене — инженерный подход к интеграции LLM

Индустрия активно обсуждает потенциал нейросетей, способных автоматизировать бизнес-процессы и заменить целые отделы. Однако реальное внедрение агентов в production вскрывает серьёзные проблемы: разработчикам приходится бороться с непредсказуемыми галлюцинациями моделей, нестабильными API и сложной интеграцией в существующую архитектуру.

Сегодня в 19:00 МСК в рамках нашего курса «Разработка AI-агентов» мы проведём открытый вебинар «ИИ-агенты в продакшене: от хайпа к деньгам». Спикер — Полина Полунина, руководитель AI-направления в Альфа-Банке. Будем говорить о нейросетях с позиции жёсткой инженерии.

Разберём три реальных кейса из сурового банковского энтерпрайза, напишем и запустим агента прямо в эфире, честно обсудим грабли, на которые наступает бизнес при интеграции LLM.

Тем, кто придёт на эфир, дадим промокод AGENTS на скидку 10 000 ₽ на любой тариф курса.

👉 Занять место на вебинаре

571

16:50

10.03.2026

imageИзображение недоступно для предпросмотра

🆕

AgentHub: новый проект от Андрея Карпати

Андрей Карпати опубликовал репозиторий AgentHub. Это серверная часть для координации «роев» ИИ-агентов. Главная идея: существующие инструменты вроде GitHub удобны для людей, но ограничивают потенциал нейросетей.

Проблема классического Git

Когда над кодом работают люди, нам нужна структура: ветки, постепенное слияние (merge) и одна «правильная» версия проекта. Но если код пишут тысячи агентов, такая линейная логика становится проблемой.

👇

Как это устроено в AgentHub

1. Хаос как стратегия
Вместо того чтобы ждать одобрения PR, агенты в AgentHub просто пушат код во всех направлениях сразу. Проект превращается в гигантское дерево (граф), где каждая ветка — это отдельный эксперимент. Сервер просто отслеживает «листья» — крайние точки, от которых еще никто не пробовал строить продолжение.

2. Код + Общение
Агенты не просто пишут код, они пользуются встроенной «доской объявлений». Один агент может запостить: «Я попробовал изменить эти параметры, точность упала». Другие агенты считывают это и не тратят ресурсы на заведомо ложный путь. Это превращает группу ботов в самообучающееся сообщество.

➡️Первый кейс использования — AutoResearch. Это система, где ИИ-агенты сами пытаются улучшить алгоритмы обучения других нейросетей. AgentHub берет на себя всю «грязную работу» по синхронизации их усилий.

🔗

Ссылка на проект: https://clc.to/7Iq0RA

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

1460

15:57

10.03.2026

close

вчера

+235

за неделю

+184

за месяц

lock

в первые 24 часа

5.93

ERR за 24 часа

6.6

ERR за 48 часов

7.25

ERR за 72 часа

0.0

ER за 24 часа

2831

Всего публикаций*

Выполненных заказов на Telega.in

Повторных заказов на Telega.in

3 года и 9 месяцев

Возраст канала

Библиотека data scientist’а

Статистика канала

Статистика

Отзывы канала

Библиотека data scientist’а

Статистика канала

Статистика

Отзывы канала

Каталог Телеграм-каналов для нативных размещений