
- Главная
- Каталог
- Интернет технологии
- Библиотека data scientist’а
Библиотека data scientist’а
Полезные материалы по всему, что может быть интересно дата сайентисту.
Статистика канала
Если делаете статьи, ресёрч, презентации или просто любите красивые технические схемы, нашли полезный репозиторий — Scientific Diagrams.
Внутри — 27+ аккуратных научных диаграмм, которые объясняют концепции из Machine Learning.
Что особенно понравилось:
• диаграммы сделаны в LaTeX / Typst (TikZ, CeTZ)
• можно скачать PDF / SVG / PNG
• есть быстрый просмотр через сайт
• можно открыть фигуры в Overleaf и адаптировать под свои статьи/доки
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Если не знаете, что читать по AI, ML, Deep Learning и Data Science, нашёл полезный репозиторий — AI & Machine Learning Book References.
Это не просто случайный список книг, а структурированная подборка литературы для разных уровней: от новичков до практиков и исследователей.
📌 Хорошая отправная точка, чтобы собрать себе персональную AI-библиотеку, а не прыгать между случайными статьями.
🔗 Ссылка на книги
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Появился интересный open-source проект — Scenario Lab.
Это движок для Monte Carlo simulation, который позволяет моделировать реальные сценарии:
— рынки и экономику
— региональные конфликты
— политику и выборы
— решения внутри компаний
Главная идея — не пытаться предсказать один исход, а прогонять тысячи вероятностных сценариев, чтобы увидеть диапазон возможных результатов и рисков.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Сегодня почти все frontier-модели — GPT, Claude, Gemini, Grok, DeepSeek, Qwen — так или иначе выросли из одной идеи: GPT-архитектуры.
Главная особенность GPT — decoder-only transformer.
В отличие от оригинального Transformer, где есть encoder + decoder, GPT использует только decoder и один важный трюк — causal (masked) attention.
Проще говоря: модель не видит будущее, а читает текст только слева направо.
Именно это ограничение оказалось суперсилой архитектуры:
• лучше учится представлениям — задача сложнее, чем у BERT, где модель видит весь текст сразу
• масштабируется — можно обучать на огромных объёмах данных параллельно
• генерирует связный текст — каждое следующее слово зависит от предыдущего контекста
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Тема:
Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало
Ждем вас сегодня в 19:00 по московскому времени. Не пропустите начало, будет много практики!
👉 Успей занять место
Самый частый тупик в обучении: вроде уже понимаешь, как работают модели, но как только дело доходит до кода — вопрос: «А что вообще делать руками?»
Нашли сильный репозиторий для практики — AI-Project-Gallery.
Там собрано 30+ проектов по AI и Data Science, на которых реально можно учиться: от предсказания цен на жильё и медицинской классификации до чат-ботов на Gemini, NLP и генерации документов.
📊 А если нужен структурный старт в Data Science — присмотрись к курсу ML для старта в Data Science
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Данные в пайплайнах часто ломаются из-за изменений схемы.
В Polars это обычно 4 случая:
🔹 Добавилась колонка → используем
missing_columns="insert" или schema merge🔹 Пропала колонка → заполняем
null через те же механизмы🔹 Изменился тип →
ScanCastOptions(integer_cast="upcast") или явный cast🔹 Ломающее изменение (rename/type conflict) → только ручная правка
🧩 По форматам:
CSV
→
schema_overrides, schema, infer_schema=FalseParquet (много файлов)
→
missing_columns, extra_columns, diagonal_relaxedDelta Lake
→
schema_mode="merge"Iceberg
→ схема живёт в каталоге, изменения обрабатываются автоматически
🔗 Ссылка на статью
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Эмиль — эксперт с 8-летним опытом в разработке, который специализируется на внедрении LLM и агентных подходов в реальные коммерческие сервисы. Он точно знает, как проектировать архитектуру так, чтобы ИИ-функции работали стабильно в связке с внешними системами.
Обсудим самую «больную» тему: «Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало».
🗓 Когда: 14 мая в 19:00 (Мск)
Почему Эмиля стоит послушать:
Прошел путь от фулстека до Backend Platform Developer в SMIT.Studio.
Работал исследователем в Институте ИИ НИУ ВШЭ и в Национальном университете Сингапура (NUS).
Ведет семинары в НИУ ВШЭ, в том числе по проектированию и разработке агентских систем.
Его главная суперсила — умение правильно встраивать LLM через API, выстраивать workflow и агентную логику в сложных распределенных системах.
🔗 Зарегистрироваться на вебинар
Эта лаконичная шпаргалка содержит ключевые инструменты для эффективной работы с данными на Python
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст
Отзывы канала
всего 2 отзыва
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Библиотека data scientist’а — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 18.5K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 7.3, количество отзывов – 2, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 24475.5 ₽, а за 21 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий