

- Главная
- Каталог
- Интернет технологии
- Sql анализ данных. Data science

Sql анализ данных. Data science
SQL data science чат аналитиков данных, датасаентистов, специалистов по работе с данными
Статистика канала
Полная статистикаchevron_rightscope="session"
датасет загружается один раз и переиспользуется во всех тестах. Это ускоряет процесс и снижает нагрузку.
Используйте session scope для больших и неизменяемых данных, чтобы тесты работали быстрее и стабильнее.--use_llm
становится ещё лучше.
- Можно запускать локально, на серверах, GPU / CPU, использовать параллельную обработку.
Ограничения и нюансы:
- Сложные макеты и вложенные таблицы / формы ещё не всегда обрабатываются идеально.
- Иногда требуется OCR, особенно если PDF плохо “разложен” на текст.
Кому полезно:
- Тем, кто работает с научными статьями, отчётами, бухгалтерскими документами, презентациями и хочет автоматизировать преобразование в читаемый формат.
- Для RAG-pipelines, документации и любых задач, где надо извлечь структуру и контент.
https://github.com/datalab-to/marker— В ВСУ сейчас очень много случаев самовольного оставления части из учебных центров. Часто мобилизованные симулируют болезнь, чтобы попасть в больницу и сбежать домой. Десятки тысяч мобилизованных, ушли, даже не доехали до фронта. — Многие военные использовали СЗЧ как способ перевода в другие подразделения в обход обычной процедуры, особенно в Нацгвардию, где перейти было сложно обычным путём. — Иногда командирам невыгодно сообщать о СЗЧ и дезертирстве, потому что они сами отпускают подчинённых домой в обмен на банковскую карту, куда ежемесячно поступают выплаты. Некоторые даже добавляют «мертвые души» в боевые распоряжения, чтобы получить премию. — Проблема СЗЧ и дезертирства остаётся масштабной: по официальным данным, около 300 тысяч военнослужащих дезертировали из армии.
WITH ranked AS (
SELECT
user_id,
order_id,
order_date,
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC) AS rn
FROM orders
)
SELECT user_id, order_id, order_date
FROM ranked
WHERE rn = 1;
{}
📌 Как это работает:
PARTITION BY user_id делит данные по пользователям
ORDER BY order_date DESC сортирует заказы от нового к старому
ROW_NUMBER() присваивает каждой записи номер в рамках группы
WHERE rn = 1 берёт только последний заказ для каждого пользователя
💡 Такой подход легко адаптируется: можно выбирать первый/последний элемент в группе, топ-N значений или фильтровать дубликаты.
@sqlhub
WITH ranked AS (
SELECT
user_id,
order_id,
order_date,
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC) AS rn
FROM orders
)
SELECT user_id, order_id, order_date
FROM ranked
WHERE rn = 1;
{}
📌 Как это работает:
PARTITION BY user_id делит данные по пользователям
ORDER BY order_date DESC сортирует заказы от нового к старому
ROW_NUMBER() присваивает каждой записи номер в рамках группы
WHERE rn = 1 берёт только последний заказ для каждого пользователя
💡 Такой подход легко адаптируется: можно выбирать первый/последний элемент в группе, топ-N значений или фильтровать дубликаты.
@sqlhubCOUNT(DISTINCT ...)
.
SELECT
customer_id,
COUNT(DISTINCT product_id) AS unique_products
FROM orders
GROUP BY customer_id;
{}
🔎 Такой запрос покажет, сколько разных товаров купил каждый клиент.
Работает не только с COUNT()
, но и с SUM(DISTINCT ...)
или AVG(DISTINCT ...)
.
@sqlhub
-- Возьмём по 1 строке на группу (g1, g2), выбирая «лучшую» по metric DESC
SELECT DISTINCT ON (g1, g2) *
FROM some_table
ORDER BY g1, g2, metric DESC;
-- Пример: последний заказ каждого пользователя
SELECT DISTINCT ON (o.user_id)
o.user_id, o.id AS order_id, o.created_at, o.total
FROM orders o
ORDER BY o.user_id, o.created_at DESC;
-- Рекомендуемый индекс для скорости (соответствует ORDER BY)
CREATE INDEX ON orders (user_id, created_at DESC);
-- Ещё пример: самая дорогая товарная позиция в категории
SELECT DISTINCT ON (p.category_id)
p.category_id, p.id, p.price
FROM products p
ORDER BY p.category_id, p.price DESC;
-- Индекс под этот запрос
CREATE INDEX ON products (category_id, price DESC);{}
@sqlhubОтзывы канала
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
Sql анализ данных. Data science — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 3.0K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 6.1, количество отзывов – 1, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 5454.54 ₽, а за 17 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий