Реклама в Telegram канале «Data Science | Вопросы собесов» от 4 055.94 рублей

О канале
Полная статистика

Статистика

Количество постов

2 064

Среднее количество просмотров на пост

445

Средний охват (24ч)

Упоминаний

865

Получить детальную аналитику

Последние посты канала

🤔 Почему считается, что случайный лес не переобучается? Считается, что случайный лес не склонен к переобучению, потому что он усредняет предсказания большого количества деревьев решений, каждое из которых обучается на случайной подвыборке данных и случайных признаках. Этот процесс помогает уменьшить влияние отдельных переобученных деревьев на финальное предсказание. В результате модель становится более устойчивой к ошибкам и шуму в данных. Кроме того, случайный лес не сильно зависит от малозначимых признаков, так как случайные выборки уменьшают их влияние. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

246

19:10

28.02.2026

🤔 Какое минимальное количество данных необходимо для корректного провередния A/B теста? Минимальное количество данных, необходимое для корректного проведения A/B теста, зависит от нескольких факторов, включая базовую конверсию, минимально значимый эффект, уровень значимости и статистическую мощность. Рассмотрим основные шаги и инструменты для расчета необходимого размера выборки. 🚩Основные параметры 🟠Базовая конверсия (baseline conversion rate) Текущий уровень конверсии или среднее значение метрики в контрольной группе. 🟠Минимально значимый эффект (minimum detectable effect, MDE) Минимальное изменение метрики, которое вы хотите обнаружить. 🟠Уровень значимости (alpha) Вероятность совершить ошибку первого рода (обычно 0.05). 🟠Статистическая мощность (power) Вероятность того, что тест обнаружит эффект, если он существует (обычно 0.80 или 0.90). 🚩Расчет размера выборки Можно использовать специализированные формулы или статистические библиотеки, такие как statsmodels в Python. Примерный расчет может быть выполнен следующим образом:

    
        import statsmodels.stats.api as sms

# Параметры теста
baseline_conversion_rate = 0.10  # базовая конверсия 10%
minimum_detectable_effect = 0.02  # минимально значимое изменение 2%
alpha = 0.05  # уровень значимости
power = 0.80  # статистическая мощность

# Расчет размера выборки
effect_size = sms.proportion_effectsize(baseline_conversion_rate, baseline_conversion_rate + minimum_detectable_effect)
required_n = sms.NormalIndPower().solve_power(effect_size, power=power, alpha=alpha, ratio=1)

print(f"Необходимый размер выборки для каждой группы: {required_n:.0f}"){}

🚩Учет среднего количества посетителей в день После расчета необходимого размера выборки нужно определить, сколько времени потребуется для набора этой выборки, исходя из среднего количества посетителей или событий в день.

    
        # Предположим, что у вас на сайт заходит 10,000 пользователей в день
daily_visitors = 10000

# Размер выборки для каждой группы
required_n_per_group = required_n

# Поскольку мы тестируем две группы, умножаем размер выборки на 2
total_required_n = required_n_per_group * 2

# Расчет необходимого времени
days_needed = total_required_n / daily_visitors

print(f"Необходимое количество дней для теста: {days_needed:.1f}"){}

🚩Важные аспекты и советы 🟠Статистическая значимость и мощность теста Убедитесь, что у вас достаточное количество данных для получения статистически значимых результатов. Используйте расчеты статистической мощности для определения необходимого размера выборки. 🟠Избегание перекрестного влияния Убедитесь, что участники не могут видеть обе версии, чтобы избежать искажения результатов. 🟠Мониторинг в процессе теста Постоянно следите за ходом эксперимента, чтобы убедиться, что он идет по плану и нет аномалий или технических проблем. 🟠Анализ подгрупп Рассмотрите возможность анализа подгрупп (например, новые пользователи vs. постоянные пользователи), чтобы понять, как изменения влияют на различные сегменты аудитории. Ставь 👍 и забирай 📚 Базу знаний

274

12:05

28.02.2026

🤔 Виды метрик машинного обучения. 1. Для классификации: - Accuracy: доля верных предсказаний. - Precision: точность предсказаний класса. - Recall: полнота предсказаний класса. - F1-score: сбалансированная метрика точности и полноты. - ROC-AUC: качество модели при разных порогах. 2. Для регрессии: - MSE: среднеквадратичная ошибка. - MAE: средняя абсолютная ошибка. - R²: объясненная доля дисперсии. 3. Для кластеризации: - Silhouette Score: качество разделения кластеров. - Dunn Index: компактность и разделенность кластеров. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

325

19:10

27.02.2026

🤔 Чем отличается итератор от генератора? Итераторы и генераторы в Python имеют схожую функциональность, но существуют ключевые отличия между ними, которые определяют их использование и поведение. Давайте рассмотрим основные различия. 🚩Итераторы Это объект, который реализует протокол итерации, то есть включает методы __iter__() и __next__(). Итераторы используются для последовательного перебора элементов коллекций, таких как списки, кортежи и множества.

    
        class MyIterator:
    def __init__(self, limit):
        self.limit = limit
        self.counter = 0

    def __iter__(self):
        return self

    def __next__(self):
        if self.counter < self.limit:
            self.counter += 1
            return self.counter
        else:
            raise StopIteration

my_iter = MyIterator(3)

for num in my_iter:
    print(num)

# Вывод:
# 1
# 2
# 3{}

🚩Генераторы Это специальный тип итератора, который создается с помощью функции, содержащей одно или несколько выражений yield. Генераторы позволяют удобно создавать итераторы без необходимости явно определять класс и методы __iter__() и __next__(). Генераторы автоматически реализуют протокол итерации.

    
        def simple_generator():
    yield 1
    yield 2
    yield 3

gen = simple_generator()

for num in gen:
    print(num)

# Вывод:
# 1
# 2
# 3{}

🚩Основные различия 🟠Создание Итератор: Для создания итератора необходимо явно определить класс с методами iter() и next(). Генератор: Генератор создается с помощью функции, содержащей ключевое слово yield. 🟠Синтаксис и удобство Итератор: Требует больше кода для создания. Необходимо вручную управлять состоянием. Генератор: Более компактный и читаемый код. Управление состоянием осуществляется автоматически. 🟠Память Итератор: Может использовать больше памяти, так как хранит все данные в памяти, если это не специально оптимизированный итератор. Генератор: Использует меньше памяти, так как вычисляет и возвращает элементы по одному, по мере необходимости. 🟠Использование Итератор: Подходит для более сложных случаев, когда нужно иметь полный контроль над процессом итерации. Генератор: Идеален для простых случаев итерации и ленивых вычислений, когда элементы генерируются по мере необходимости. 🚩Примеры для сравнения Итератор

    
        class MyIterator:
    def __init__(self, start, end):
        self.current = start
        self.end = end

    def __iter__(self):
        return self

    def __next__(self):
        if self.current < self.end:
            self.current += 1
            return self.current - 1
        else:
            raise StopIteration

it = MyIterator(0, 3)
for num in it:
    print(num){}

Генератор

    
        def my_generator(start, end):
    current = start
    while current < end:
        yield current
        current += 1

gen = my_generator(0, 3)
for num in gen:
    print(num){}

Ставь 👍 и забирай 📚 Базу знаний

324