
- Главная
- Каталог
- Интернет технологии
- LinuxCamp | DevOps
LinuxCamp | DevOps
Авторский канал, на котором говорим про разработку, Linux, DevOps, сети и администрирование.
Статистика канала
dmesg | grep conntrack
типичный вывод:
nf_conntrack: table full, dropping packet{}
Проверяем текущее состояние
# сколько соединений сейчас
cat /proc/sys/net/netfilter/nf_conntrack_count
# максимальный лимит
cat /proc/sys/net/netfilter/nf_conntrack_max{}
Если count ≈ max, то ты уже в зоне риска.
Временное решение
Увеличить лимит на лету:
sysctl -w net.netfilter.nf_conntrack_max=262144{}
Постоянная настройка
В /etc/sysctl.conf или /etc/sysctl.d/conntrack.conf:
net.netfilter.nf_conntrack_max=262144
net.netfilter.nf_conntrack_tcp_timeout_established=600{}
И применить:
sysctl -p{}
Вывод
Переполненный conntrack выглядит как непонятная поломка сети. Проверка занимает 10 секунд, но лучше заранее заняться настройкой правильного лимита.
LinuxCamp | #utils
[Service]
Restart=always{}
Почему это выглядит удобно
Сервис упал, systemd быстро поднял. Никаких алертов, все типо работает. Именно здесь начинается проблема.
Типичный плохой сценарий
Сервис падает сразу после старта.
Restart=always
RestartSec=1{}
В итоге:
start → crash → restart → crash → restart{}
CPU жрётся, логи летят, система шумит, а причина падения маскируется. Посмотреть это легко:
systemctl status myservice
journalctl -u myservice{}
Когда Restart=always реально зло
Если сервис падает из-за: ошибки конфигурации, отсутствия зависимостей, недоступной сети, битых env-переменных. В этих случаях рестарт ничего не чинит, а только мешает диагностике.
Более безопасная альтернатива
Для большинства сервисов лучше:
Restart=on-failure
RestartSec=5{}
systemd перезапустит сервис при краше, но не будет вечно крутить его при нормальном выходе.
Контроль перезапусков
Чтобы не получить restart loop:
StartLimitIntervalSec=60
StartLimitBurst=5{}
После 5 падений за минуту systemd остановит сервис.
Когда Restart=always оправдан
Очень простые демоны, воркеры без состояния, sidecar-сервисы, сервисы, где падение = всегда ошибка. Даже там обычно добавляют лимиты.
Вывод
Restart=always - не защита, а автоповтор ошибки. Если сервис может падать из-за конфигурации или окружения используй on-failure и лимиты. Автоперезапуск должен помогать системе, а не скрывать проблемы.
LinuxCamp | #utils
[Service]
Type=notify
WatchdogSec=30{}
Это значит, что сервис обязан раз в 30 секунд подтверждать, что он работает. Сервис пингует systemd через sd_notify. Простейший пример (bash):
while true; do
systemd-notify WATCHDOG=1
sleep 10
done{}
Если systemd-notify перестаёт вызываться watchdog срабатывает. При зависании, даже если процесс жив, но зациклился, завис на I/O, ушёл в deadlock, перестал обрабатывать события systemd считает сервис мёртвым и делает:
Watchdog timeout, restarting service{}
Проверка, что watchdog активен
systemctl show myservice | grep Watchdog{}
И в логах:
journalctl -u myservice | grep watchdog{}
Частая ошибка
Type=simple
WatchdogSec=30{}
Не сработает. Watchdog требует Type=notify, иначе systemd не ждёт сигналов.
Вывод
systemd watchdog можно использовать как защита от зависаний, а не падений. Если сервис может застыть, но не упасть, то watchdog лучше включить watchdog.
LinuxCamp | #utils
ps aux | grep Z
# или
ps -eo pid,ppid,stat,cmd | grep Z{}
Статус Z или Z+.
Откуда они берутся
Процесс завершился, родитель не вызвал wait() или waitpid(). Часто это баги в демонах, скриптах, самописных сервисах, иногда кривые fork-циклы.
Кто чистит зомби
Зомби может удалить только родительский процесс. Если родитель умер, зомби автоматически переподвешивается к init / systemd, и он его корректно дочищает. То есть сам зомби убить нельзя, у него уже нет кода выполнения.
Как диагностировать причину
Смотрим родителя зомби:
ps -eo pid,ppid,stat,cmd | grep Z{}
Если PPID не 1, значит родитель жив и неправильно обрабатывает завершение детей.
Что с этим делать
Убивать нужно родителя, а не зомби. После перезапуска или фикса родительского процесса зомби исчезнут автоматически.
Вывод
Zombie - это не утечка памяти, а утечка внимания со стороны родителя. Если зомби накапливаются - это всегда баг в коде или в управлении процессами, а не проблема ядра.
LinuxCamp | #utilsОтзывы канала
всего 12 отзывов
- Добавлен: Сначала новые
- Добавлен: Сначала старые
- Оценка: По убыванию
- Оценка: По возрастанию
Каталог Телеграм-каналов для нативных размещений
LinuxCamp | DevOps — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 14.2K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 91.6, количество отзывов – 12, со средней оценкой 5.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 14685.3 ₽, а за 55 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий