
- Главная
- Каталог
- Интернет технологии
- Data Science ODS
Data Science ODS
data ods официальный канал, крупнейшее сообщество data science, machine learning
Статистика канала
KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти. Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие.
При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация.
Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами.Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет.
Сканер построен на основе сканера уязвимостей NVIDIA GARAK LLM. Мы расширили возможности GARAK, добавив графический интерфейс, функцию планирования, нашу собственную библиотеку, отчетность корпоративного уровня и информацию об уязвимостях, поступающую непосредственно из нашей программы вознаграждения за обнаружение ошибок.— пишут исследователи. Исследователи заявляют, что опенсорсный продукт имеет следующие фичи: 1️⃣ 179 модулей проверок (полезных нагрузок) от сообщества, охватывающих 35 семейств уязвимостей и согласованных с десяткой главных угроз OWASP Top 10 для LLM. 2️⃣ Многоцелевое сканирование: тестирование языковых моделей (LLM), работающих через API, а также браузерных чат-интерфейсов. 3️⃣ Сканирование по расписанию и по запросу с настраиваемой периодичностью. 4️⃣ Оценка метрики успешности атак (ASR — Attack Success Rate) с отслеживанием динамики и тенденций между сеансами сканирования. 5️⃣ Экспорт отчетов в формат PDF с возможностью глубокой детализации по каждому вектору проверки и конкретной попытке эксплуатации. 6️⃣ Интеграция с SIEM-системами: экспорт логов и результатов в Splunk или Rsyslog. 7️⃣ Multi-tenant архитектура — поддержка нескольких организаций в рамках одного развертывания. Данные шифруются при хранении (encrypted at rest). 8️⃣ Отсутствие искусственных ограничений: полный функционал «из коробки», неограниченное количество сканирований и пользователей. Сканер работает путем прямого подключения к API или веб-интерфейсам различных ИИ-моделей (от продуктов OpenAI и Anthropic до локальных LLM), после чего автоматически запускает структурированные наборы проверок (полезных нагрузок) и формирует отчет с метрикой успешности атак (ASR).
tool outputs и управляет tool discovery — вместо показа всех инструментов он выбирает подмножество, релевантное текущему запросу.
Два уровня сжатия
«Compresr интересен тем, что он решает одну из самых актуальных проблем современных LLM-систем — управление контекстом. В большинстве агентных фреймворков контекст растёт почти бесконтрольно: история диалога, результаты инструментов, куски кода... В какой-то момент всё это начинает не только упираться в лимиты токенов, но и ухудшать качество ответов модели. Compresr предлагает довольно радикальное решение — вынести управление контекстом в отдельный инфраструктурный слой. Gateway фактически становится «операционной системой» для контекста: он решает, какие данные вообще попадут в окно модели. Особенно интересна идея chunk-level filtering. По сути, это дополнительный этап между retriever и prompt construction. В RAG-системах именно там часто появляется шум: ретривер возвращает слишком много слабосвязанных фрагментов, которые просто занимают место в контексте. С другой стороны, агрессивная компрессия — это всегда компромисс. Слабые сигналы, второстепенные детали и длинные логические цепочки могут теряться. Поэтому заявленные коэффициенты сжатия в десятки раз стоит воспринимать скорее как демонстрацию возможностей, чем как реальный production-режим. Но сама тенденция выглядит важной: по мере роста агентных систем всё больше оптимизаций происходит не внутри модели, а на уровне orchestration-слоя. И инструменты вроде Compresr — хороший пример того, как начинает формироваться новая инфраструктура вокруг LLM», — отметил Александр Тараканов, исследователь AI VK.Насколько, на ваш взгляд, жизнеспособен вынос управления контекстом в отдельный gateway — это новая норма или временный workaround? Готовы ли вы жертвовать частью информации ради latency и стоимости? И где сегодня основной bottleneck в RAG: retriever, prompt construction или уже сам контекст? Обсудим 👇 #aivk #compresr
Отзывы канала
Каталог Телеграм-каналов для нативных размещений
Data Science ODS — это Telegam канал в категории «Интернет технологии», который предлагает эффективные форматы для размещения рекламных постов в Телеграмме. Количество подписчиков канала в 41.6K и качественный контент помогают брендам привлекать внимание аудитории и увеличивать охват. Рейтинг канала составляет 6.4, количество отзывов – 0, со средней оценкой 0.0.
Вы можете запустить рекламную кампанию через сервис Telega.in, выбрав удобный формат размещения. Платформа обеспечивает прозрачные условия сотрудничества и предоставляет детальную аналитику. Стоимость размещения составляет 62937.0 ₽, а за 0 выполненных заявок канал зарекомендовал себя как надежный партнер для рекламы в TG. Размещайте интеграции уже сегодня и привлекайте новых клиентов вместе с Telega.in!
Вы снова сможете добавить каналы в корзину из каталога
Комментарий