
Специалисты из Google Research представили широкой публике свою новую разработку под названием TurboQuant. Речь идет об алгоритме сжатия, который не требует предварительного обучения и способен квантовать кэш-память KV у крупных языковых моделей вплоть до 3 бит без какого-либо ущерба для точности. Примечательно, что тестирование проводилось на видеокартах Nvidia H100, и результаты оказались весьма впечатляющими. Четырехбитная
Все новости:
cenyavto.com
285241

Загрузка...