Погодите ка... у меня нет мозгов но есть идея, как обычно

У нвидии есть какойто nvcomp, который что то сжимает прям на видюхе и оно поддерживает например lz4

Можно ли сделать что то типа zram compression но для vram? :blobcatwhatsthis:

@drq вопрос в том, будет ли это сильно быстрее, чем оффлоад в обычную оперативку. Современные PCIe вроде довольно быстрые...

@WildPowerHammer

Follow

@mo @drq @WildPowerHammer
Кстати говоря, когда-то были в OpenGL расширения, позволявшие сжимать текстуры с потерями: en.wikipedia.org/wiki/S3_Textu
Но после этого объёмы видеопамяти заметно выросли и копать в эту сторону перестали.
Сейчас, когда видеокарты в очередной раз нашли новую сферу применения, к идее могли бы и вернуться, но, опять же, не факт, что это будет быстрее.

@m0xee собственно, для моделей это называется «квантование», когда float16 упаковывают в 8, или даже меньше бит

@drq @WildPowerHammer

@mo
Zephyrus-L1-33B.i1-IQ2_XXS.gguf не желаете? (это одна из самых ужатых версий которую я нашел и она почти поместилась в видеопамять емнип)
@m0xee @drq

@m0xee так что логичным шагом видится аппаратная поддержка 4-, или даже 2-битовых чисел (да, до такого тоже сжимают, и оно даже сохраняет работоспособность!). Ну и всякого между желательно

@drq @WildPowerHammer

@mo @drq @WildPowerHammer
Ну да, идея упаковки в занимающий меньше места тип, пожертвовав точностью не нова, например выбросив из того же IEEE 754 часть мантиссы. Не знаю правда как это работает на видеокарте, но не думаю, что сильно отлично от обычного центрального процессора, и не знаю что там есть для этого в аппаратной части, всё же, машинное обучение — не моё.

Sign in to participate in the conversation
Librem Social

Librem Social is an opt-in public network. Messages are shared under Creative Commons BY-SA 4.0 license terms. Policy.

Stay safe. Please abide by our code of conduct.

(Source code)

image/svg+xml Librem Chat image/svg+xml