@mo @drq @WildPowerHammer
Кстати говоря, когда-то были в OpenGL расширения, позволявшие сжимать текстуры с потерями: https://en.wikipedia.org/wiki/S3_Texture_Compression
Но после этого объёмы видеопамяти заметно выросли и копать в эту сторону перестали.
Сейчас, когда видеокарты в очередной раз нашли новую сферу применения, к идее могли бы и вернуться, но, опять же, не факт, что это будет быстрее.

Jan 17, 2025, 11:14 · Tusky · · ·

**Мя ��** @mo@mastodon.ml · Jan 17, 2025, 11:17

**Мя ��** @mo@mastodon.ml · Jan 17, 2025, 11:17

Jan 17, 2025, 11:17

Мя �� @mo@mastodon.ml

@m0xee собственно, для моделей это называется «квантование», когда float16 упаковывают в 8, или даже меньше бит

@drq @WildPowerHammer

**WildPowerHammer** @WildPowerHammer@mastodon.ml · Jan 17, 2025, 11:19

**WildPowerHammer** @WildPowerHammer@mastodon.ml · Jan 17, 2025, 11:19

Jan 17, 2025, 11:19

WildPowerHammer @WildPowerHammer@mastodon.ml

@mo
Zephyrus-L1-33B.i1-IQ2_XXS.gguf не желаете? (это одна из самых ужатых версий которую я нашел и она почти поместилась в видеопамять емнип)
@m0xee @drq

**Мя ��** @mo@mastodon.ml · Jan 17, 2025, 11:19

**Мя ��** @mo@mastodon.ml · Jan 17, 2025, 11:19

Jan 17, 2025, 11:19

Мя �� @mo@mastodon.ml

@m0xee так что логичным шагом видится аппаратная поддержка 4-, или даже 2-битовых чисел (да, до такого тоже сжимают, и оно даже сохраняет работоспособность!). Ну и всякого между желательно

@drq @WildPowerHammer

**m0xEE** @m0xee@librem.one · Jan 17, 2025, 12:18

**m0xEE** @m0xee@librem.one · Jan 17, 2025, 12:18

Jan 17, 2025, 12:18

m0xEE @m0xee@librem.one

@mo @drq @WildPowerHammer
Ну да, идея упаковки в занимающий меньше места тип, пожертвовав точностью не нова, например выбросив из того же IEEE 754 часть мантиссы. Не знаю правда как это работает на видеокарте, но не думаю, что сильно отлично от обычного центрального процессора, и не знаю что там есть для этого в аппаратной части, всё же, машинное обучение — не моё.