LLM Quantization์ด ์ถ๋ก ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์๋ค๋ ์ ์ ๋๋ฆฌ ์๋ ค์ ธ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฅผ ์ค์ ์๋น์ค์ ์ ์ฉํ๋ ๊ฒ์ ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ ์ ๋๋ค. Model Compression Part๋ ์ฌ์ฉ์ ์นํ์ ์ธ Model Compression ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํด ์ด๋ฌํ ์ด๋ ค์์ ํด๊ฒฐํ๊ณ , ๊ณ ๊ฐ์ด ์์ฌ NPU๋ฅผ ์ต๊ณ ์ ํจ์จ๋ก ํ์ฉํ ์ ์๋๋ก ์ง์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
Model Compression ๋๊ตฌ๊ฐ Hardware-specific ์ต์ ํ๋ฅผ ํฌํจํ ๋, ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ๊ธฐ ์ํด ์์ฌ NPU์ ํนํ๋ ์ต์ ํ ๊ธฐ๋ฅ์ ๊ฐ์ถ ์์ฒด ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด NPU์ ์ฑ๋ฅ์ ์ต๋๋ก ๋์ด์ฌ๋ฆด ์ ์๋ ํ์ ์ํํธ์จ์ด ์คํ์ ์ ๊ณตํฉ๋๋ค.
FuriosaAI Model Compression ๋๊ตฌ๋ ์๋ํ, ํ์ฅ์ฑ, ์์ ์ฑ์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ๋ฉด์ ์ ์ ๋ ๋ง์ ๊ธฐ๋ฅ์ด ์๊ตฌ๋ฉ๋๋ค. ์ด์ ๋ฐ๋ผ ์ํํธ์จ์ด ์์ง๋์ด๋ง ์ญ๋์ด ๋งค์ฐ ์ค์ํ ์ํฉ์ ๋๋ค. ๋ฐ๋ผ์ ํ๋ถํ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๊ฒฝํ์ ๋ณด์ ํ๊ณ ์์ผ๋ฉฐ, Model Compression ์์ง๋์ด๋ก์ ์ปค๋ฆฌ์ด๋ฅผ ๋ฐ์ ์ํค๊ณ ์ ํ๋ ์ธ์ฌ๋ฅผ ์ฐพ๊ณ ์์ต๋๋ค.
Model Compression ๋๊ตฌ ๊ฐ๋ฐ
๋ค์ํ ์์ํ๋ ๋ชจ๋ธ ํ๋ณด ๋ฐ ์ฑ๋ฅ ๊ฒ์ฆ
์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ์ง๋ณด๋ Compression Algorithm๊ฐ๋ฐ
PyTorch ๊ฐ๋ฐ ๊ฒฝํ์ด ํ๋ถํ์ ๋ถ
์์ฉ ์ํํธ์จ์ด ๊ฐ๋ฐ ๊ฒฝํ์ด ์์ผ์ ๋ถ
๊ด๋ จ ๋ถ์ผ์์ 3๋ ์ด์์ ์ค๋ฌด ๊ฒฝ๋ ฅ์ ๋ณด์ ํ์ ๋ถ
DevOps ๋ฐ MLOps์ ๋ํ ๊ฒฝํ๊ณผ ์ง์
vLLM, TensorRT-LLM ๋ฑ์ LLM inference tool์ ์ฌ์ฉํ ๊ฒฝํ
Deep Learning Quantization ๊ฒฝํ๊ณผ ์ง์
Deep Learning ๊ฐ์๊ณผ ๊ด๋ จ๋ ํ์ฌ์์์ ๊ทผ๋ฌด ๊ฒฝํ
furiosa-ai