Quick Review: QUIK: Towards End-to-end 4-Bit Inference on Generative Large Language Models| 东毅居士

Quick Review: QUIK: Towards End-to-end 4-Bit Inference on Generative Large Language Models

作者：XD / 发表： 2023年12月7日 00:06 / 更新： 2023年12月7日 00:06 / 科研学习 / 阅读量：1846

QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models

Paper: QUIK on arXiv
Code: QUIK on GitHub
Organization: ETH Zurich

Key Features:

Int4 Calculation: Implements 4-bit integer (Int4) calculations to significantly enhance inference speed.
Reduced KV Cache Memory: Utilizes this technique mayb decrease Key-Value (KV) cache memory requirements, enabling more efficient processing of large language models.

本文作者：XD 转载请标明出处：http://www.eadst.com/blog/226

本站采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

上一篇
Quick Review: SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression

下一篇
Quick Review: ZeroQuant-FP

相关标签

LLM Quantization

About Me

XD

Goals determine what you are going to be.

Category

标签云

git 多线程 LoRA transformers TensorRT WAN RGB Permission DeepStream Statistics Use Attention GoogLeNet Data CAM Windows Plate Firewall InvalidArgumentError Pandas GGML Python Base64 Google BTC LLAMA NameSilo Logo Bert TSV Proxy Knowledge FP8 Random 音频 Conda Qwen2.5 搞笑 Numpy Paddle Hungarian Baidu HuggingFace Land Breakpoint Sklearn TensorFlow 证件照报税 Safetensors Pytorch PyCharm WebCrawler Tiktoken 域名 printf Color Bitcoin Image2Text OpenCV Vmess Magnet HaggingFace UNIX 阿里云 Transformers Hotel Tracking Datetime CTC Tensor Linux Llama 净利润 Django Qwen LeetCode 算法题 Distillation Algorithm ChatGPT Card OpenAI 多进程 EXCEL Augmentation Mixtral Jetson Bipartite diffusers Quantize Github CEIR Streamlit Ubuntu FP32 Freesound Interview Web XGBoost CLAP BeautifulSoup Pickle SQLite torchinfo Video llama.cpp ModelScope VGG-16 FP16 PIP SPIE Domain Paper QWEN CV GPTQ Heatmap YOLO Git SQL Gemma 继承 Pillow PyTorch Bin Hilton GIT ResNet-50 UI Dataset scipy 签证 Markdown FlashAttention FP64 Nginx VSCode ONNX Excel Claude hf Plotly uwsgi XML Anaconda Zip Qwen2 飞书 Website Vim tqdm 腾讯云 GPT4 公式 Shortcut 关于博主 Animate Quantization Template API uWSGI Food DeepSeek Jupyter C++ SVR Disk Ptyhon BF16 NLTK CSV COCO tar LLM LaTeX JSON logger OCR Math v0.dev Review Input TTS FastAPI Crawler Password git-lfs CUDA PDB 版权 Translation v2ray CC MD5 VPN Clash Michelin RAR Cloudreve Docker 财报 AI mmap Diagram NLP PDF

站点统计

本站现有博文305篇,共被浏览721162次

本站已经建立2351天!

热门文章

文章归档