Quick Review: AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration| 东毅居士

Quick Review: AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

作者：XD / 发表： 2023年12月7日 00:38 / 更新： 2023年12月7日 00:38 / 科研学习 / 阅读量：2297

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

Paper: AWQ on arXiv
Code: AWQ on GitHub
Organization: MIT

Highlight:

Optimal Alpha Scaling: Focuses on determining the optimal alpha value for scaling weights prior to quantization.

本文作者：XD 转载请标明出处：http://www.eadst.com/blog/228

本站采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

上一篇
Quick Review: ZeroQuant-FP

下一篇
Quick Review: SmoothQuant: Accurate and Efficient Post-Training Quantization for LLMs

Category

标签云

Claude TensorRT SVR SPIE Password TSV InvalidArgumentError 飞书 Markdown Hilton NLP Paddle HaggingFace VSCode Mixtral Augmentation NLTK GoogLeNet Docker WAN NameSilo git-lfs C++ TensorFlow FP64 OpenCV Card 签证版权 uwsgi logger VGG-16 tqdm Website Translation Jupyter transformers torchinfo Land Numpy WebCrawler LaTeX LoRA Crawler Tensor Llama Jetson Knowledge 算法题继承 Bipartite QWEN Review CAM Bert Data FlashAttention DeepSeek HuggingFace YOLO SQLite Datetime Git Paper DeepStream FastAPI CLAP Github VPN OpenAI LeetCode Quantize Plotly GPTQ PDF Logo 关于博主 RAR printf Random XML uWSGI CC Plate v2ray llama.cpp Permission Hungarian CTC Michelin 阿里云 Interview CV Pickle Nginx Vim API 公式 Zip Disk Pytorch Shortcut GGML AI Heatmap 搞笑 PDB Sklearn ONNX Domain Use Anaconda Streamlit Color scipy MD5 EXCEL COCO Bin BF16 Clash mmap FP32 BTC Safetensors 证件照 TTS JSON diffusers RGB 多线程 Video Web 净利润 Tiktoken Cloudreve Input Base64 LLM Excel Template Windows ChatGPT Conda Python 音频 FP16 多进程 CUDA Google Image2Text git UI Qwen Dataset Qwen2 Statistics Vmess PyCharm Quantization PIP Pillow CSV 域名 LLAMA Freesound Algorithm Qwen2.5 Attention SQL Distillation Baidu Pandas Ptyhon GPT4 Gemma Firewall Linux CEIR Ubuntu Diagram UNIX Bitcoin Math OCR tar ModelScope 报税 Food XGBoost FP8 ResNet-50 财报 Transformers Hotel 腾讯云 Django GIT BeautifulSoup Breakpoint Tracking Proxy PyTorch Magnet Animate hf v0.dev

站点统计

本站现有博文305篇,共被浏览721152次

本站已经建立2351天!

原 Quick Review: AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

作者：XD / 发表： 2023年12月7日 00:38 / 更新： 2023年12月7日 00:38 / 科研学习 / 阅读量：2297

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

Highlight:

Quick Review: AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration