SALE: Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling

Published in arXiv preprint, 2025

Xiaodong Ji, Hailin Zhang, Fangcheng Fu, Bin Cui