GPU記憶體已經成為限制大語言模型推論效率的瓶頸,也促成一系列外部KV記憶體解決方案的誕生,藉由卸載GPU的KV快取,達到提升效能的目的