如何学习大模型推理平台技术栈?
我最早是java开发,后来做k8s容器化平台,近半年在做大模型应用开发,已能熟练使用python、langchain,后续想了解推理平台的开发,机器学习、transformer等基本都懂,pytorch能看懂但没太写过。推理平台这块比如vllm等,很多优化思路都能看懂,比如kvcache,prefill和decode分离,但是代码上没有直观感觉。想请教下想源码级别了解推理平台等等,系统学习的话,有哪些书籍和视频教程可以推荐呢?
我最早是java开发,后来做k8s容器化平台,近半年在做大模型应用开发,已能熟练使用python、langchain,后续想了解推理平台的开发,机器学习、transformer等基本都懂,pytorch能看懂但没太写过。推理平台这块比如vllm等,很多优化思路都能看懂,比如kvcache,prefill和decode分离,但是代码上没有直观感觉。想请教下想源码级别了解推理平台等等,系统学习的话,有哪些书籍和视频教程可以推荐呢?