苹果与英伟达合作改进大模型文本生成速度
苹果工程师在官方博客上透露与英伟达合作改进了大模型生成文本的速度。苹果今年早些时候开源了 Recurrent Drafter(ReDrafter) 技术,ReDrafter 代表了一种使用 2024-12-19 07:50:24 Author: www.solidot.org(查看原文) 阅读量:6 收藏

苹果工程师在官方博客上透露与英伟达合作改进了大模型生成文本的速度。苹果今年早些时候开源了 Recurrent Drafter(ReDrafter) 技术,ReDrafter 代表了一种使用大模型生成文本的新方法,速度更快,它结合了束搜索(beam search)和动态树注意力(dynamic tree attention)。苹果与英伟达合作将 ReDrafter 应用于生产中,ReDrafter 被集成到在英伟达 GPU 上运行大模型的工具 NVIDIA TensorRT-LLM 中。基准测试显示,使用 ReDrafter 能显著减少延迟,使用更少的 GPU 消耗更少的电力。

https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm
https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/


文章来源: https://www.solidot.org/story?sid=80098
如有侵权请联系:admin#unsafe.sh