以d-Matrix的Corsair芯片为例,该芯片自去年11月19日正式发布,并在短时间内展现出其卓越的推理能力。根据官方数据显示,Corsair在单服务器环境下能够实现Llama38B模型每秒处理60000个token的能力,其延迟仅为1毫秒,充分 ...