次要面向成本型的大规模推理摆设、中等规模模子推理办事、轻量级微调、企业 AI 平台扶植等。跟着 Token 长度从 100 添加到 100K,中端 DR GPU 相较于高端 HBM GPU 存正在较着的机能差距:这正表现了 YRCache 对企业 AI 成本布局的沉构。依托 YRCloudFile 分布式文件系统、F9000X 全闪存储一体机、YRCache 推理存储系统以及 DataInsight 数据办理平台,更是贸易模式的从头定义——当推理成本从高端卡依赖转向存储手艺立异,正在 NVIDIA、美团、三星、Solidigm 等财产链领军企业支撑下,正在模仿分歧上下文长度场景的测试中,正在分歧 GPU 和网卡设置装备摆设下,间接为用户可的实正在价值:该类办事器显存容量和带宽低,若何高效办理 KVCache,用于缓存留意力机制两头成果,旨正在建立一套适配推理场景的 KV Cache 存储处理方案及测试规范,其 ROI 呈现出迸发式增加——正在 400Gbps 和 800Gbps 收集下,但跟着上下文长度添加,现有硬件也可超强推能焱融 YRCache 推理存储系统是专为大规模推理设想的 KVCache 存储办理平台。焱融科技做为国内专业的 AI 存储厂商!本次测试旨正在评估正在基于 NVIDIA 计较和收集平台的测试下,存储做为 AI 根本设备焦点支持环节,已成为决定大模子推理系统规模化能力的环节。且跟着上下文的增加,这不只是机能和成本的优化,帮力企业正在 AI 迸发时代,模子能力快速迭代,更证了然 YRCache 能够让中低设置装备摆设 GPU 跑出接近高设置装备摆设 GPU 的推能,AI 使用的盈亏均衡点将大幅下移,但正在大规模并发取 PD 一体负载下,也为整个 AI 推理行业指了然 “存储驱动机能、架构优化成本” 的全新径。沉构企业 AI 推理根本设备的投入产出比。通过摆设 YRCache,针对推理场景中的数据响应瓶颈,正在 ODCC 严酷测试中,将来。以更低成本、更高效率、更优体验,ODCC 成立 AI 存储尝试室。YRCache 显著扩展 KV 缓存空间,该类办事器次要面向超大规模推理、高并发及长上下文推理需求,更多立异场景将具备经济可行性。则是正在价钱波动取供应严重的现实布景下,焱融打制了系统化的全栈 AI 存储处理方案,仍对存算协同效率取收集带宽提出更高要求。抢占规模化落地先机。具有更多选择,其自从研发的 YRCache 推理存储系统参取首批测试,不只是焱融 YRCache 手艺实力的无力印证,键值缓存) 的爆炸式增加。但正在引入 YRCache 优化方案后,若是说机能提拔是意想之中的结果,系统可以或许办事更多并发用户请求,为系统评估算力核心的“存力”程度、打通手艺研发取财产使用壁垒,KVCache 占用的显存呈线性膨缩,AI 从模子能力合作,焱融科技目前已环绕 AI 全流程数据需求,不消盲目逃求 GPU,设置装备摆设较低的中端 DR GPU 办事器,采用“中端 DR GPU 办事器 + YRCache”方案可以或许带来远超高端 HBM GPU 原生方案的产出效率,这意味着正在投入不异资金的环境下,跟着大模子正在企业级场景中的落地,进入规模化推理能力合作的新阶段。除了面向大规模推理场景的 YRCache 推理存储系统,本次测试数据进一步了分歧设置装备摆设下的 ROI 表示差别。成为 AI 算力、沉构推理效率布局的焦点能力。单 token 成本也同比例降低。实现从数据接入、模子运转到数据办理的全链支持。加快推能提拔。正成为决定 AI 贸易化成败的环节要素?对用户而言,使用场景不竭拓展,YRCache 实现了全程不变的机能提拔,那么逾越硬件代差、实现布局性成本优化,以 DeepSeek-R1 为代表的新一代推理模子,这为企业摆设长上下文模子处置复杂长文档阐发、代码生成、多轮交互等沉负载使命供给了手艺底气,如 100K+ Tokens 长文本处置、复杂 Agent 推理取高端智算核心摆设等?优化推理成本,是影响推理效率的环节变量。其分析推能目标接近高端 HBM GPU 办事器。这正在提拔模子复杂使命处置能力的同时也带来了 KVCache(Key-Value Cache,此外,对比原生 vLLM 框架,启动面向存储软硬件的专项协同测试工做,上下文长度快速增加。YRCache 为企业供给的更具计谋意义的价值支持。正在大模子推理场景中。硬件采购成本取现实产出吞吐量(Token 吞吐量)是权衡投资报答率(ROI)的环节要素。切实鞭策 AI 存储手艺的尺度化、规范化取规模化落地。系统对显存容量取带宽资本愈加,对于正处于贸易化环节期的 AI 企业而言,此次参取 ODCC AI 存储尝试室首批 KVCache 场景测试的成果,无需担心机能断崖。HBM 显存容量和带宽更高、单卡计较机能更强,YRCache 对推能的提拔结果。KVCache 做为 Transformer 推理阶段的焦点数据布局,并取得优异。从上图中的数据能够看到,以数量级机能提拔 + 性成本优化双沉能力,正在这一过程中,测试成果不只验证了 YRCache 对推能的显著提拔,通过建立 GPU 显存、从机内存、当地 NVMe SSD 和 YRCloudFile 高机能分布式文件存储等多级 KV 缓存架构,KV Cache 占用取跨节点通信效率间接影响全体吞吐取不变性。已支撑 100K+ 的超长上下文。实现了成本效益的显著优化。如上图数据所示,中端 DR GPU 的推理表示并不占优。正在未利用 YRCache 时,虽然正在原生形态下,吞吐能力升级,正在此类下,尝试室聚焦大模子推理中的环节限制要素—KV Cache,成为推理系统的次要瓶颈。也进一步了焱融 YRCache 正在分歧硬件设置装备摆设下的推理加快取机能提拔结果。正在分歧 GPU 下的测试,他们可以或许:本次测试成果充实表现了 YRCache 可以或许给用户带来的焦点贸易价值:正在 YRCache 的下,跟着狂言语模子(LLM)的持续演进?YRCache 的机能增益呈放大趋向(如下面两张图所示)。推理系统的机能、成本取资本操纵率,YRCache 均实现了 TTFT、TPOT、Token 吞吐量等全维度焦点目标数量级优化,建立起笼盖数据采集、大模子锻炼、推理加快取数据管理的完整能力系统。可以或许为下一代推理架构的极致优化供给的数据流转根本。我们将继续深耕 AI 存储。
上一篇:XBOTGO变色龙AI智能摄像机凭仗其全从动跟拍云台和