跳到主要内容

基准说明与方法

这一页解释 Memorose 网站和文档中引用的 benchmark 数字。

重要范围说明

当前这些数字是 项目侧工程基准结果，来自 Memorose 自身的内部评估环境。它们适合帮助理解能力方向和性能趋势，但不应被当成独立第三方审计。

当前公开数字

HaluMem Recall：项目基准中达到 100% 无幻觉召回
Persona Consistency：项目基准中达到 100% 人设保持
LoCoMo：项目基准中达到 100% 长对话质量保持
Cache Speedup：项目基准中重复查询达到 1273x 加速

这些数字想表达什么

Memorose 可以在长时运行交互中保持用户和 agent 上下文
当相关记忆已经被结构化整合后，混合检索可以显著降低重复查询延迟
系统优化目标是 agent 记忆质量，而不只是文档检索准确率

这些数字还不能证明什么

它们不能替代公开可复现 benchmark
它们不能保证在所有模型、数据集和部署拓扑下都得到同样结果
它们不能被视为正式独立认证

建议如何解读

更合理的使用方式是把这些数字当作：

当前工程方向的证据
Memorose 面向持久化 AI 记忆优化的信号
你自己做 workload 级验证的起点

可复现性路线图

Memorose 正在补齐：

公开 benchmark 输入和评估脚本
更清晰的硬件与模型配置说明
面向外部验证的可复现 benchmark 包

在这部分完成之前，计划用于生产评估的团队应当基于自己的工作负载、模型和延迟预算再跑一遍 benchmark。

重要范围说明
当前公开数字
这些数字想表达什么
这些数字还不能证明什么
建议如何解读
可复现性路线图