跳到主要内容

基准说明与方法

这一页解释 Memorose 网站和文档中引用的 benchmark 数字。

重要范围说明

当前这些数字是 项目侧工程基准结果,来自 Memorose 自身的内部评估环境。它们适合帮助理解能力方向和性能趋势,但 不应 被当成独立第三方审计。

当前公开数字

  • HaluMem Recall:项目基准中达到 100% 无幻觉召回
  • Persona Consistency:项目基准中达到 100% 人设保持
  • LoCoMo:项目基准中达到 100% 长对话质量保持
  • Cache Speedup:项目基准中重复查询达到 1273x 加速

这些数字想表达什么

  • Memorose 可以在长时运行交互中保持用户和 agent 上下文
  • 当相关记忆已经被结构化整合后,混合检索可以显著降低重复查询延迟
  • 系统优化目标是 agent 记忆质量,而不只是文档检索准确率

这些数字还不能证明什么

  • 它们不能替代公开可复现 benchmark
  • 它们不能保证在所有模型、数据集和部署拓扑下都得到同样结果
  • 它们不能被视为正式独立认证

建议如何解读

更合理的使用方式是把这些数字当作:

  • 当前工程方向的证据
  • Memorose 面向持久化 AI 记忆优化的信号
  • 你自己做 workload 级验证的起点

可复现性路线图

Memorose 正在补齐:

  • 公开 benchmark 输入和评估脚本
  • 更清晰的硬件与模型配置说明
  • 面向外部验证的可复现 benchmark 包

在这部分完成之前,计划用于生产评估的团队应当基于自己的工作负载、模型和延迟预算再跑一遍 benchmark。