基准说明与方法
这一页解释 Memorose 网站和文档中引用的 benchmark 数字。
重要范围说明
当前这些数字是 项目侧工程基准结果,来自 Memorose 自身的内部评估环境。它们适合帮助理解能力方向和性能趋势,但 不应 被当成独立第三方审计。
当前公开数字
- HaluMem Recall:项目基准中达到 100% 无幻觉召回
- Persona Consistency:项目基准中达到 100% 人设保持
- LoCoMo:项目基准中达到 100% 长对话质量保持
- Cache Speedup:项目基准中重复查询达到 1273x 加速
这些数字想表达什么
- Memorose 可以在长时运行交互中保持用户和 agent 上下文
- 当相关记忆已经被结构化整合后,混合检索可以显著降低重复查询延迟
- 系统优化目标是 agent 记忆质量,而不只是文档检索准确率
这些数字还不能证明什么
- 它们不能替代公开可复现 benchmark
- 它们不能保证在所有模型、数据集和部署拓扑下都得到同样结果
- 它们不能被视为正式独立认证
建议如何解读
更合理的使用方式是把这些数字当作:
- 当前工程方向的证据
- Memorose 面向持久化 AI 记忆优化的信号
- 你自己做 workload 级验证的起点
可复现性路线图
Memorose 正在补齐:
- 公开 benchmark 输入和评估脚本
- 更清晰的硬件与模型配置说明
- 面向外部验证的可复现 benchmark 包
在这部分完成之前,计划用于生产评估的团队应当基于自己的工作负载、模型和延迟预算再跑一遍 benchmark。