学术动态

计算所NLP团队发布异质混合多跳检索框架LevelRAG

发布时间:2025-02-27

2025年2月26日,计算所 NLP 团队发布了异质混合多跳检索框架LevelRAG。该框架开创性地将多跳问题分解与规划,针对检索器的查询改写进行了层次化建模,并在语义层面对检索结果进行整理和汇总,从而显著提升了检索过程的全面性和准确性。

具体来说,LevelRAG 是一种两阶段的检索增强生成(RAG)框架,结合了多跳逻辑规划和混合检索,以增强检索过程的完整性和准确性。第一阶段,框架通过一个高级搜索器将用户查询分解为原子查询。第二阶段,多个低级搜索器为每个子查询检索最相关的文档,随后将相关信息汇总到高级搜索器中以生成最终答案。在每个低级搜索器中,LevelRAG 利用大型语言模型(LLMs)对原子查询进行适应性优化,使其更好地适配低级搜索器中内置的检索器。同时,在两个阶段中,LevelRAG 均采用了迭代式优化技术,以进一步提升检索准确性。最终,低层搜索器的结果会以语义形式被高层搜索器汇总,从而实现异质检索器检索结果的融合。

我们在多个单跳和多跳知识密集型问答任务上,以 Qwen2 7B 作为生成器进行了系统性实验评估。实验结果表明,与 Self-RAG 、RQ-RAG 等现有多跳检索方法相比, LevelRAG 在各项评估指标上均取得了显著的性能提升,充分验证了该方法的有效性。值得注意的是,通过采用高效的层次化建模方法,基于 7B 轻量级模型的LevelRAG 在多跳问答任务中展现出了卓越的性能表现:不仅在回复质量(F1)上与基于 70B 大模型的 RankRAG 相当,在检索成功率(Acc)上更是超越了所有现有方法。

LevelRAG 由计算所NLP团队 FlexRAG 框架提供支持。

论文链接:https://arxiv.org/abs/2502.18139

项目地址:https://github.com/ictnlp/LevelRAG

FlexRAG:https://github.com/ictnlp/flexrag



附件下载: