为什么选 RAG?
传统的对话机器人依赖规则匹配和意图分类,维护成本高且灵活性差。RAG(Retrieval-Augmented Generation)通过检索增强生成,让大模型能够基于企业知识库回答问题,既保持了 LLM 的泛化能力,又确保了回答的准确性。
核心架构
|
|
1. 知识库构建
- 文档清洗与分块(chunk_size: 500-1000 tokens)
- 向量化存储(Milvus / Chroma / FAISS)
- 元数据标注(来源、时间、置信度)
2. 检索策略
- 混合检索:BM25 + 向量相似度
- 重排序:Cross-Encoder 精排
- 多路召回保证覆盖率
3. Prompt 设计要点
- 角色设定 + 上下文限制 + 输出格式约束
- 防止幻觉:添加"如果不确定请说不知道"
踩坑记录
- Chunk 太大:检索不精确;太小:上下文断裂
- Embedding 模型选择:中文推荐 BGE / M3E
- 延迟优化:向量索引 + 缓存策略
💡 完整代码和部署脚本已开源,关注后续更新。