LangChain系列文章
在构建语言模型应用程序时,需要处理许多不同的部分。其中最关键的组成部分之一是确保模型产生的结果在广泛的输入范围内都是可靠和有用的,并且能够与应用程序的其他软件组件良好协作。确保可靠性通常归结为应用程序设计、测试与评估以及运行时检查的某种组合。
本节中的指南回顾了LangChain提供的API和功能,以帮助您更好地评估您的应用程序。在考虑部署大型语言模型(LLM)应用程序时,评估和测试都是至关重要的,因为生产环境要求可重复且有用的结果。
LangChain提供了各种类型的评估器,以帮助您衡量在多样化数据上的性能和完整性,我们希望鼓励社区创建和分享其他有用的评估器,以便每个人都能改进。这些文档将介绍评估器的类型、如何使用它们,以及在现实世界场景中使用它们的一些示例。
LangChain中的每种评估器类型都配备了现成的实现方案和可扩展的API,允许根据您独特的需求进行定制。以下是我们提供的一些评估器类型:
这些评估器可以在各种情景中使用,并且可以应用于LangChain库中的不同链条和LLM实现。
我们还在努力分享指南和食谱,展示如何在真实世界情景中使用这些评估器,例如:
LangSmith 提供了一个集成的评估和追踪框架,允许您检查回归问题,比较系统,并轻松识别和修复错误来源及性能问题。请查看 LangSmith 评估的文档和其他更多详细信息的cookbooks手册,以评估您的应用程序。
您的应用质量取决于您选择的大型语言模型(LLM)以及您采用的提示和数据检索策略,以提供模型上下文。我们在LangChain基准测试包中发布了一系列基准任务,用于评估不同大型语言模型系统在以下任务上的表现:
查看文档获取示例和排行榜信息。
https://python.langchain.com/docs/guides/evaluation/