“BI 的未来是对话式的。” 这是多年来行业分析师的预测。 然而,尽管去年基于 LLM 的对话式应用程序(例如 ChatGPT + Bard)和新的强大模型(例如 GPT-4)取得了惊人的进步,但大多数公司仍然没有部署对话式 BI。 业务用户仍在寻找 BI 仪表板中的见解,数据分析师仍在打开连接到数据仓库的 SQL 引擎并手写 SQL 查询来回答临时业务问题。 为什么对话式 BI 还没有出现?
虽然结构化数据仅占全球数据的 20% 左右,但大多数企业数据仍然存储在结构化数据存储中,并且主要通过 SQL 查询进行访问。 因此,为了实现对话式 BI,需要设计一种解决方案,将自然语言业务问题转换为有效的 SQL 查询,然后针对企业数据仓库执行这些查询。 自 70 年代以来,工程师们一直尝试构建“自然语言到 SQL”(NL2SQL) 引擎(使用基于规则的技术),但很快就会变得过于复杂而无法使用。 但是随着像GitHub CoPilot和OpenAI Code Interpreter这样的转换器的进步,这似乎应该是一个微不足道的问题来解决。 但事实并非如此。
企业可以通过(至少)两种方式构建基于 LLM 的 NL2SQL 引擎来支持会话式 BI:
微调自己的 LLM — 这种方法需要采用现有的 LLM,然后使用与公司结构化数据相关的 NL与SQL 对进一步对LLM进行训练。这种方法面临的一些挑战是:a) 提供训练数据集既困难又昂贵,b) 最强大的 LLM 模型 (GPT-4) 无法进行微调(截至撰写本文时)。
利用上下文学习——最新的 LLM 模型(如 GPT-4-32K)可以很好地开箱即用地编写SQL,并且有足够的上下文窗口来进行一些小样本训练,并让代理尝试通过使用思维链技术执行后续操作来从错误中恢复过来。这里的想法是在GPT-4之上构建一个LLM代理,它可以通过很少的学习来实现NL2SQL。
那么部署解决方案#2 面临哪些挑战? 以下是我们遇到的六种情况: