Vanna是麻省理工学院授权的开源Python RAG(检索增强生成)框架,用于SQL生成和相关功能。
Vanna只需两个简单的步骤——在数据上训练RAG“模型”,然后提出问题,这些问题将返回SQL查询,这些查询可以设置为在数据库上自动运行。
有关如何在引擎盖下工作的更多详细信息,请参见基类。
这些是我们使用Vanna构建的一些用户界面。您可以按原样使用这些,也可以将其作为自己自定义界面的起点。
Jupyter Notebook
vanna-ai/vanna-streamlit
vanna-ai/vanna-flask
vanna-ai/vanna-slack
有关所需数据库、LLM等的详细信息,请参阅文档。
如果您想在训练后感受一下它的工作原理,可以尝试这款 Colab 笔记本。
pip install vanna
import vanna as vn
您可能需要也可能不需要运行这些 vn.train 命令,具体取决于您的用例。请参阅文档了解更多详细信息。这些陈述可以让您了解它是如何工作的。
DDL 语句包含有关数据库中的表名、列、数据类型和关系的信息。
vn.train(ddl="""
CREATE TABLE IF NOT EXISTS my-table (
id INT PRIMARY KEY,
name VARCHAR(100),
age INT
)
""")
有时您可能想要添加有关业务术语或定义的文档。
vn.train(documentation="Our business defines XYZ as ...")
您还可以将SQL查询添加到训练数据中。如果您已经有一些查询,这将非常有用。您只需从编辑器中复制并粘贴这些内容即可开始生成新的SQL。
vn.train(sql="SELECT name, age FROM my-table WHERE name = 'John Doe'")
你会得到 SQL
SELECT c.c_name as customer_name,
sum(l.l_extendedprice * (1 - l.l_discount)) as total_sales
FROM snowflake_sample_data.tpch_sf1.lineitem l join snowflake_sample_data.tpch_sf1.orders o
ON l.l_orderkey = o.o_orderkey join snowflake_sample_data.tpch_sf1.customer c
ON o.o_custkey = c.c_custkey
GROUP BY customer_name
ORDER BY total_sales desc limit 10;
如果您已连接到数据库,您将获得该表:
顾客姓名 | 总销售额 |
---|---|
Customer#000143500 | 6757566.0218 |
Customer#000095257 | 6294115.3340 |
Customer#000087115 | 6184649.5176 |
Customer#000131113 | 6080943.8305 |
Customer#000134380 | 6075141.9635 |
Customer#000103834 | 6059770.3232 |
Customer#000069682 | 6057779.0348 |
Customer#000102022 | 6039653.6335 |
Customer#000098587 | 6027021.5855 |
Customer#000064660 | 5905659.6159 |
您还将获得一个自动绘图:
RAG 检索增强生成技术
· 可跨LLM移植
· 如果培训数据中的任何一个已过时,则可以轻松删除这些数据
· 运行起来比微调便宜得多
· 更经得起未来考验——如果有更好的LLM问世,你可以把它换掉
FT 微调
· 如果您需要在提示中最小化令牌,这很好
· 起步缓慢
· 训练和运行费用高昂(通常)
Vanna设计用于连接任何数据库、LLM和矢量数据库。有一个VannaBase抽象基类定义了一些基本功能。该包提供了与OpenAI和ChromaDB一起使用的实现。您可以很容易地扩展Vanna以使用您自己的LLM或矢量数据库。有关更多详细信息,请参阅文档。
https://vanna.ai/docs/ vanna.ai
https://vanna.ai/ Let Vanna.AI write your SQL for you
https://github.com/vanna-ai/vanna 代码仓库