python导出数据为parquet格式

发布时间:2024年01月24日

import duckdb
import pandas as pd
from sqlalchemy import create_engine

# 定义连接到您的 MySQL 或 PostgreSQL 数据库的参数
db_type = 'mysql' ?# 或 'postgresql'
user = 'your_username'
password = 'your_password'
host = 'your_host'
port = 'your_port'
database = 'your_database'
table_name = 'your_table'

# 创建 SQLAlchemy 引擎
if db_type == 'mysql':
? ? engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}:{port}/{database}')
else: ?# postgresql
? ? engine = create_engine(f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}')

# 从 MySQL/PostgreSQL 读取数据
with engine.connect() as conn:
? ? query = f'SELECT * FROM {table_name}'
? ? df = pd.read_sql(query, conn)

# 使用 DuckDB
con = duckdb.connect(database=':memory:')
con.execute(f'CREATE TABLE {table_name} AS SELECT * FROM df')
con.execute(f'COPY {table_name} TO \'output.parquet\' (FORMAT \'parquet\')')

print("数据已成功导出为 Parquet 格式")
?

文章来源:https://blog.csdn.net/t1g2q3/article/details/135830768
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。