科学工具
科学工具让世界更美好
让世界更美好

Kedro 开源 Python 框架,能创建可复用、可维护、模块化的数据科学代码Kedro 开源 Python 框架,能创建可复用、可维护、模块化的数据科学代码

Kedro 是由 LF AI & Data 基金会托管的开源 Python 框架,能打造可复现、易维护、模块化的数据工程和数据科学代码,能解决 Jupyter 笔记本、一次性脚本和胶水代码存在的不足,提升团队的协作效率,创建可复用的分析代码。

Kedro安装

1、通过 Python 包索引(PyPI)进行安装,在命令行输入以下命令:

pip install kedro

2、使用 conda 安装,命令为:

conda install -c conda-forge kedro

如果想获取正式发布前的最新版本,可从 main 分支进行安装,命令如下:

pip install git+https://github.com/kedro-org/kedro@main

Kedro功能

功能模块 详细说明
项目模板 基于 Cookiecutter Data Science 构建的标准且易于修改使用的项目模板。
数据目录 包含一系列轻量级数据连接器,可在多种文件格式和文件系统(如本地和网络文件系统、云对象存储、HDFS 等)间实现数据的保存与加载,还支持基于文件系统的数据和模型版本控制。
流水线抽象 可自动解析纯 Python 函数之间的依赖关系,同时借助 Kedro - Viz 实现数据流水线的可视化。
编码规范 支持使用 pytest 进行测试驱动开发,利用 Sphinx 生成详细的代码文档,通过 ruff 对代码进行检查,并运用标准的 Python 日志库。
灵活部署 支持单机或分布式机器部署,同时还为在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 等平台上的部署提供额外支持。

初次使用 Kedro 时,先查阅文档了解安装步骤和核心概念,通过“太空飞行”教程动手构建一个 Kedro 项目,积累实践经验。对于新手和中级用户,文档中有专门章节详细介绍如何使用 Kedro - Viz 对项目进行可视化。Kedro 文档有与 Jupyter 笔记本协作的相关内容,和针对关键功能的高级用户指南和 API 参考文档。

Kedro 核心框架支持 CPython 核心团队积极维护的所有 Python 版本,当某个 Python 版本终止维护时,Kedro 也会停止对其的支持。Kedro Datasets 包遵循 NEP 29 Python 版本支持策略,通常会先于 Kedro 框架停止对某些 Python 版本的支持,这是因为该包依赖的众多库遵循 NEP 29,Kedro 框架较为保守的版本支持策略使得管理这些依赖变得困难。

为了与社区保持联系,Kedro 每两周会举办一次公开的咖啡交流会议,分享最新动态和相关内容,设置现场问答环节。