MetaSpore 简介
MetaSpore 是一个一站式端到端的机器学习开发平台,提供从数据预处理、模型训练、离线实验、在线预测到在线实验分桶 ABTest 的全流程框架和开发接口。
MetaSpore 由元灵数智团队开发,欢迎关注我们的公众号和微信交流群。
新闻链接:
- 2022-06-10:基于MetaSpore on AlphaIDE快速落地风控算法
- 2022-05-18:AlphaIDE - 新一代AI开发生产平台开放内测
- 2022-05-07:多模态语义检索 | 基于 MetaSpore 快速部署 HuggingFace 预训练模型
- 2022-04-12:重磅!开源湖仓平台 LakeSoul 设计理念详解
- 2022-04-02:揭秘!新一代一站式机器学习平台MetaSpore的设计理念
- 2022-03-31:重磅!基于新一代MetaSpore平台快速搭建工业级推荐系统
核心功能
MetaSpore 具有如下几个特点:
- 一站式端到端开发,从离线模型训练到在线预测和分桶实验,全链路统一的开发体验;
- 深度学习训练框架,兼容 PyTorch 生态,支持分布式大规模稀疏特征学习
- 训练框架与 PySpark 打通,无缝读取数据湖和数仓上的训练数据;
- 高性能在线预测服务,支持神经网络、决策树、Spark ML、SKLearn 等多种模型;支持异构计算推理加速;
- 在离线统一特征抽取框架,自动生成线上特征读取逻辑,统一特征抽取逻辑;
- 在线算法应用框架,提供模型预测、实验分桶切流、参数动态热加载和丰富的 Debug 功能;
- 丰富的行业算法示例和端到端完整链路解决方案。
示例
安装包下载
离线安装包
我们提供了预编译的 Python 安装包,可以通过 pip 安装:
pip install metaspore
支持 Python 的最低版本为 3.8。
运行 MetaSpore 离线训练,还需要 PySpark 和 PyTorch。可以通过 pip
命令进行安装:
pip install pyspark
pip install torch==1.11.0+cpu -f https://download.pytorch.org/whl/cpu/torch_stable.html
这两个依赖没有作为 metaspore wheel 的默认依赖,这样方便用户选择需要的版本。
Spark 官方打包的 PySpark,没有包含 hadoop-cloud 的 jar 包,无法访问 S3 等云存储。我们提供了一个打包好 S3 客户端的 PySpark 安装包,可以从这里下载后安装:
pip install pyspark-3.1.2.f8301b97d4-py2.py3-none-any.whl
关于如何设置 S3 等云存储的访问,请参考 配置 MetaSpore 离线训练 S3 访问权限
在线 Serving 服务镜像
我们提供预编译好的 Docker 镜像。
CPU 镜像
docker pull swr.cn-southwest-2.myhuaweicloud.com/dmetasoul-public/metaspore-serving-release:cpu-v1.0.1
GPU 镜像
docker pull swr.cn-southwest-2.myhuaweicloud.com/dmetasoul-public/metaspore-serving-release:gpu-v1.0.1
Serving 服务的启动方法见 运行 Serving 镜像
编译代码
问题反馈
关于使用上的问题,可以在 GitHub Discussion 中发帖提问,也可以通过 GitHub Issue 反馈。