A flexible, high-performance carrier for machine learning models(『飞桨』服务化部署框架)
(简体中文|English)
【更新说明】 我们在新开源项目FastDeploy里面,基于Triton Inference Server,集成FastDeploy Runtime(包括Paddle Inference、ONNX Runtime、TensorRT以及OpenVINO等),可支持飞桨模型的高性能服务化部署,对服务化部署有需求的开发者,可以参考如下文档进行使用,有任何问题,欢迎在FastDeploy开源项目里通过issue反馈。
Paddle Serving 依托深度学习框架 PaddlePaddle 旨在帮助深度学习开发者和企业提供高性能、灵活易用的工业级在线推理服务。Paddle Serving 支持 RESTful、gRPC、bRPC 等多种协议,提供多种异构硬件和多种操作系统环境下推理解决方案,和多种经典预训练模型示例。核心特性如下:
部署
此章节引导您完成安装和部署步骤,强烈推荐使用Docker部署Paddle Serving,如您不使用docker,省略docker相关步骤。在云服务器上可以使用Kubernetes部署Paddle Serving。在异构硬件如ARM CPU、昆仑XPU上编译或使用Paddle Serving可阅读以下文档。每天编译生成develop分支的最新开发包供开发者使用。
使用
安装Paddle Serving后,使用快速开始将引导您运行Serving。具体步骤如下:
第一步,调用模型保存接口,生成模型参数配置文件(.prototxt)用以在客户端和服务端使用;
第二步,阅读配置和启动参数并启动服务;
第三步,根据API和您的使用场景,基于SDK编写客户端请求,并测试推理服务。您想了解跟多特性的使用场景和方法,请详细阅读以下文档。
开发者
为Paddle Serving开发者,提供自定义OP,变长数据处理。
Paddle Serving与Paddle模型套件紧密配合,实现大量服务化部署,包括图像分类、物体检测、语言文本识别、中文词性、情感分析、内容推荐等多种类型示例,以及Paddle全链条项目,共计46个模型。
图像分类与识别 | NLP | 推荐系统 | 人脸识别 | 目标检测 | 文字识别 | 图像分割 | 关键点检测 | 视频理解 |
---|---|---|---|---|---|---|---|---|
14 | 6 | 3 | 1 | 10 | 8 | 2 | 1 | 1 |
更多模型示例进入模型库
您想要同开发者和其他用户沟通吗?欢迎加入我们,通过如下方式加入社群
贡献代码
如果您想为Paddle Serving贡献代码,请参考 Contribution Guidelines(English)
反馈
如有任何反馈或是bug,请在 GitHub Issue提交
License