作者
郭人通
“从用Python定义流水线,到生成Docker镜像,再到启动服务并调用执行,一共不到30行代码!
想要模型落地,有一连串大坑躲都躲不开:
模型转不了ONNX,TensorRT。
模型推理搞的飞快之后,发现预处理、后处理才是瓶颈。
除了需要搜寻各种英伟达的算法库,还需要学习各种高性能计算和CUDA编程技术,对着图片解码、视频解码、tensortransform、分词之类的操作一顿猛搞。
发现英伟达老爷的东西“又高又硬”,根本装不起来。
不仅要写一堆脚本程序,努力的把一整条处理流水线串起来,更要设计好服务的调用接口。
串完发现流水线各级速度不匹配,想着把慢的阶段起多实例并行,又扯上了负载均衡和流水线优化。
流水线上的算法实例起多了,物理资源又不够了。
一切内容终于准备就绪了,竟然又要去学写Dockerfile......
为了解决上面一连串的问题,我们发起了一个开源项目Towhee(github.