复星医药集团

AI基础设施运维开发工程师(J14283)

成员公司：复星医药集团总部
职位分类：计算机网络技术类
招聘人数：1
发布时间：2026-03-19
工作地点：上海市

工作职责

1. 云原生平台与混合架构运维：负责基于Kubernetes的生产级容器平台与混合架构（云上/私有化）的规划、部署、治理、容量规划、调优与高可用保障；
2. AI/GPU 集群与资源运维：
● 负责 GPU 服务器/集群日常运维、容量与资源池管理（含 GPU 分配/隔离/回收策略），保障训练/推理任务稳定交付；
● 负责 NVIDIA 驱动、CUDA、Container Toolkit、固件等版本管理与升级回滚方案，处理常见 GPU 故障与性能问题（如 GPU 掉卡、ECC、温度/功耗异常、NVLink/NCCL 通信问题等）；
● 推动 GPU 在 Kubernetes 中的工程化落地（如 GPU device plugin、调度/配额、节点标签与隔离、GPU 监控与告警等）；
3. 可观测性体系建设：基于 OpenTelemetry 生态，构建和优化统一的可观测性平台，实现从应用指标、分布式链路、日志到用户体验的全栈监控与深度洞察；
4. 云原生网关与插件开发：负责 Higress 等云原生网关的生产级部署、配置管理、性能调优与稳定性保障。
5. DevOps与自动化工程：设计、编排并维护高效的CI/CD流水线，推动GitOps实践落地，实现持续交付。通过Ansible, Terraform等工具实现基础设施即代码（IaC），全面实现运维自动化。
6. 平台化/工具化开发支持：参与内部运维平台、控制面工具、可观测性组件、自动化系统的开发与迭代；在开发资源紧张时，能够独立承担中小型后端/平台开发任务（需求拆解、接口设计、编码、测试、上线与运维）；
7. 基础设施全栈管理：管理虚拟化平台（VMware/PVE）、负载均衡（Nginx）、消息队列及MySQL/PostgreSQL/Redis等数据库的日常运维、性能优化与高可用方案。

任职资格

1. 必备经验：5-8年 Linux 系统运维/DevOps 经验，3年以上大规模 Kubernetes 生产环境实战经验，有GPU/AI 基础设施或 GPU 集群运维经验（训练/推理场景均可）优先。
2. 核心技术栈：
○ 熟悉Docker、Kubernetes、Helm、Operator等容器化与编排技术。
○ 具备基于OpenTelemetry的可观测性平台建设与运维经验，熟悉Prometheus、Grafana、Loki、Tempo/Jaeger等相关生态。
○ GPU 相关：熟悉 NVIDIA 驱动 / CUDA / 容器化 GPU（如 NVIDIA Container Toolkit）、GPU 监控与告警体系（如 DCGM exporter/自定义指标）、K8s GPU 调度与资源隔离思路；
○ 开发能力要求：熟练掌握至少一门编程语言（Python/Go/Java），不仅能写脚本，还能完成可维护的工程化代码（模块化、日志/监控、单元测试/基本质量保障），能开发运维工具、平台服务或插件；
○ 拥有Higress/Ingress-Nginx/APISIX等网关的实际运维经验，熟悉配置管理。
3. 综合能力：拥有强大的动手能力、系统性排查与解决复杂问题的能力，对技术有自驱热情，乐于钻研并能快速学习新技术。
4. 素质要求：具备极强的责任心、团队协作精神与良好的沟通能力，能在压力下保持高效。
加分项：
1. 具备Higress或相关网关的Wasm插件实际开发经验。
2. 拥有CKA/CKS、阿里云/ AWS专家级认证。
3. 有服务网格（Istio）、FinOps、多云管理平台建设经验。
4. 有 AI 平台/训练推理工程化经验（新增）：如 K8s 上的训练/推理任务编排、队列/配额、镜像与依赖治理、GPU 资源池化经验等；
5. 在 GitHub 上有开源项目贡献或技术博客（能体现工程化能力与技术深度）。

我要申请收藏职位返回列表