AI基础设施运维开发工程师(J14283)

  • 成员公司:复星医药集团总部
  • 职位分类:计算机 网络 技术类
  • 招聘人数:1
  • 发布时间:2026-03-19
  • 工作地点:上海市

工作职责

1. 云原生平台与混合架构运维:负责基于Kubernetes的生产级容器平台与混合架构(云上/私有化)的规划、部署、治理、容量规划、调优与高可用保障;
2. AI/GPU 集群与资源运维:
● 负责 GPU 服务器/集群日常运维、容量与资源池管理(含 GPU 分配/隔离/回收策略),保障训练/推理任务稳定交付;
● 负责 NVIDIA 驱动、CUDA、Container Toolkit、固件等版本管理与升级回滚方案,处理常见 GPU 故障与性能问题(如 GPU 掉卡、ECC、温度/功耗异常、NVLink/NCCL 通信问题等);
● 推动 GPU 在 Kubernetes 中的工程化落地(如 GPU device plugin、调度/配额、节点标签与隔离、GPU 监控与告警等);
3. 可观测性体系建设:基于 OpenTelemetry 生态,构建和优化统一的可观测性平台,实现从应用指标、分布式链路、日志到用户体验的全栈监控与深度洞察;
4. 云原生网关与插件开发:负责 Higress 等云原生网关的生产级部署、配置管理、性能调优与稳定性保障。
5. DevOps与自动化工程:设计、编排并维护高效的CI/CD流水线,推动GitOps实践落地,实现持续交付。通过Ansible, Terraform等工具实现基础设施即代码(IaC),全面实现运维自动化。
6. 平台化/工具化开发支持:参与内部运维平台、控制面工具、可观测性组件、自动化系统的开发与迭代;在开发资源紧张时,能够独立承担中小型后端/平台开发任务(需求拆解、接口设计、编码、测试、上线与运维);
7. 基础设施全栈管理:管理虚拟化平台(VMware/PVE)、负载均衡(Nginx)、消息队列及MySQL/PostgreSQL/Redis等数据库的日常运维、性能优化与高可用方案。

任职资格

1. 必备经验:5-8年 Linux 系统运维/DevOps 经验,3年以上大规模 Kubernetes 生产环境实战经验,有GPU/AI 基础设施或 GPU 集群运维经验(训练/推理场景均可)优先。
2. 核心技术栈:
○ 熟悉Docker、Kubernetes、Helm、Operator等容器化与编排技术。
○ 具备基于OpenTelemetry的可观测性平台建设与运维经验,熟悉Prometheus、Grafana、Loki、Tempo/Jaeger等相关生态。
○ GPU 相关:熟悉 NVIDIA 驱动 / CUDA / 容器化 GPU(如 NVIDIA Container Toolkit)、GPU 监控与告警体系(如 DCGM exporter/自定义指标)、K8s GPU 调度与资源隔离思路;
○ 开发能力要求:熟练掌握至少一门编程语言(Python/Go/Java),不仅能写脚本,还能完成可维护的工程化代码(模块化、日志/监控、单元测试/基本质量保障),能开发运维工具、平台服务或插件;
○ 拥有Higress/Ingress-Nginx/APISIX等网关的实际运维经验,熟悉配置管理。
3. 综合能力:拥有强大的动手能力、系统性排查与解决复杂问题的能力,对技术有自驱热情,乐于钻研并能快速学习新技术。
4. 素质要求:具备极强的责任心、团队协作精神与良好的沟通能力,能在压力下保持高效。
加分项:
1. 具备Higress或相关网关的Wasm插件实际开发经验。
2. 拥有CKA/CKS、阿里云/ AWS专家级认证。
3. 有服务网格(Istio)、FinOps、多云管理平台建设经验。
4. 有 AI 平台/训练推理工程化经验(新增):如 K8s 上的训练/推理任务编排、队列/配额、镜像与依赖治理、GPU 资源池化经验等;
5. 在 GitHub 上有开源项目贡献或技术博客(能体现工程化能力与技术深度)。