工作职责
1. 负责研发、器械、诊断、营销等全业务板块多源异构数据调研、接入,完成ETL/ELT开发与数据管道搭建,保障各类数据高效、合规、稳定入湖,解决数据接入的兼容性、完整性问题。
2. 牵头跨板块数据标准化治理与深度融合,制定医药场景专属数据标准与口径规范,开展数据清洗、脱敏、标签化等治理工作,消除数据孤岛,构建集团统一数据资产视图。
3. 基于现有湖仓平台开展二次开发与迭代优化,升级平台存储、计算与调度能力,搭建跨板块通用数据服务与平台化输出能力,推动平台向集团级智能化数据基础设施转型。
4. 搭建AI导向的数据底座核心组件,涵盖数据湖、特征库、向量库、知识图谱等,优化医药多模态数据存储与调用逻辑,为AI模型训练、特征工程提供高质量底层数据支撑。
5. 搭建数据全生命周期管理体系,制定数据质量监控、口径管理与开发规范,定期开展数据巡检与问题优化,保障平台扩展性、稳定性与数据可用性,沉淀标准化运维流程。
任职资格
1. 全日制统招本科及以上学历,3年及以上数据库、数据湖/数仓、大数据平台开发经验;医药研发领域相关数据(包括但不限于:专病数据库、临床案例数据库、医学数据库)工作经验优先。
2. 专业技能:精通关系型数据库、Hive/Spark SQL等数仓工具及Hudi/Iceberg等数据湖框架,熟练掌握ETL/ELT开发与Spark/Flink等大数据工具;熟悉数据治理全流程,具备数据质量管控、标准制定实操经验。
3. 软实力与加分项:具备独立解决技术问题能力,抗压性强,擅长跨部门协同与项目推进,责任心强、注重数据安全;有AI数据底座、知识图谱底层建设或多模态医药数据处理经验,持有相关大数据/数据治理认证者优先。