Data Ingénieur – CDI – H/F
- Profession non médicale
Descriptif
Unicancer recherche un/une :
Data ingénieur – CDI – H/F
L’ENTREPRISE :
UNICANCER, acteur majeur de la cancérologie en France, regroupe la communauté des Centres de Lutte Contre le Cancer (CLCC), valorise leur modèle d’organisation en cancérologie et mutualise leurs ressources et leurs compétences afin de donner une dynamique nouvelle à la prise en charge des patients.
La direction des Datas d’Unicancer, a lancé en 2014 le programme ESMÉ (« Épidémio-Stratégie Médico-Economique »), initiative académique indépendante et unique ayant permis de centraliser les données de vie réelle de plus de 75 000 patients traités pour un cancer du sein, de l’ovaire et du poumon. Cette initiative a d’ores et déjà apporté à la communauté médicale et scientifique des éclairages majeurs sur les caractéristiques de ces maladies ainsi que sur l’efficacité des stratégies thérapeutiques employées. Fort de ses savoir-faire, du soutien et de la reconnaissance de ses partenaires publics et privés, Unicancer a lancé en 2021 deux nouvelles plateformes nationales ambitieuses, l’entrepôt OncoDataHub (ODH) à visée d’observatoire du médicament en oncologie, et l’infrastructure WeShare, infrastructure dédiée à la recherche en sciences humaines et sociales, qui permettront de faire avancer les connaissances, d’apporter des éclairages nouveaux aux autorités de santé et de faire des patients des acteurs clés dans l’évaluation des stratégies thérapeutiques et dans la gestion de l’après-cancer.
DESCRIPTION DU POSTE
Finalités
Au sein de la Direction Datas et Partenariats (DDP) d’Unicancer et du Pôle Gestion de Données, en tant que Data Engineer, vous jouerez un rôle clé dans la construction de pipelines de données évolutifs pour traiter des données structurées et non structurées. Vous évoluerez dans un cadre dynamique en étroite relation avec les équipes de Data Management, BI/Data-visualisation, Développement IT, Infrastructures, Sécurité et Opérationnelle.
Vos principaux objectifs sont de développer, maintenir et améliorer les solutions et infrastructures datas nécessaires à la collecte, la centralisation, le stockage et l’accès aux données de santé collectées auprès des établissements de soins contributeurs et mises à disposition des équipes scientifiques.
Vous travaillerez majoritairement sur des données de santé de vie réelle. Ces données sont générées à l’occasion des soins réalisés en routine pour un patient au sein des établissements de santé. Ces données peuvent provenir de multiples sources : dossier patient informatisé (DPI) des établissements contributeurs aux projets de la DDP, informations utilisées pour le remboursement de soins, collecte spécifique permettant de créer des registres ou des cohortes ou des Entrepôts de Données de Santé (EDS), réseaux sociaux, objets connectés, etc.
Missions
- Concevoir efficacement et maintenir des flux d’intégration (collecte, Ingestion, Stockage) permettant de centraliser les données issues de plusieurs établissements de santé (et de plusieurs sources de données pour chaque établissement) dans un entrepôt de données de santé tout en garantissant une qualité de données.
- Mettre en place des pipelines de données sécurisées qui seront traitées et nettoyées par les data managers pour délivrer des bases « gelées » mises à disposition des experts scientifiques, biostatisticiens et data scientistes.
- Concevoir et mettre en œuvre un process et un data pipeline permettant de valider la qualité des données intégrées automatiquement dans les Bases et entrepôts de données, par confrontation avec les données intégrées à partir de collecte manuelle.
- Améliorer et automatiser les flux d’intégration existants
- Participer à la conception de plateformes pour le traitement efficace de volumes importants de données tout en garantissant leur sécurité
- Accompagner le développement des outils permettant l’extraction des données sous forme structurée
- Assister des prestataires externes spécialistes de la structuration de données non structurées issues de compte-rendu médicaux ou fiche RCP (Réunion de Concertation Pluridisciplinaire) ou documents du DPI, avec des solutions de type Natural Language Processing (NLP) et Named Entity Recognition (NER).
- Etre force de proposition sur l’évolution de la data stack du Pôle Gestion de Données de la DDP permettant d’apporter des solutions innovantes pour répondre aux challenges des nouveaux projets de la DDP : EDS fédérés et projet d’appariement des EDS actuels avec un système fils du SNDS (Système National des Données de Santé)
- Assurer la montée en compétence de l’équipe Data Engineers
- Rédiger et mettre à disposition la documentation (guide de procédure, documents utilisateurs, référentiels, …) dans le respect du système de Management de la Qualité en place (SMQ – Certification ISO 9001)
- Proposer des indicateurs pertinents du suivi de l’activité des Data Ingénieurs et construire un dashboard permettant de visualiser ces indicateurs et leurs évolutions
- Communication/collaboration avec les pilotes des différents projets : reporting auprès du manager hiérarchique et des managers fonctionnels
- Assister et participer aux réunions avec les équipes projets et avec le Pôle Gestion de Données
Profil
Formation / expérience :
- Diplôme d’ingénieur, d’informatique ou équivalent (Bac+4/5)
- Master Spécialisé dans la Data Science ou IA ou ingénierie de données
- Niveau d’expérience minimum : 4 à 5 ans dont 2 en tant que Data Ingénieur senior (dans le secteur de la santé)
Connaissances :
- Computing : SQL, Javascript, Python, Pandas, Numpy, Spark, PySpark, Elasticsearch, Spacy, Kibana, Java,
- Camel, Nginx, Liferay, Angular, XML, HTML, JSON, PDF/A (Texte), CSS, Windows, Unix/Linux (Debian), Solaris,
- NLP – NER, PowerBI, KNIME, Talend, SAS (plus appréciable)
- Base de Données : SQL et NoSQL (PostgreSQL, MariaDB)
- Cloud : connaissances est un plus
- Intégration continue : Git, CI/CD
- Transverses : Méthodologie Agile
- Interopérabilité : connaissance format OMOP, FHIR HL7, OSIRIS serait un plus
- Fonctionnelles : secteur de la santé, Entrepôts de Données de Santé, curiosité très prononcée pour la
- cancérologie
Et humainement ?
- Passion pour la Data
- Aisance dans la communication
- Créativité et curiosité
- Dynamisme et réactivité
- Autonomie / Travail et esprit d’équipe (incluant le partage des connaissances) ;
- Force de proposition / Capacité à rechercher et trouver des solutions
- Bonne compréhension du cycle de vie de la donnée, de la data lineage, de la data gouvernance et de la data privacy
- Capacité à travailler en agilité dans un environnement collaboratif.