Data
Expertise

Structurer la donnée clinique : l’approche méthodologique LightLM de Tune Insight au service de l’urgence pédiatrique

01/06/2026 5 min de lecture
Rédigé par Tune Insight
Expert in data collaboration

Le projet européen TI4PEC s’inscrit dans une dynamique plus large portée par l’association Pediatric Emergency Research Networks (PERN), qui réunit des dizaines de centres hospitaliers impliqués dans la recherche en pédiatrie d’urgence dans le monde entier.

L’ambition est claire : permettre à des établissements situés dans différents pays (notamment les hôpitaux de Padova, Bologna, Trieste en Italie, et Lausanne en Suisse) de collaborer à partir de leurs données cliniques, tout en respectant les contraintes réglementaires, éthiques et techniques propres au secteur hospitalier, et à la pédiatrie en particulier.

Mais avant toute analyse fédérée et inter-hospitalière, une étape s’est imposée comme prioritaire : rendre les données localement exploitables.

C’est dans ce cadre que Tune Insight est intervenu, en collaboration avec l’Université de Padoue, pour travailler sur une phase clé : la structuration de données cliniques non structurées. Thierry Bossy, Machine Learning Engineer chez Tune Insight explique le modèle développé pour répondre à ce besoin initial.

Le point de départ : des diagnostics en texte libre

Dans les services d’urgences pédiatriques, les médecins documentent leurs consultations sous forme narrative. Symptômes, observations cliniques, hypothèses diagnostiques : tout est consigné en texte libre.

Ces informations sont médicalement riches, mais difficilement exploitables dans des systèmes d’analyse. « Pour faire des analyses avancées et  distribuées, on a besoin de structurer ces données dans un vocabulaire commun. » explique Thierry Bossy.

Le problème est classique en santé : l’information existe, mais elle n’est pas codifiée selon un standard permettant des traitements statistiques ou l’entraînement de modèles.

Dans le projet TI4C, les diagnostics sont rédigés en italien, ce qui ajoute une contrainte initiale supplémentaire.

La méthodologie Light Language Models : des modèles spécialisés et modulaires

L’équipe de Tune Insight a développé* une chaîne de traitement locale basée sur des Light Language Models (LightLM) des modèles plus légers que les grands modèles de langage (LLM) hébergés à l’extérieur, spécialisés sur des tâches précises, intégrés directement dans l’infrastructure logicielle. L’approche est méthodique et séquencée.

Les diagnostics étant rédigés en italien, la première étape consiste à les traduire vers l’anglais à l’aide d’un modèle léger open source exécuté localement. Cette traduction n’est pas une fin en soi, elle sert à rendre les textes compatibles avec les modèles de classification médicale disponibles. En effet, une fois traduits, les diagnostics sont traités par un modèle spécialisé capable d’associer le texte à un code diagnostique standardisé : le ICD-10 (International Classification of Diseases, 10th Revision).
Finalement c’est comme des Legos. On combine des briques selon le besoin. Ici le premier Lego c’est la traduction, ensuite, la classification » explique Thierry Bossy.

Le résultat final est un code médical normalisé, exploitable pour :

  • des analyses statistiques,
  • des comparaisons entre services,
  • l’entrainement de modèles de machine learning

Une méthodologie intégrée à Tune Insight, offrant traçabilité et sécurité pour les établissements de santé 

Les Light Language Models ne sont pas des outils externes, ils sont intégrés dans la plateforme de Tune Insight, permettant ainsi de ne pas déplacer les données de santé.

Concrètement :

  • les traitements sont exécutés localement,
  • les établissements restent propriétaires de leurs données,
  • les briques peuvent être combinées,
  • aucune expertise en data science n’est nécessaire pour les utiliser.

L’hôpital applique les transformations localement sur ses propres données. Tune Insight fournit l’infrastructure et les modules, mais n’accède pas aux données cliniques.” précise Thierry Bossy .

Par ailleurs, le choix d’une architecture modulaire ne répond pas uniquement à un enjeu technique. Il répond à une exigence réglementaire et opérationnelle : rendre les traitements auditables. « Ce n’est pas forcément la même personne qui établit la chaîne de préparation des données et celle qui l’exécute, pourtant elle doit savoir exactement ce qui est appliqué sur ses données  », rappelle Thierry Bossy.

En pratique, cela signifie que :

  • Chaque transformation est traçable : on sait quel module a été exécuté, dans quel ordre, avec quels paramètres.
  • Chaque brique est remplaçable : un module peut être amélioré ou mis à jour sans remettre en cause l’ensemble de la chaîne.
  • La méthode est reproductible : le même pipeline peut être déployé dans un autre établissement ou adapté à une autre langue par exemple.

* Conformément aux exigences de sécurité et de conformité, la phase de développement et de validation du pipeline n’a pas été réalisée directement sur des données cliniques sensibles. Cette phase expérimentale a permis d’ajuster finement les modules pour répondre aux besoins spécifiques exprimés par l’Université de Padoue, notamment sur la typologie des diagnostics pédiatriques traités.


+3k abonnés

Restez connectés pour suivre
nos dernières actualités