Mouheb Mehdoui
Publications
Leveraging Large Language Models to Build a Cutting-Edge French Word Sense Disambiguation Corpus
Exploitation des Grands Modèles de Langage pour Construire un Corpus de Désambiguïsation des Sens de Mots en Français à la Pointe de la Technologie" explore l'utilisation des grands modèles de langage (LLM) pour créer un corpus de désambiguïsation des sens de mots (WSD) en français. Cette recherche vise à améliorer la précision de la désambiguïsation des mots en utilisant des LLMs avancés pour mieux comprendre et catégoriser les multiples significations des mots en fonction de leur contexte. L'approche promet d'améliorer les tâches de traitement du langage naturel en français, telles que la traduction automatique, la recherche d'information et l'analyse sémantique de textes
Can AI Bridge the Health Literacy Gap? An Analysis of Requirements and Opportunities
L’un des facteurs les plus déterminants pour la santé des patients est la littératie en santé (LS), définie comme la capacité à obtenir, comprendre et utiliser l’information médicale. Malgré l’abondance des ressources numériques en santé, des disparités persistent en raison de la complexité du langage médical, du manque de personnalisation et de l’insuffisance du support multilingue. En mobilisant des sources de données variées — dossiers médicaux électroniques (EHR), communautés de santé en ligne (comme Reddit) et ontologies médicales (UMLS, SNOMED-CT) — cette étude analyse comment l’intelligence artificielle (IA) peut contribuer à réduire les écarts de LS.
Dans ce papier publié dans la conférence SERA 2025 , Nous examinons des approches de pointe telles que les grands modèles de langage (LLM) pour la simplification textuelle (ex. adaptation du niveau de lecture avec GPT-4) et le traitement automatique du langage naturel (TAL) pour la classification de la LS (ex. profilage linguistique dans l’étude ECLIPPSE). Plusieurs enjeux sont identifiés : biais culturels dans l’évaluation de la LS, risques de sur-simplification de l’information médicale, et défis liés à l’intégration de données hétérogènes.
Pour personnaliser la diffusion de l’information en santé, le cadre méthodologique proposé intègre des techniques pilotées par IA, notamment l’identification automatique du niveau de LS, le mappage conceptuel et l’enrichissement sémantique. En combinant données structurées (EHR) et non structurées (réseaux sociaux), cette approche vise à améliorer l’accessibilité tout en préservant la précision clinique. Les perspectives futures incluent l’adaptation multilingue et la validation en conditions réelles afin de garantir une communication en santé plus équitable.
Index — littératie en santé, information médicale multilingue, diversité linguistique, connaissances médicales multilingues, littératie communicationnelle en santé, lisibilité, contenu non structuré, médias sociaux, analyse de lisibilité au niveau de la phrase, méta-clustering, cohérence, organisation logique, communication en santé, dialogue numérique en santé, Reddit, e-accessibilité, interventions personnalisées de lisibilité, profils textuels.
Bridging Language Gaps in Healthcare: Multilingual NLP for Enhanced Health Literacy and Data Analysis
Les plateformes de médias sociaux et les communautés en ligne sont devenues des sources essentielles pour partager des informations médicales et exprimer des expériences personnelles en matière de santé. Des espaces comme r/health sur Reddit, les forums spécialisés en santé ou encore Quora constituent des lieux privilégiés où chercheurs et usagers intéressés par les questions de santé échangent et collectent des informations pour divers usages.
Selon les statistiques officielles de Quora et Reddit, ce dernier rassemble plus de 3 millions de communautés thématiques et reçoit environ 1,9 milliard de visites mensuelles, ce qui en fait un espace central pour des discussions variées, y compris celles liées à la santé. Quora, avec près de 300 millions d’utilisateurs actifs mensuels, représente également une plateforme incontournable offrant une grande richesse de questions-réponses fournissant des perspectives précieuses sur les enjeux sanitaires et les expériences individuelles.
Ces dernières années, l’évaluation de la littératie en santé est devenue un domaine de recherche majeur. Les travaux s’orientent de plus en plus vers l’analyse de la capacité des utilisateurs à comprendre, gérer et communiquer des informations liées à la santé.
Cet article vise à présenter les définitions les plus courantes de la littératie en santé, les opportunités et les risques qu’elle soulève, ainsi que les principaux jeux de données disponibles dans ce domaine, tout en mettant en lumière les défis méthodologiques et conceptuels propres à ce champ de recherche.
Index — littératie en santé, information médicale multilingue, diversité linguistique, connaissances médicales multilingues.
BioAbbreviate: A Biomedical Dataset for Abbreviation Expansion and Disambiguation
Accepté à ICAART 2026, Marbella, Espagne.
Cet article présente BioAbbreviate, un jeu de données à grande échelle conçu pour l’expansion et la désambiguïsation des abréviations dans les textes biomédicaux. Les abréviations sont une source majeure de confusion et d’incompréhension pour les non-experts, ce qui limite l’accès à l’information médicale et la littératie en santé. BioAbbreviate a été construit à partir de dépôts ouverts tels que PubMed, PLOS et PMC Europe, en utilisant des techniques automatisées d’extraction et de validation pour générer des paires abréviation-expansion fiables. Le jeu de données permet de développer et d’évaluer des systèmes NLP robustes, incluant la détection contextuelle des abréviations et leur expansion, avec des modèles spécialisés tels que BioBERT. Cette ressource contribue à simplifier la lecture des textes biomédicaux, à améliorer la compréhension pour les utilisateurs non experts et à soutenir des applications avancées en traitement automatique du langage dans le domaine de la santé.
Evaluation of Communicative Health Literacy and Textual Coherence from Unlabeled Texts
Accepté à ICAART 2026, Marbella, Espagne.
Cet article propose une approche novatrice pour évaluer la littératie communicative en santé à partir de contenus non structurés générés par les utilisateurs, comme les publications sur les réseaux sociaux. Les mesures classiques de lisibilité sont souvent insuffisantes pour capturer la complexité dynamique du langage utilisé dans ces textes. La méthodologie combine une analyse de lisibilité au niveau de la phrase avec le meta-clustering, permettant de mesurer la cohérence structurelle des textes et d’identifier la progression de la lisibilité tout au long du discours. Deux métriques clés sont introduites : le Readability Variance Score (RVS) et le Readability Transition Score (RTS), qui facilitent la classification des textes en six profils de littératie, allant du “Fluent Communicator” au “Struggling Reader”. L’étude, menée sur un corpus d’un million de publications en anglais, révèle que bien que la majorité des utilisateurs produisent un contenu globalement lisible, la cohérence structurelle reste souvent faible. Ces résultats soulignent la nécessité de solutions personnalisées et d’interventions ciblées pour améliorer l’accès à l’information et la compréhension en santé numérique.