Mouheb Mehdoui
Publications
Leveraging Large Language Models to Build a Cutting-Edge French Word Sense Disambiguation Corpus
Exploitation des Grands Modèles de Langage pour Construire un Corpus de Désambiguïsation des Sens de Mots en Français à la Pointe de la Technologie" explore l'utilisation des grands modèles de langage (LLM) pour créer un corpus de désambiguïsation des sens de mots (WSD) en français. Cette recherche vise à améliorer la précision de la désambiguïsation des mots en utilisant des LLMs avancés pour mieux comprendre et catégoriser les multiples significations des mots en fonction de leur contexte. L'approche promet d'améliorer les tâches de traitement du langage naturel en français, telles que la traduction automatique, la recherche d'information et l'analyse sémantique de textes
Can AI Bridge the Health Literacy Gap? An Analysis of Requirements and Opportunities
L’un des facteurs les plus déterminants pour la santé des patients est la littératie en santé (LS), définie comme la capacité à obtenir, comprendre et utiliser l’information médicale. Malgré l’abondance des ressources numériques en santé, des disparités persistent en raison de la complexité du langage médical, du manque de personnalisation et de l’insuffisance du support multilingue. En mobilisant des sources de données variées — dossiers médicaux électroniques (EHR), communautés de santé en ligne (comme Reddit) et ontologies médicales (UMLS, SNOMED-CT) — cette étude analyse comment l’intelligence artificielle (IA) peut contribuer à réduire les écarts de LS.
Dans ce papier publié dans la conférence SERA 2025 , Nous examinons des approches de pointe telles que les grands modèles de langage (LLM) pour la simplification textuelle (ex. adaptation du niveau de lecture avec GPT-4) et le traitement automatique du langage naturel (TAL) pour la classification de la LS (ex. profilage linguistique dans l’étude ECLIPPSE). Plusieurs enjeux sont identifiés : biais culturels dans l’évaluation de la LS, risques de sur-simplification de l’information médicale, et défis liés à l’intégration de données hétérogènes.
Pour personnaliser la diffusion de l’information en santé, le cadre méthodologique proposé intègre des techniques pilotées par IA, notamment l’identification automatique du niveau de LS, le mappage conceptuel et l’enrichissement sémantique. En combinant données structurées (EHR) et non structurées (réseaux sociaux), cette approche vise à améliorer l’accessibilité tout en préservant la précision clinique. Les perspectives futures incluent l’adaptation multilingue et la validation en conditions réelles afin de garantir une communication en santé plus équitable.
Index — littératie en santé, information médicale multilingue, diversité linguistique, connaissances médicales multilingues, littératie communicationnelle en santé, lisibilité, contenu non structuré, médias sociaux, analyse de lisibilité au niveau de la phrase, méta-clustering, cohérence, organisation logique, communication en santé, dialogue numérique en santé, Reddit, e-accessibilité, interventions personnalisées de lisibilité, profils textuels.
Bridging Language Gaps in Healthcare: Multilingual NLP for Enhanced Health Literacy and Data Analysis
Les plateformes de médias sociaux et les communautés en ligne sont devenues des sources essentielles pour partager des informations médicales et exprimer des expériences personnelles en matière de santé. Des espaces comme r/health sur Reddit, les forums spécialisés en santé ou encore Quora constituent des lieux privilégiés où chercheurs et usagers intéressés par les questions de santé échangent et collectent des informations pour divers usages.
Selon les statistiques officielles de Quora et Reddit, ce dernier rassemble plus de 3 millions de communautés thématiques et reçoit environ 1,9 milliard de visites mensuelles, ce qui en fait un espace central pour des discussions variées, y compris celles liées à la santé. Quora, avec près de 300 millions d’utilisateurs actifs mensuels, représente également une plateforme incontournable offrant une grande richesse de questions-réponses fournissant des perspectives précieuses sur les enjeux sanitaires et les expériences individuelles.
Ces dernières années, l’évaluation de la littératie en santé est devenue un domaine de recherche majeur. Les travaux s’orientent de plus en plus vers l’analyse de la capacité des utilisateurs à comprendre, gérer et communiquer des informations liées à la santé.
Cet article vise à présenter les définitions les plus courantes de la littératie en santé, les opportunités et les risques qu’elle soulève, ainsi que les principaux jeux de données disponibles dans ce domaine, tout en mettant en lumière les défis méthodologiques et conceptuels propres à ce champ de recherche.
Index — littératie en santé, information médicale multilingue, diversité linguistique, connaissances médicales multilingues.