Accéder au GitLab de CorTexT
Modalités de republication
Vous avez la possibilité de republier cet article, librement, sur votre site web, blog, etc.
CorTexT, une plateforme pour la recherche en SHS
Lionel Villard et Philippe Breucker, Laboratoire Interdisciplinaire Sciences, Innovations, Sociétés (LISIS) , UMR CNRS, INRAE, Université Gustave Eiffel
Face à la diversification et à la multiplicité de sources de données toujours plus complexes, la plateforme CorTexT offre aux acteurs des sciences humaines et sociales (SHS) des outils et méthodes d’exploration et d’analyse de textes innovants. Développée au sein du laboratoire LISIS, elle s’appuie sur trois principes forts : expertise, partage et ouverture.
Un lieu d’interface entre les chercheurs et les méthodes d’analyse. C’est ainsi que Lionel Villard, enseignant à ESIEE Paris et chercheur au LISIS, et Philippe Breucker, ingénieur à INRAE, présentent la plateforme CorTexT dont ils sont respectivement directeur et directeur technique. Initiée en 2008 sous forme d’un projet soutenu successivement par l’IFRIS, le LabEx SITES et le projet H2020 RISIS2, et portée par l’Unité de recherche INRAE Sciences en Société (UR SenS) puis, à partir de 2015, par le laboratoire LISIS, CorTexT trouve son origine dans un double constat. D’une part, celui de la massification des données et de l’hétérogénéité de leurs sources de diffusion, du fait du développement des technologies de l’information et de la communication. De l’autre, l’insuffisance, pour répondre à ces nouveaux enjeux, des méthodes traditionnelles des sciences humaines en matière de calcul et de traitement par ordinateur.
Un traitement simplifié d’éléments complexes
CorTexT a ainsi été conçue comme un laboratoire numérique où les chercheurs peuvent trouver des outils et services performants regroupés dans une application phare : CorTexT Manager. Celle-ci peut produire un grand nombre d’analyses différentes ayant trait aux champs méthodologiques du traitement automatique de la langue, de l’analyse des réseaux sociaux, de la statistique et, plus récemment, à la dimension géographique intégrée dans les données prises en compte.
À la complexité des éléments à traiter, CorTexT Manager répond par la simplicité de sa prise en main. Après inscription, il suffit à l’utilisateur de déposer un corpus textuel dont le contenu — discours, noms, citations, lieux, dates, etc. — est analysé par les algorithmes de la plateforme qui y associent de grandes archives textuelles constituées d’articles, citations ou brevets issus de la presse spécialisée comme généraliste, internationale, nationale, voire régionale, ainsi que des médias sociaux. Une analyse distributionnelle, relationnelles et géocodée fait alors ressortir les liens entre les différents concepts ou acteurs pour décrire un espace d’étude particulier. Cela permet, par exemple, de comparer comment, en période de pandémie de Covid-19, l’utilisation de l’hydroxychloroquine a été traitée dans la presse et dans le cadre académique afin d’étudier les rapports entre science et débat public.
Par, pour et avec les chercheurs
Enseignants de l’Université Gustave Eiffel, de Sciences Po ou de l’EM Lyon, doctorants et chercheurs, experts de l’ANR ou de l’ANSES, membres des organismes publics de recherche… Les profils des utilisateurs de CorTexT sont multiples. Que ce soit dans le cadre de recherches liées à un objectif de publication, pour de l’accompagnement à la conduite de cours ou à des fins d’analyse stratégique en appui à une prise de décision politique, CorTexT Manager compte aujourd’hui plus de 9 000 utilisateurs uniques répartis dans 120 pays.
L’évolution de la structure et du code de la plateforme s’inscrit dans une démarche partenariale associant experts de CorTexT et utilisateurs. Ils élaborent de manière collaborative de nouvelles méthodes correspondant à un besoin spécifique immédiat et destinées à enrichir l’offre mise à disposition de l’ensemble de la communauté scientifique. Cette volonté de partage se retrouve dans l’ouverture des codes produits afin que les utilisateurs aient la possibilité d’évaluer, de reproduire voire d’améliorer les modes opératoires proposés.
Glossaire
Le traitement automatique des langues (TAL) : est un domaine multidisciplinaire impliquant la linguistique, l’informatique et l’intelligence artificielle, qui vise à créer des outils de traitement de textes et de la parole (incluant la parole signée) pour diverses applications. Le TAL combine les apports de la linguistique computationnelle — modèles du langage basées sur des règles —, et des méthodes à base statistique, d’apprentissage machine et d’apprentissage profond. Le traitement automatique des langues est l’un des domaines d’application majeur de l’Intelligence Artificielle.
Source : https://www.inshs.cnrs.fr/fr/traitement-automatique-de-la-langue
Fiche d'identité du code
Accès aux codes : | https://gitlab.com/cortext/ |
Citations : | https://docs.cortext.net/how-to-cite-cortext-manager/ |
Contact : | lionel.villard@esiee.fr |
URL : | www.cortext.net |
Références : | www.cortext.net/publications/ |
Mots clés : | SHS, corpus, analyse socio-sémantique |