Semiocast — Méthode du baromètre politique
Le classement du baromètre politique est basé sur le nombre de messages Twitter mentionnant chaque personnalité politique (parmi une liste de plus de 450 personnalités). Pour chacune des 20 premières personnalités nous déterminons combien de tweets sont des messages positifs, des échanges d’informations, des critiques ou bien des rejets.
Les tweets à propos d’une personnalité politique ne font pas apparaître forcément son nom en entier ou son compte Twitter. Souvent, les utilisateurs de Twitter mentionnent une personnalité par ses initiales, par un de ses surnoms, ou bien par le biais d’un hashtag particulier. Les jeux de mots sont fréquents. En fait, les tweets avec prénom et nom des personnalités sont très rares.
Les personnalités politiques françaises les plus connues, notamment Nicolas Sarkozy, sont mentionnées dans des tweets en différentes langues, provenant essentiellement des médias étrangers. Mais la plupart des conversations sur les politiques sont en français. C’est pourquoi, le baromètre politique ne prend en compte que les messages en français.
La présence d’un mot clé comme le nom de famille d’une personnalité politique ne signifie pas nécessairement que le tweet parle de cette personnalité. En effet, les utilisateurs de Twitter font référence aux personnalités politiques par des mots polysémiques (c’est-à-dire qui ont plusieurs sens), que ce soit leur nom, leur prénom ou leurs initiales. Le filtrage polysémique (l’élimination des homographes) et la levée de l’ambiguité sont nécessaires pour compter avec précision le nombre de tweets qui mentionnent effectivement chaque personnalité politique.
Description du processus
Le schéma ci-dessous résume le processus de production des chiffres du baromètre politique.