Semiocast — Croissance exceptionnelle de l'arabe sur Twitter — L'anglais se stabilise en dessous de 40%
Paris — 24 novembre 2011 — En octobre 2011, plus de 2 millions de messages publics sur Twitter s’échangeaient chaque jour en arabe, une progression spectaculaire par rapport aux 30 000 tweets quotidiens en arabe en juillet 2010, d’après une nouvelle étude ayant porté sur 5,6 milliards de tweets.
L’analyse, conduite par Semiocast, est une mise à jour de l’étude de la part des langues sur Twitter publiée en février 2010. En octobre 2011, les cinq langues les plus utilisées sur Twitter étaient l’anglais, le japonais, le portugais, l’espagnol et le malais. L’étude a été réalisée sur un échantillon de 5,6 milliards de tweets collectés du 1er juillet 2010 au 31 octobre 2011 pour déterminer l’évolution des langues les plus utilisées sur Twitter.
Les messages ont été traités par les outils sémantiques de Semiocast qui permettent d’identifier la langue des messages courts parmi 61 langues dans les principaux systèmes d’écriture (incluant l’arabe, le grec, l’hébreu, le chinois, le coréen, le tamoul, le cyrillique et le devanagari).
La part de l’anglais se stabilise, celle du japonais décroît
L’anglais demeure la langue la plus utilisée sur Twitter, avec 39% des messages en octobre 2011, ce qui correspond à plus de 70 millions de tweets publics par jour. Entre octobre 2010 et octobre 2011, le volume des messages en anglais a cru de +182% (x2,82), légèrement plus rapidement que Twitter au niveau global (+150% ou x2,5). La part des tweets en anglais s’est stabilisée sur les 12 derniers mois entre 35% et 40%, une baisse par rapport aux deux tiers en 2009 et à 50% en février 2010.
Bien que le japonais soit toujours la deuxième langue la plus utilisée, la part des tweets en japonais a lentement décru de plus de 19% mi 2010 à 14,2% en octobre 2011 (soit environ 26 millions de tweets par jour). En un an, le volume de tweets en japonais n’a augmenté, en valeur absolue, que de +85%. Parmi les principales langues, seul le coréen, avec +72%, a moins progressé que le japonais.
Le portugais toujours troisième langue, l’espagnol prend la quatrième place
La troisième langue la plus utilisée sur Twitter est le portugais, avec 12,4% de tous les tweets. Bien que ce soit une croissance significative depuis février 2010, le portugais croît moins rapidement que Twitter dans l’ensemble : le volume a seulement doublé sur les douze derniers mois (+113%). Pareillement, le volume de tweets en malais (en incluant les tweets en indonésien) a seulement doublé (+107%) : ils représentent 6,4% de tous les messages, provenant majoritairement d’Indonésie.
Avec une progression de +250%, l’espagnol a dépassé le malais et est la quatrième langue la plus utilisée sur Twitter depuis août 2011. 8,3% de tous les messages publics sur Twitter sont en espagnol, soit environ 15 millions de tweets par jour.
Le néerlandais a également connu une forte croissance, +230% en un an, et a dépassé le coréen. Ces langues sont désormais les 6ème et 7ème langues les plus utilisées sur Twitter : 2,7% et 1,6% de tous les tweets sont respectivement en néerlandais et en coréen.
L’arabe connaît la plus forte progression
La progression de l’espagnol et du néerlandais fait cependant pâle figure face à celle de l’arabe. Le volume des tweets en arabe a été multiplié par 22 (+2 146%) depuis octobre 2010. L’arabe est désormais la 8ème langue la plus utilisée sur Twitter et les messages en arabe représentent 1,2% de tous les tweets publics (soit 2,2 millions par jour). Du fait de l’actualité récente, Twitter a cru de manière exceptionnelle au Moyen-Orient. Bien qu’ils ne soient pas dans le top 10 des langues les plus utilisées, le perse (+350% en un an, mais seulement 50 000 messages par jour) et le turc (+290%, 0,8% de tous les tweets) ont aussi cru très rapidement sur la période.
Le thaï, désormais la 9ème langue la plus utilisée dans les tweets, a aussi augmenté de manière significative (+470% en un an). Il est important de noter que le site internet de Twitter, disponible dans 17 langues, n’est pas encore traduit en thaï ni en arabe.
Twitter toujours interdit en Chine
Moins de 0,5% de tous les tweets sont en chinois (520 000 par jour). En effet, Twitter est toujours interdit en République Populaire de Chine et l’adoption par le réseau social d’un nouveau mécanisme d’authentification a rendu plus difficile l’usage de proxies permettant aux chinois de contourner le filtrage gouvernemental. De fait, les chinois se sont tournés vers les concurrents chinois de Twitter, et surtout Weibo. Les études récentes menées par Semiocast pour ses clients montrent que Weibo représente aujourd’hui jusqu’à 20% de tous les micro-messages sur des requêtes portant sur des marques internationales dans les secteurs du luxe, de la distribution, du tourisme et du transport.
L’analyse multilingue : un enjeu pour le web social
L’identification de la langue, associée à la géo-localisation des profils des utilisateurs de Twitter, est un des principaux outils permettant de mesurer la présence des marques internationales sur le web social. Alors que la moitié des conversations sur Twitter étaient en anglais début 2010, les marques doivent désormais se doter d’outils adaptés à leur contexte multilingue. Pour répondre à cette demande, Semiocast a étendu ses algorithmes d’identification de la langue de tweets, commentaires et articles de blogs à 61 langues, et a développé, entre autres, des outils d’analyse de la tonalité qui peuvent être appliqués à toute langue.
À propos de Semiocast
Semiocast permet à ses clients de mesurer les buzz, notamment dans le cadre de lancements de produits ou de campagnes de communication, de comprendre ce que les consommateurs disent publiquement des produits, des marques et des entreprises, et de tirer des enseignements quantitatifs et qualitatifs de ces conversations.