TikTok est son dernier client en date. | Jon Tyson via Unsplash
TikTok est son dernier client en date. | Jon Tyson via Unsplash

Une entreprise a bâti une base de données de la haine en ligne

La data produite est utilisée pour améliorer la modération sur internet.

Harcèlement sexiste, trolls racistes, fake news. La haine en ligne est l'un des venins qui empoisonnent la vie des internautes et qui contaminent parfois la réalité. Pour ne rien arranger, la modération est l'un des casse-tête les plus difficiles à résoudre pour les plateformes, dépassées par la quantité de contenus à surveiller chaque jour.

Réguler ce genre de propos suppose de les comprendre en amont. Une faculté qui nécessite de suivre la rapide évolution de l'argot, qui invente chaque jour de nouvelles insultes.

À ce jargon s'ajoutent les dog-whistles, ces termes dont la nature dénigrante ne va de soi que pour les personnes qui en font usage mais qui ne sautent pas aux yeux des internautes non initié·es.

Identifier des messages de haine sur les réseaux sociaux relève d'une importance cruciale. Ils constituent souvent des indices précurseurs de conflits dans le monde réel, une mécanique que Facebook, entre autres, s'emploie à mieux comprendre.

Comme le rapporte TechCrunch, une entreprise canadienne, Hatebase, a décidé de construire une base de données destinée à identifier les formes diverses sous lesquelles peuvent se présenter ces comportements en ligne et de suivre leur évolution.

Base de volontaires

Elle utilise pour cela une méthode qui allie les intelligences artificielle et humaine. Un algorithme baptisé Hatebrain parcourt le web –en se concentrant sur Twitter. Pour chaque contenu analysé, le logiciel répond par «vrai», «faux» ou «inconnu» à l'affirmation: «Ceci est un discours haineux.»

«Les résultats sont très rarement corrects à 100%», explique Timothy Quinn, le PDG de Hatebase. Un ordinateur aura par exemple des difficultés à différencier une personne raciste d'un individu noir qui se réapproprie le «N word» pour en inverser la connotation.

C'est pourquoi l'entreprise repose en partie sur des personnes bien humaines, qui remettent ces insultes dans leur contexte et suivent leur évolution, afin que la base de données reste pertinente. Ce travail est effectué par des volontaires du monde entier, qui permettent à Hatebase d'être disponible en quatre-vingt-qinze langues.

Cette data est ensuite offerte aux scientifiques et ONG qui souhaitent l'analyser ou l'utiliser dans un but humanitaire. Les entreprises privées doivent pour leur part payer afin d'y accéder.

Cette clientèle préfère rester anonyme. Hatebase affirme compter dans son portefeuille «quatre des dix plus gros réseaux sociaux du monde», ainsi que l'ONU et la police de Los Angeles. Timothy Quinn précise que Tik Tok a récemment signé un contrat avec son entreprise.

En ce moment

La Sibérie, terre promise des cryptomonnaies?

Tech

La Sibérie, terre promise des cryptomonnaies?

La région pourrait devenir un enjeu stratégique pour l'indépendance numérique russe.

Cet été, adonnez-vous au «glamping»

Biz

Cet été, adonnez-vous au «glamping»

La mode est au camping glamour, dont le marché explose à la suite de la crise sanitaire.

Un précurseur du lithium-ion promet des batteries 90% moins chères

Tech

Un précurseur du lithium-ion promet des batteries 90% moins chères

Les piles «tout polymère» de Hideaki Horie seraient aussi simple à produire que de l'acier.