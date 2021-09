Le secret d'un algorithme efficace, ce sont les données sur lesquelles il base toutes ses connaissances. Facebook entraîne ses algorithmes de reconnaissance d'images à partir des milliards de photos postées sur Instagram, tandis que les IA de diagnostic médical doivent s'appuyer sur les données de milliers de patients pour être pertinentes.

Le problème, c'est que tout le monde ne dispose pas des mêmes ressources que Google ou Facebook. Les petites entreprises se trouvent ainsi considérablement désavantagées pour développer leurs propres systèmes d'intelligence artificielle.

C'est pour répondre à cette inégalité que la start-up Sama s'est lancée en 2008. Son objectif de départ est de favoriser l'accès à la technologie dans les communautés défavorisées. L'entreprise se charge d'étiqueter les images et les vidéos qui alimentent diverses bases de données dans le domaine de la robotique, des véhicules autonomes, du commerce électronique, ou de l'agriculture.

À lire aussi «Data brokers», la main invisible du marché

Le site spécialisé en foodtech The Spoon raconte ainsi comment l'entreprise néerlandaise Orbisk, qui analyse le gaspillage alimentaire grâce à la reconnaissance visuelle, a profité de la technologie de Sama. «Si, par exemple, on voit que beaucoup de cheeseburgers sont jetés à la poubelle parce que personne n'en prend, on peut réduire les commandes de pain et de fromage, illustre la PDG de Sama, Wendy Gonzalez. De cette façon, on réduit le gaspillage de 70%.»

La concurrence est rude

La start-up délivre aussi des conseils sur le type de données à récolter et la façon de les collecter. «Il faut s'assurer que ces données couvrent tous les cas d'utilisation possible, sans quoi on peut aboutir à un biais de sélection», met en garde la cheffe d'entreprise dans une autre interview à Re•Work.

Pour garantir la qualité de ses étiquetages, chaque jeu de données est vérifié et validé par un humain. La start-up se targue ainsi d'un taux de fiabilité de 94% à 98%, contre 88,5% pour ses compétiteurs. Elle travaille désormais avec tous les grands noms de l'industrie, dont Google, Walmart, Ford, la NASA ou Getty Images.

À lire aussi L'armée américaine rachèterait les données privées d'une application de prière musulmane

Sama risque pourtant de se trouver en concurrence avec une flopée de travailleurs low cost, qui travaillent à étiqueter des images et des vidéos pour une bouchée de pain. Sans le savoir, vous avez d'ailleurs vous aussi contribué à entraîner les algorithmes de Google Books et de Google Street View en résolvant les petits puzzles CAPTCHA sur internet.

Si l'entreprise assure ne plus avoir recours à ce moyen aujourd'hui, les besoins en la matière ne cessent d'enfler. Alors que le taux de croissance annuel des données d'entreprise doit atteindre les 42,2% au cours des deux prochaines années, 68% de ces données restent inexploitées faute de savoir les identifier et les interpréter.