Google a annoncé le 24 octobre une modification de son algorithme de recherche de base, qui pourrait concerner jusqu'à 10% des recherches.
S'appuyant sur des techniques de traitement automatique du langage naturel (TLN), le moteur de recherche devrait être capable d'analyser une phrase et la façon dont les mots sont reliés entre eux. L'objectif: proposer des résultats qui correspondent mieux à la question posée, et pas seulement aux mots-clés contenus dans la phrase de recherche.
Auparavant, lorsqu'on écrivait «Peut-on recevoir médicaments pour quelqu'un pharmacie», le moteur de recherche se concentrait sur les deux mots-clés principaux, «médicaments» et «pharmacie», et fournissait des informations sur les ordonnances pour les médicaments et comment les obtenir dans une pharmacie.
Il ne comprenait pas que la question sous-jacente était: «Peut-on prendre les médicaments pour quelqu'un d'autre à la pharmacie?» Ce problème semble maintenant en voie de résolution.
Phrases à trous
La nouvelle version de l'algorithme de Google a hérité du nom BERT. Derrière cet acronyme qui vous rappelle peut-être votre tante se cachent les bidirectional encoder representations from transformers, les représentations d'encodeurs bidirectionnels à partir de transformateurs.
De manière moins barbare, cela signifie que les mots sont maintenant considérés comme un ensemble et non plus comme une phrase composée de mots importants et d'autres accessoires.
BERT a pratiqué l'auto-apprentissage pour comprendre des phrases où certains mots manquaient, grâce à un corpus de phrases anglaises constitué par ses concepteurs, dans lesquelles environ 15% des mots avaient été enlevés au hasard. Charge à BERT de retrouver le contexte des phrases soumises pour en comprendre le sens et deviner les mots manquants.
Cette méthode fait suite au constat que l'on ne sait pas toujours exactement ce que l'on cherche et qu'il est parfois difficile de formuler clairement nos attentes.
L'algorithme a récemment été déployé et concernera environ 10% des requêtes de recherche effectuées en anglais aux États-Unis. Il devrait plus tard être étendu à d'autres langues et pays –bien que le système BERT puisse déjà leur être appliqué, à en croire Pandu Nayak, vice-président du search chez Google.
A priori, ces changements ne devraient pas trop affecter le trafic sur le web, même si chaque modification de l'algorithme de Google peut avoir des conséquences très importantes pour les sites internet.
Pandu Nayak estime toutefois que cette avancée «représente le plus grand bond en avant des cinq dernières années et l'un des plus grands bonds en avant de l'histoire du search».