Comment nos systèmes de défense contre les contenus abusifs fonctionnent pour assurer la sécurité des membres

Sanket Modi

Manager, Data Science at Linkedin

Afin de proposer à nos membres une expérience sécurisée et fiable, notre équipe Confidentialité met tout en œuvre pour exclure de LinkedIn les contenus qui violent nos Politiques de la communauté professionnelle. Dans cet article de blog, nous vous expliquons comment nous nous efforçons de veiller à ce que les conversations restent respectueuses et professionnelles sur notre plateforme.

Un volume important de contenu est créé et partagé sur LinkedIn en permanence, qu’il s’agisse d’articles, de messages, d’images ou de vidéos. Nous avons adopté une approche multidimensionnelle avec trois niveaux de protection au sein de notre écosystème afin de filtrer les contenus qui sont contraires à nos politiques et de limiter leur impact sur les membres, que ce soit dans le flux ou dans les messages privés.

Système de protection du contenu LinkedIn contre les violations

Premier niveau de protection : prévention automatique

Le premier niveau de protection de notre système est la prévention. Lorsqu’un membre tente de créer du contenu sur LinkedIn, plusieurs demandes sont transmises à nos services de machine learning. Ces services filtrent automatiquement le contenu indésirable dans les 300 millisecondes suivant sa création, ce qui signifie que le contenu n’est visible que par l’auteur et n’est montré à personne d’autre sur la plateforme.

L’intelligence artificielle est un précieux outil qui nous permet de filtrer de manière proactive le contenu indésirable et d’optimiser l’expérience utilisateur. Nous utilisons des contenus (comme certains mots clés ou certaines images) qui ont été précédemment identifiés comme contraires à nos politiques de contenu pour aider nos modèles d’IA à mieux identifier et limiter la publication de contenus similaires à l’avenir.

Autre tâche importante et prioritaire, notre équipe Data Science évalue le processus ci-dessus pour contrôler la façon dont les contenus indésirables sont bien bloqués et s’il en reste sur la plateforme. Le contenu retiré de manière proactive lors de la création est suivi par un pipeline de données. Nous évaluons régulièrement nos outils de protection préventive afin d’améliorer la précision du processus de filtrage. Pour ce faire, nous envoyons des échantillons de données acceptables pour révision humaine afin d’évaluer la précision de notre système de défense automatisé. Ainsi, le contenu acceptable n’est pas soumis au fastidieux filtrage automatique.

Paramètres clés pour éviter le contenu indésirable :

Qté de contenu bloqué = le contenu en infraction est automatiquement supprimé dès sa création.
Précision = le contenu dûment supprimé divisé par le contenu supprimé automatiquement lors de sa création.
% de contenu bloqué = le volume de contenus en infraction supprimés automatiquement lors de leur création divisé par le nombre total de contenus en infraction saisis sur le site. Le total du contenu en infraction est calculé en additionnant le contenu bloqué, le contenu détecté et le contenu estimé non détecté.

Deuxième niveau de protection : combinaison de détection automatique et humaine

Le deuxième niveau détecte les contenus susceptibles d’être en infraction, mais l’algorithme n’est pas suffisamment fiable pour garantir une suppression automatique. Ces contenus sont signalés par nos systèmes d’intelligence artificielle pour être soumis à un examen plus approfondi. Si l’équipe d’évaluation humaine détermine que le contenu est contraire à nos politiques, celui-ci est retiré de la plateforme.

Troisième niveau de protection : détection humaine

Le troisième et dernier niveau de protection de notre système est assuré par les membres, qui peuvent signaler du contenu sur la plateforme. Le contenu est ensuite envoyé à notre équipe de réviseurs pour une évaluation plus approfondie et est supprimé s’il est jugé contraire à nos politiques.

Les deuxième et troisième niveaux de notre système de protection sont tous les deux axés sur la détection. Cela signifie que le contenu en infraction a été détecté et qu’il a pu avoir un impact sur les membres, puisque quelques membres ont pu être exposés à ce contenu avant qu’il ne soit retiré ou masqué.

Dans les niveaux de détection, le contenu marqué par une évaluation humaine est suivi par un pipeline de données qui capture les actions entreprises par les réviseurs. Nous procédons également à des audits (relectures) sur des échantillons du contenu déjà marqué afin d’évaluer la précision de notre révision humaine. En comparant les décisions des révisions initiales et des révisions vérifiées, nous obtenons une mesure appelée “Score de qualité”. Ce score compare les étiquettes et les sous-étiquettes du contenu vérifié, ce qui nous permet d’évaluer la précision de notre détection de contenu à un niveau plus approfondi.

Paramètres clés pour détecter le contenu en infraction :

Qté de contenu détecté = contenu en infraction filtré par la révision humaine
Score de qualité = contenu dûment marqué divisé par le total du contenu marqué par l’intermédiaire d’une révision humaine
% de contenu détecté = le volume de contenus en infraction filtrés par révision humaine divisé par le nombre total de contenus en infraction saisis sur le site

Outre les contenus bloqués et détectés, il existe également une catégorie de violations non détectées. Sachant que ces données ne peuvent pas faire l’objet d’un suivi, nous estimons le contenu en infraction non détecté en recueillant un échantillon dans la base de contenu que nous transmettons pour révision humaine. Ensuite, nous émettons des hypothèses afin d’estimer le contenu non détecté. L’utilisation d’échantillons aléatoires nécessiterait un volume d’échantillon très élevé pour cette estimation, c’est pourquoi nous utilisons la technique de l’échantillonnage stratifié : en nous appuyant sur les scores donnés par nos outils de classification de machine learning, nous augmentons la probabilité de capturer des contenus indésirables dans nos échantillons. Cela nous permet de limiter la taille de l’échantillon tout en essayant de maintenir les mêmes niveaux de précision dans notre estimation.

Paramètres clés du contenu en infraction non détecté :

Qté de contenu non détecté = estimation du nombre de contenus en infraction diffusés sur le site
% de contenu détecté = quantité estimée de contenu en infraction diffusé sur le site divisé par le nombre total de contenus en infraction saisis sur le site
% de vues de contenu non détecté = nombre estimé de vues sur du contenu en infraction non détecté divisé par le nombre total de vues sur la plateforme

Déplacement du contenu de statut “non détecté” au statut “bloqué”

Cette approche multidimensionnelle avec trois niveaux de protection (contenu bloqué, détecté et non détecté) fait partie de notre entonnoir de gestion du contenu en infraction. Nous définissons la réussite du processus en fonction du pourcentage de contenus en infraction bloqués et détectés. Une grande partie de notre travail consiste à faire en sorte que davantage de contenu passe du statut non détecté au statut bloqué.

content-violation-funnel-and-key-metrics

Perspectives pour l’avenir

Notre mission étant de permettre aux professionnels du monde entier de réseauter afin d’optimiser leurs performances et de faire évoluer leur carrière, il est très important que nous puissions détecter rapidement les contenus contraires à nos politiques et prendre les mesures qui s’imposent, afin de garantir la sécurité des membres et des clients. Bien qu’il s’agisse d’un processus continu en perpétuelle amélioration, nous sommes ravis de constater que notre dernier Rapport de transparence montre qu’au cours du premier semestre 2021, près de 66,3 millions de contenus en infraction ont été supprimés du site. Parmi ceux-ci, 99,6% ont été supprimés grâce à nos outils de protection automatisés.

Qu’il s’agisse de créer un écosystème sécurisé pour les offres d’emploi, de supprimer les profils inappropriés ou de supprimer les contenus abusifs ou en infraction, il est de notre responsabilité de maintenir une communauté sûre et fiable sur LinkedIn. Pour en savoir plus sur ces initiatives, consultez notre dernier Rapport de transparence en cliquant ici.

Remerciements

Plusieurs équipes de LinkedIn collaborent pour faire de la plateforme un endroit sûr et fiable pour nos membres. Des équipes telles que Trust AI, Trust Infrastructure, Multimedia AI, Confidentialité, Trust Product, Service juridique, Public Policy, Content Policy, Trust Data Science, Content Experience et Feed AI contribuent toutes à assurer la sécurité de la plateforme LinkedIn. Merci également à nos membres toujours aussi vigilants dont les précieuses contributions nous aident à assurer la sécurité de la plateforme.