Como os nossos sistemas de detecção de conteúdos inapropriados aumentam a segurança dos usuários

Sanket Modi

Sr Manager, Data Science at Linkedin

A Equipe de Segurança promove iniciativas para excluir da plataforma os conteúdos que violam nossas Políticas para Comunidades Profissionais e garantir uma experiência segura e confiável aos usuários do LinkedIn. Nesta publicação do blog, abordaremos as medidas tomadas para que as conversas na nossa plataforma continuem sendo realizadas com profissionalismo e respeito.

Conteúdos como artigos, mensagens, imagens e vídeos são amplamente criados e compartilhados no LinkedIn. Utilizamos um método multidimensional com três camadas de segurança para excluir da plataforma conteúdos que violam nossas políticas e manter a integridade da experiência dos usuários no feed e nas mensagens privadas.

Sistema de detecção de conteúdos inapropriados no LinkedIn

Prevenção automática (1ª camada de segurança)

A primeira camada do nosso sistema conta com serviços de machine learning que são acionados durante a criação de conteúdos no LinkedIn. Esse é um recurso que utilizamos para filtrar automaticamente publicações inapropriadas dentro de 300 milissegundos após a criação. Nesse tempo, nenhum usuário da plataforma consegue visualizar o conteúdo, exceto a pessoa que o criou.

A inteligência artificial tem um papel importante na detecção proativa desses conteúdos e ajuda a oferecer experiências relevantes para os nossos usuários. Usamos exemplos de conteúdos (como palavras-chaves ou imagens) já identificados como inapropriados para alimentar os modelos de IA, que passam a detectar outros conteúdos semelhantes e restringir a publicação deles na plataforma.

Outra tarefa importante priorizada pela Equipe de Ciências de Dados é a avaliação quantitativa desse processo para monitorar conteúdos inapropriados que foram automaticamente detectados e excluídos e identificar os que permanecem visíveis na plataforma. Conteúdos proativamente removidos durante a criação são acompanhados por meio de um pipeline de dados, e o nosso sistema de detecção preventiva é frequentemente avaliado e aprimorado. Nessas avaliações, alguns exemplos de conteúdos cujas publicações foram aprovadas são revisados por pessoas que verificarão a precisão do sistema. Isso garante que conteúdos apropriados não sejam automaticamente removidos.

Principais métricas para a prevenção de conteúdo inapropriado:

Quantidade de conteúdos bloqueados = conteúdos inapropriados que foram automaticamente removidos durante a criação.
Precisão do sistema = quantidade de conteúdos removidos com precisão dividida pela quantidade de conteúdos automaticamente removidos durante a criação.
% de prevenção = quantidade de conteúdos inapropriados automaticamente removidos durante a criação dividida pelo total de tentativas de publicação de conteúdos inapropriados na plataforma. O total de conteúdos inapropriados é calculado da seguinte maneira: total de conteúdos bloqueados + total de conteúdos detectados + estimativa de conteúdos não detectados.

Detecções feitas por sistemas automatizados e pessoas (2ª camada de segurança)

A segunda camada identifica conteúdos potencialmente inapropriados que não são automaticamente removidos devido à ausência de conclusão do algoritmo. Esses conteúdos são sinalizados pelos nossos sistemas de IA e passam por avaliação humana. Quando a equipe de análise classifica algum conteúdo como inapropriado, ele é removido da plataforma.

Detecções feitas somente por pessoas (3ª camada de segurança)

A terceira e última camada envolve conteúdos denunciados por usuários do LinkedIn, que são enviados para a nossa equipe de revisão e passam por análise detalhada. Em seguida, os conteúdos que violam nossas políticas são excluídos da plataforma.

A segunda e a terceira camada do nosso sistema de proteção são voltadas à detecção. Isso significa que conteúdos inapropriados foram identificados e podem ter afetado outros usuários negativamente antes de terem sido removidos ou ocultados.

Nas camadas de detecção, os conteúdos identificados por análise humana são acompanhados por meio de um pipeline de dados que registra as ações tomadas pelos revisores. Também realizamos revisões subsequentes (auditorias) dos subconjuntos de conteúdos já identificados para avaliar a exatidão da análise humana. Ao comparar as decisões das primeiras revisões e das revisões subsequentes, obtemos uma métrica chamada Pontuação da qualidade. Ela contrapõe os rótulos e sub-rótulos dos conteúdos auditados para que possamos avaliar a precisão da detecção de maneira mais aprofundada.

Principais métricas para a detecção de conteúdo inapropriado:

Quantidade de conteúdos detectados = conteúdos inapropriados detectados por análise humana
Pontuação da qualidade = quantidade de conteúdos rotulados com precisão dividida pelo total de conteúdos rotulados pela equipe de revisão
% de conteúdos detectados = quantidade de conteúdos inapropriados detectados pela equipe de revisão dividida pelo total de tentativas de publicação de conteúdos inapropriados na plataforma

Além dos conteúdos bloqueados e detectados, há a categoria de conteúdos não detectados. Como esses dados não podem ser acompanhados, fazemos uma estimativa deles enviando uma amostra de toda a base de conteúdo para análise humana. Assim obtemos a estimativa do conteúdo não detectado. A estimativa com amostras aleatórias exigiria uma grande quantidade de dados; por isso, utilizamos uma técnica de amostragem estratificada que aproveita as pontuações dadas pelos classificadores de machine learning para aumentar a probabilidade de capturar conteúdos inapropriados nas amostras. Isso ajuda a reduzir o tamanho da amostra e manter os níveis de precisão da nossa estimativa.

Principais métricas para a identificação de conteúdo inapropriado não detectado:

Quantidade de conteúdos não detectados = estimativa de conteúdos inapropriados publicados na plataforma
% de conteúdos não detectados = estimativa de conteúdos inapropriados publicados na plataforma dividida pelo total de tentativas de publicação de conteúdos inapropriados na plataforma
% de visualizações não detectadas = estimativa de visualizações dos conteúdos inapropriados não detectados dividida pelo total de visualizações de conteúdos na plataforma

Mudança na abordagem: de conteúdos não detectados a conteúdos bloqueados/detectados

Essa abordagem multidimensional com três camadas de segurança (conteúdos bloqueados, detectados e não detectados) integra o nosso funil de violações relacionadas a conteúdo. Definimos o sucesso desse método com base na porcentagem de prevenções e detecções de conteúdos inapropriados. Muito do nosso trabalho consiste em mover a maior quantidade possível de conteúdos não detectados para as camadas de prevenção e detecção.

content-violation-funnel-and-key-metrics

Um olhar para o futuro

Nossa missão é conectar profissionais do mundo todo e ajudá-los a se tornarem mais produtivos e bem-sucedidos; portanto, precisamos detectar e lidar rapidamente com conteúdos que violam as nossas políticas para que possamos garantir experiências seguras aos usuários e clientes. Nossa jornada é constante, e os resultados mostram que estamos no caminho certo. Segundo o nosso Relatório de Transparência mais recente, quase 66,3 milhões de conteúdos inapropriados foram removidos da plataforma no primeiro semestre de 2021. Desses, 99,6% foram bloqueados pelo nosso sistema de detecção automática.

É nossa responsabilidade garantir a segurança da comunidade de usuários do LinkedIn, seja por meio da criação de um ecossistema de vagas confiável, da exclusão de perfis inapropriados ou da remoção de conteúdos que violam as nossas políticas. Saiba mais sobre essas iniciativas no nosso mais recente Relatório de Transparência.

Agradecimentos

A segurança dos usuários no LinkedIn depende da iniciativa conjunta de vários departamentos. As Equipes de IA Confiável, Infraestrutura Confiável, IA Multimídia, Segurança, Produto Confiável, Jurídico, Política Pública, Política de Conteúdo, Ciência de Dados Confiável, Experiência de Conteúdo e IA de Feed estão contribuindo para manter a plataforma segura. Além das nossas equipes, contamos com a base cada vez mais vigilante de usuários que contribuem com insights valiosos e nos ajudam nessa missão.