Use o teste de folha de papel em branco para otimizar o processamento de idiomas naturais

Use o teste de folha de papel em branco para otimizar o processamento de idiomas naturais
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Se você entregasse a alguém uma folha de papel em branco e a única coisa escrita nela fosse o título da página, eles entenderiam o que o título significava? Eles teriam uma ideia clara sobre o que seria o documento real? Se sim, então parabéns! Você acabou de passar no Teste de folha de papel em branco para títulos de páginas porque seu título era descritivo.

O Teste de folha de papel em branco (BSoPT) é uma idéia sobre a qual Ian Lurie falou muito ao longo dos anos e recentemente em seu novo site. É um teste para ver se o que você escreveu tem significado para alguém que nunca encontrou sua marca ou conteúdo antes. Nas palavras de Ian: “Este texto, escrito em uma folha de papel em branco, fará sentido para um estranho?” O teste Folha de papel em branco é sobre clareza sem contexto.

Mas e se estivermos executando o BSoPT em uma máquina em vez de em uma pessoa? Nosso experimento mental ainda se aplica? Acho que sim. As máquinas não sabem ler, mesmo as sofisticadas, como Google e Bing. Eles podem apenas adivinhar o significado do nosso conteúdo, o que torna o teste especialmente relevante.

Eu tenho uma versão alternativa do BSoPT, mas para máquinas: se tudo que uma máquina pudesse ver é uma lista de palavras que aparecem em um documento e com que frequência, seria possível adivinhar razoavelmente do que se trata o documento?

Teste de folha de papel em branco para frequência de palavras

Se você entregasse a alguém uma folha de papel em branco e a única coisa escrita nela fosse essa tabela de palavras e frequências, eles poderiam adivinhar do que se trata o artigo?

Leia Também  O Google Notícias não pode mais oferecer suporte a ações e gênero
Use o teste de folha de papel em branco para otimizar o processamento de idiomas naturais 1

Um artigo sobre afiar uma faca é um bom palpite. O artigo do qual extraí a palavra tabela de frequências era um guia de como afiar uma faca de cozinha.

E se as palavras “passo” e “como” aparecerem na tabela? A pessoa que lê está mais confiante que este artigo trata de afiar facas ou menos? Eles poderiam dizer se este artigo é sobre afiar facas de cozinha ou canivetes?

Se não conseguirmos ter uma boa idéia do que é o artigo com base nas palavras que ele usa, o BSoPT falhará na frequência das palavras.

Ainda podemos usar a frequência das palavras para o BERT?

As abordagens anteriores de processamento de linguagem natural (PNL) empregadas pelos mecanismos de pesquisa usaram análise estatística da frequência e da co-ocorrência de palavras para determinar do que se trata uma página. Eles ignoraram a ordem e parte do discurso das palavras em nosso conteúdo, basicamente tratando nossas páginas como sacos de palavras.

As ferramentas que usamos para otimizar esse tipo de PNL compararam a frequência das palavras do nosso conteúdo com os concorrentes e nos informaram onde estavam as lacunas no uso das palavras. Hipoteticamente, se adicionássemos essas palavras ao nosso conteúdo, teríamos uma classificação mais alta ou, pelo menos, ajudaria os mecanismos de pesquisa a entender melhor o nosso conteúdo.

Essas ferramentas ainda existem: Market Muse, SEMRush, seobility, Ryte e outras possuem algum tipo de frequência de palavras ou capacidade de análise de gap de TD-IDF. Eu tenho usado uma ferramenta gratuita de frequência de palavras chamada Online Text Comparator e funciona muito bem. Eles ainda são úteis agora que os mecanismos de pesquisa avançaram com abordagens de PNL como o BERT? Acho que sim, mas não é tão simples quanto mais palavras = melhores classificações.

O BERT é muito mais sofisticado do que uma abordagem de saco de palavras. O BERT analisa a ordem das palavras, parte do discurso e quaisquer entidades presentes em nosso conteúdo. É robusto e pode ser treinado para fazer muitas coisas, incluindo respostas a perguntas e reconhecimento de entidades nomeadas – definitivamente mais avançado que a frequência básica de palavras.

Leia Também  O melhor guia de pesquisa de palavras-chave para SEO
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

No entanto, o BERT ainda precisa examinar as palavras presentes na página para funcionar, e a frequência das palavras é um resumo básico disso. Agora, a localização da palavra e parte da fala importam mais. Não podemos apenas espalhar as palavras que encontramos em nossa análise de lacunas pela página.

Aprimorando o conteúdo com ferramentas de frequência de palavras

Para ajudar a tornar nosso conteúdo inequívoco para as máquinas, precisamos torná-lo inequívoco para os usuários. Reduzir a ambiguidade em nossa redação é sobre escolher palavras específicas para o tópico sobre o qual estamos escrevendo. Se nossa redação usa muitos verbos genéricos, pronomes e adjetivos não temáticos, então nosso conteúdo não é agradável, é difícil de entender.

Considere este exemplo extremo de linguagem não específica:

“O truque para encontrar a faca do chef certo é encontrar um bom equilíbrio de recursos, qualidades e preço. Deve ser feito de metal forte o suficiente para manter sua borda por um período decente de tempo. Você deve ter uma alça confortável que não o canse. Você também não precisa gastar muito. O cozinheiro em casa não precisa de uma faca japonesa de US $ 350.

Esta cópia não é ótima. Parece quase gerado por máquina. Não consigo imaginar que um artigo completo escrito assim passasse no BSoPT por frequência de palavras.

Veja como é a tabela de frequência de palavras com algumas palavras de parada removidas:

Use o teste de folha de papel em branco para otimizar o processamento de idiomas naturais 2

Agora, suponha que usamos uma ferramenta de frequência de palavras em algumas páginas com boa classificação para “como escolher a faca de um chef” e descobrimos que essas partes do discurso estavam sendo usadas com bastante frequência:

Entidades: lâmina, aço, fadiga, aço de damasco, santoku, Shun (marca)
Verbos
: aderência, cortando
Adjetivos
: perfeito, duro, com alto teor de carbono

Leia Também  Gerando Conteúdo Local em Escala - Whiteboard Friday

A incorporação dessas palavras em nossa cópia produziria um texto significativamente melhor:

“O truque para encontrar a faca perfeita do chef é obter o equilíbrio certo de recursos, qualidades e preço. A lâmina deve ser feita de aço com força suficiente para manter uma borda afiada após o uso repetido. Você deve ter uma alça ergonômica que possa agarrar confortavelmente para evitar que a fadiga estenda o corte. Você também não precisa gastar muito. O cozinheiro doméstico não precisa de um santoku de aço de damasco de alto teor de carbono de US $ 350 da Shun. “

Esse texto atualizado será mais fácil para as máquinas classificarem e melhor para os usuários lerem. Também é uma boa redação usar palavras relevantes para o seu tópico.

Olhando para o futuro da PNL

O aprimoramento de nosso conteúdo com o Teste de folha de papel em branco está otimizando para o BERT ou outros algoritmos de PNL? Não, eu não penso assim. Não acho que exista um conjunto especial de palavras que possamos adicionar ao nosso conteúdo para classificar magicamente mais com a exploração do BERT. Vejo isso como uma maneira de garantir que nosso conteúdo seja entendido claramente por usuários e máquinas.

Prevejo que estamos chegando bem perto do ponto em que a idéia de otimizar para a PNL será considerada absurda. Talvez em 10 anos, escrever para usuários e escrever para máquinas seja a mesma coisa, devido à distância que a tecnologia avançou. Mas, mesmo assim, ainda precisamos garantir que nosso conteúdo faça sentido. E o Teste de folha de papel em branco ainda será um ótimo lugar para começar.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *