a Precisão vs Recall

neste blog, Vou me concentrar nos desafios relativos ao modelo de avaliação do me deparei enquanto a implementação de uma máquina de log do google analytics algoritmo de classificação. Especificamente, vou demonstrar o Significado de métricas de avaliação de modelos — precisão e recordar através de exemplos da vida real, e explicar os compromissos envolvidos., Embora os meus aprendizados sejam derivados da minha experiência no projeto log analytics, vou tentar dar exemplos genéricos para explicar todos os conceitos. Para os curiosos que coçam seus cérebros Agora, aqui está um grande artigo de referência para entender o que é a análise de log. Para mais detalhes, por favor confira as referências citadas no final deste blog.

Antes de mergulhar no conceito de precisão e recall, deixe-me recapitular para você o que os erros de tipo I e tipo II significam.

Tipo I E Tipo II erros

numa manhã, Jack recebeu uma chamada telefónica., Era um estranho em linha. Jack, ainda a beber o seu café matinal acabado de fazer, mal estava em posição de perceber o que o esperava. O estranho disse: “Parabéns Jack! Ganhaste uma lotaria de 10 milhões de dólares! Só preciso que me forneça os detalhes da sua conta bancária, e o dinheiro será depositado na sua conta bancária à direita…”

Quais são as probabilidades de isso acontecer? O que é que o Jack deve fazer? O que terias feito?é complicado, não é? Permitam-me que tente explicar aqui a complexidade., Assumindo que o Jack é um tipo normal, ele pensaria nisto como uma partida, ou talvez, um esquema para obter os seus dados bancários, e, portanto, negará fornecer qualquer informação. No entanto, esta decisão baseia-se na sua suposição de que a chamada era uma farsa. Se ele tiver razão, poupará o dinheiro na sua conta bancária. Mas, se ele estiver errado, esta decisão custar-lhe-ia um milhão de dólares!

Vamos falar em termos estatísticos, um pouco., De acordo comigo, a hipótese nula neste caso é que esta chamada é uma farsa. Na verdade, se o Jack tivesse acreditado no estranho e dado os seus detalhes bancários, e a chamada fosse uma farsa, ele teria cometido um erro tipo I, também conhecido como falso positivo. Por outro lado, se ele tivesse ignorado o pedido do estranho, mas mais tarde descobriu que ele realmente tinha ganho a loteria e a chamada não era um embuste, ele teria cometido um erro Tipo II, ou um falso negativo.,

Agora que estamos claros com o conceito de erros de tipo I e tipo II, vamos mergulhar no conceito de precisão e recall.

a Precisão e o Recall

Muitas vezes, pensamos que a precisão e a recordar os dois indicam a precisão do modelo. Embora isso seja um pouco verdade, há um significado mais profundo e distinto de cada um destes Termos. Precisão significa a porcentagem de seus resultados que são relevantes., Por outro lado, recall refere-se à percentagem de resultados relevantes totais corretamente classificados pelo seu algoritmo. Sem dúvida, este é um conceito difícil de entender na primeira tentativa. Deixa – me tentar explicar com o exemplo do Jack.

…sentindo-se um pouco em pânico, Jack chamou seu banco para garantir que suas contas existentes estavam seguras e todos os seus créditos estavam seguros. Depois de ouvir a história de Jack, O executivo do banco informou Jack que todas as suas contas estavam seguras., No entanto, a fim de garantir que não há risco futuro, o gerente do banco perguntou Jack para recuperar todas as instâncias, nos últimos seis meses em que ele pode ter partilhado a sua conta detalhes com outra pessoa, por qualquer tipo de transação, ou pode ter acessado sua conta on-line a partir de um sistema público, etc…

Quais são as chances de que Jack vai ser capaz de se lembrar de todas essas instâncias, precisamente? Se compreenderam o que eu pedi na frase anterior com uma confiança de%, provavelmente compreenderam o que realmente significa recordar e precisão., Mas, só para confirmar, aqui está a minha análise. se Jack tivesse dito dez desses casos na realidade, e ele narrou vinte casos para finalmente soletrar os dez casos corretos, então sua retirada será de 100%, mas sua precisão será de apenas 50%.tirando o tempo que o Jack gastou na chamada com o executivo do banco a soletrar informação extra, não havia muito em jogo aqui devido à baixa precisão. Mas, imagine se a mesma coisa acontecer na próxima vez que você procurar por um produto, digamos amazon., No momento em que você começa a obter resultados irrelevantes, você mudaria para outra plataforma, ou talvez até mesmo deixar cair a idéia de comprar. Esta é a razão pela qual tanto a precisão e a lembrança são tão importantes em seu modelo. E por esta altura, já devem ter adivinhado, uma vem à custa de outra.isto é bastante intuitivo. Se você tem que lembrar de tudo, você terá que continuar gerando resultados que não são precisos, portanto baixando sua precisão. Para exemplificar isso, imagine o caso do mundo digital (novamente, amazon.com?,), onde há um espaço limitado em cada página web, e um espaço de atenção extremamente limitado do cliente. Portanto, se o cliente é mostrado um monte de resultados irrelevantes e muito poucos resultados relevantes (para atingir um alto recall), o cliente não vai deixar de navegação de cada produto para sempre para, finalmente, encontrar a pessoa que ele ou ela tem a intenção de comprar, e provavelmente vai se mudar para o Facebook, twitter, ou pode ser Airbnb para planejar seu próximo férias. Esta é uma enorme perda, e, portanto, o modelo subjacente ou algoritmo precisaria de uma correção para equilibrar a recolha e precisão.,

Uma coisa Similar acontece quando um modelo tenta maximizar a precisão.

Faz uma simples métrica existe?

na maioria dos problemas, você pode dar uma prioridade maior para maximizar a precisão, ou recordar, dependendo do problema que você está tentando resolver. Mas, em geral, há uma métrica mais simples que leva em conta a precisão e a memória, e, portanto, você pode tentar maximizar este número para tornar o seu modelo melhor., Esta métrica é conhecida como pontuação F1, que é simplesmente a média harmônica de precisão e recall.

Para mim, esta métrica parece muito mais fácil e conveniente para trabalhar com, como você só tem a maximizar uma pontuação, em vez de equilibrar duas notas separadas., De fato, existem outras maneiras de combinar precisão e recall em uma pontuação como uma média geométrica dos dois, e pode valer a pena explorar os diferentes tipos e seus respectivos compromissos.então, quais são as principais takeaways?

precisão e recolha são duas métricas de avaliação de modelos extremamente importantes. Embora a precisão se refira à percentagem de seus resultados que são relevantes, recall se refere à percentagem de resultados relevantes totais corretamente classificados pelo seu algoritmo., Infelizmente, não é possível maximizar ambas as métricas ao mesmo tempo, uma vez que uma vem ao custo de outra. Para simplificar, há uma outra métrica disponível, chamada pontuação F – 1, que é uma média harmônica de precisão e recall. Para problemas em que tanto a precisão quanto a recolha são importantes, pode-se selecionar um modelo que maximize esta pontuação F-1. Para outros problemas, é necessário um trade-off, e uma decisão tem que ser feita se maximizar a precisão, ou recordar.

eu espero que este blog foi envolvente e perspicaz. Aguardo com expectativa o seu feedback na secção de comentários., E não se esqueça de ler os artigos de referência, eles são realmente uma riqueza de conhecimento. Boa leitura!

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *