Como interpretar as métricas Precisão, Revocação, Acurácia e Medida-F
Continuando a série de posts sobre meu mestrado, neste eu gostaria de abordar como interpretar as métricas Precisão, Revocação, Acurácia e Medida-F que usei para analisar os resultados que obtive nas segmentações com algoritmo do Crescimento de Regiões – “CR“.
Como já expliquei anteriormente em minha pesquisa eu comparei os resultados da segmentação com um Padrão Ouro – “PO”, considerando esta a melhor segmentação possível.
Métricas Precisão, Revocação, Acurácia e Medida-F: Matriz de Confusão
Antes de calcularmos as métricas temos que gerar a matriz de confusão. Nela iremos comparar o parão ouro com o resultado obtido na segmentação.
Vamos considerar que estamos trabalhos com nuvens de pontos. Dessa forma, ao comparar as duas nuvens: a primeira do PO e a segunda segmentada pelo CR, podemos extrair alguns dados:
- Verdadeiros Positivos – VP: são aqueles pontos segmentados no PO e no CR.
- Verdadeiros Negativos – VN: são aqueles que não foram segmentados pelo PO e nem pelo CR.
- Falsos Positivos – FP: são aqueles segmentados pelo CR, mas não pelo PO.
- Falso Negativo – FN: são os pontos que não foram segmentados pelo CR, mas deveriam ter sido.
Veja a ilustração na figura abaixo:
Estamos assumindo aqui que as duas nuvens de pontos, tanto a gerada pelo CR, e tanto a do PO são binárias, ou seja, os pontos possuem apenas as coordenadas 3D (x, y, z) e um nível de intensidade de cor: zero (preto) e 255 (branco).
Uma vez que identificamos o valor de VP, VN, FP e FN vamos enfim calcular as métricas de Precisão, Revocação, Acurácia e Medida F.
Precisão (Precision)
Pode-se definir que foi a capacidade de evitar falsos positivos na segmentação da nuvem de pontos.
Revocação (Recall)
É a proporção entre as segmentações corretas e o total de segmentações realizadas. Essa métrica indica o quão boa foi a segmentação na escolha dos pontos corretos da nuvem, ou seja, os pontos que deveriam ser VP foram rotulados como tal assim como os VN.
Acurácia (Accuracy)
Corresponde a proporção entre os pontos segmentados corretamente, sendo eles regiões de interesse, com a soma destes mais os pontos definidos como falso positivos e falsos negativos.
Medida F (F Measure, F1)
É a média harmônica entre precisão e revocação. Uma vez que seu valor está alto significa que a acurácia que obtivemos é relevante, ou seja, os valores de VP, VN, FP, FN aferidos não apresentam grandes distorções. Também pode-se interpretar como uma medida de confiabilidade da acurácia.
Exemplo
Neste exemplo eu trago o resultado final obtido por mim em minha dissertação de mestrado. Na tabela abaixo observa-se os valores das métricas considerando a comparação entre uma nuvem segmentada por CR e o Padrão Ouro
Tabela 21 – Valores aferidos das métricas de avaliação para os melhores cenários do modelo de cor CIELab considerando o padrão ouro para áreas de anidrose. | |||||||
Cenário | Precisão | Revocação | Verdadeiro Positivo | Verdadeiro Negativo | Acurácia | Medida F | Anidrose |
44 | 0,93 | 0,98 | 0,98 | 0,80 | 92,94% | 95,35% | 28% |
45 | 0,92 | 0,97 | 0,97 | 0,76 | 91,46% | 94,40% | 29% |
46 | 0,91 | 0,97 | 0,97 | 0,74 | 91,29% | 94,32% | 28% |
Explicando a tabela: Veja que o cenário 24 foi o que obteve a maior acurácia, e ainda a Medida F acompanhou o valor médio de Precisão e Revocação, logo a acurácia obtida é confiável. Se você quiser saber mais sobre meu trabalho acesse a categoria Mestrado, lá eu deixei vários posts sobre o problema da pesquisa e ainda tutoriais sobre a realização da parte prática!