Precizie vs Amintesc

În acest blog, Mă voi concentra pe provocările referitoare la modelul de evaluare am venit peste în timp ce de punere în aplicare o mașină log analytics algoritm de clasificare. Mai exact, voi demonstra semnificația măsurătorilor de evaluare a modelului-precizie și rechemare prin exemple din viața reală și voi explica compromisurile implicate., Deși, învățările mele sunt derivate din experiența mea în proiectul Log analytics, voi încerca să dau exemple generice pentru a explica toate conceptele. Pentru cei curioși care își zgârie creierul chiar acum, iată o lucrare de referință excelentă pentru a înțelege despre ce este vorba log analytics. Pentru mai multe detalii, vă rugăm să consultați referințele citate la sfârșitul acestui blog.înainte de a vă scufunda în conceptul de precizie și rechemare, permiteți-mi să recapitulez pentru dvs. ce înseamnă erorile de tip I și de tip II.

erori de tip I și de tip II

într-o dimineață frumoasă, Jack a primit un telefon., Era un străin pe linie. Jack, sorbind încă cafeaua de dimineață proaspăt preparată, abia era în poziția de a înțelege ce venea pentru el. Străinul a spus: „Felicitări Jack! Ați câștigat o loterie de 10 milioane de dolari! Am nevoie doar să-mi furnizați detaliile contului dvs. bancar, iar banii vor fi depuși în contul dvs. bancar în mod corect…”

care sunt șansele să se întâmple asta? Ce ar trebui să facă Jack? Ce ai fi făcut?

complicat, nu? Permiteți-mi să încerc să explic complexitatea aici., Presupunând că Jack este un tip normal, s-ar gândi la asta ca la o glumă sau poate la o înșelătorie pentru a-și prelua detaliile bancare și, prin urmare, va refuza să furnizeze informații. Cu toate acestea, această decizie se bazează pe presupunerea lui că apelul a fost o farsă. Dacă are dreptate, va economisi banii în contul său bancar. Dar, dacă se înșeală, această decizie l-ar costa un milion de dolari!

haideti Sa vorbim din punct de vedere statistic pentru un pic., Potrivit mea, ipoteza nulă în acest caz este că acest apel este o farsă. De fapt, dacă Jack l-ar fi crezut pe străin și i-ar fi furnizat detaliile bancare, iar apelul a fost de fapt o farsă, ar fi comis o eroare de tip I, cunoscută și ca un fals pozitiv. Pe de altă parte, dacă ar fi ignorat cererea străinului, dar mai târziu a aflat că de fapt a câștigat loteria și apelul nu a fost o farsă, ar fi comis o eroare de tip II sau un fals negativ.,acum ,că suntem clar cu conceptul de erori de tip I și de tip II, să ne scufundăm în conceptul de precizie și rechemare.

Precizia și Recall

De multe ori, credem că precizia și recall ambele indica precizia modelului. Deși acest lucru este oarecum adevărat, există o semnificație mai profundă, distinctă a fiecăruia dintre acești Termeni. Precizia înseamnă procentul de rezultate care sunt relevante., Pe de altă parte, rechemarea se referă la procentul din totalul rezultatelor relevante clasificate corect de algoritmul dvs. Fără îndoială, acesta este un concept greu de înțeles în primul du-te. Deci, permiteți-mi să încerc să explic cu exemplul lui Jack.

…simțindu-se un pic panicat, Jack și-a sunat banca pentru a se asigura că conturile sale existente sunt sigure și că toate creditele sale sunt sigure. După ce a ascultat povestea lui Jack, executivul băncii l-a informat pe Jack că toate conturile sale sunt în siguranță., Cu toate acestea, în scopul de a se asigura că nu există nici un risc viitor, directorul băncii întrebat pe Jack să-și reamintească toate cazurile în ultimele șase luni în care el ar fi împărtășit detalii de cont cu o altă persoană pentru orice tip de tranzacție, sau poate fi accesat on-line de cont de la un sistem public, etc…

care sunt șansele ca Jack va fi capabil să-și amintească toate aceste cazuri precis? Dacă ați înțeles ceea ce am cerut în propoziția anterioară cu un procent de încredere la sută, ați înțeles, probabil, ceea ce amintesc și precizie înseamnă de fapt., Dar, doar pentru a verifica dublu, aici este analiza mea. dacă Jack a avut să spunem zece astfel de cazuri în realitate, și el a povestit douăzeci de cazuri pentru a preciza în cele din urmă cele zece cazuri corecte, atunci rechemarea lui va fi un 100%, dar precizia lui va fi doar 50%.cu excepția timpului petrecut de Jack la apelul telefonic cu Executivul băncii, precizând informații suplimentare, nu era nimic în joc aici din cauza preciziei scăzute. Dar, imaginați-vă dacă același lucru se întâmplă data viitoare când căutați un produs pe să spunem amazon., În momentul în care începeți să obțineți rezultate irelevante, veți trece la o altă platformă sau poate chiar să renunțați la ideea de a cumpăra. Acesta este motivul pentru care atât precizia, cât și rechemarea sunt atât de importante în modelul dvs. Și până în acest moment, s-ar putea să fi ghicit deja, unul vine cu prețul altuia.acest lucru este destul de intuitiv. Dacă trebuie să vă amintiți totul, va trebui să continuați să generați rezultate care nu sunt exacte, scăzând astfel precizia. Pentru a exemplifica acest lucru, imaginați-vă cazul lumii digitale (din nou, amazon.com?,), în care există un spațiu limitat pe fiecare pagină web și o atenție extrem de limitată a clientului. Prin urmare, dacă Clientului i se arată o mulțime de rezultate irelevante și foarte puține rezultate relevante (pentru a obține o rechemare ridicată), clientul nu va continua să navigheze pe fiecare produs pentru a găsi în sfârșit cel pe care intenționează să îl cumpere și probabil va trece la Facebook, twitter sau poate fi Airbnb pentru a-și planifica următoarea vacanță. Aceasta este o pierdere uriașă și, prin urmare, modelul sau algoritmul de bază ar avea nevoie de o soluție pentru a echilibra rechemarea și precizia.,lucru Similar se întâmplă atunci când un model încearcă să maximizeze precizia.

Are un simplu metrice exista?în majoritatea problemelor, puteți acorda o prioritate mai mare maximizării preciziei sau rechemării, în funcție de problema pe care încercați să o rezolvați. Dar, în general, există o metrică mai simplă, care ține cont atât de precizie, cât și de rechemare și, prin urmare, puteți urmări să maximizați acest număr pentru a vă îmbunătăți modelul., Această valoare este cunoscută sub numele de scorul F1, care este pur și simplu media armonică a preciziei și rechemării.

Pentru mine, această valoare pare mult mai ușor și convenabil de a lucra cu, ca ai doar pentru a maximiza un scor, mai degrabă decât de echilibrare două scoruri separate., De fapt, există și alte modalități de a combina precizia și rechemarea într-un singur scor ca o medie geometrică a celor două și ar putea merita explorate diferitele tipuri și compromisurile respective.

Deci, care sunt takeaways cheie?

precizia și rechemarea sunt două valori extrem de importante de evaluare a modelului. În timp ce precizia se referă la procentul rezultatelor dvs. care sunt relevante, rechemarea se referă la procentul total de rezultate relevante clasificate corect de algoritmul dvs., Din păcate, nu este posibil să maximizați ambele aceste valori în același timp, deoarece unul vine la costul altuia. Pentru simplitate, există o altă valoare disponibilă, numită scorul F-1, Care este un mijloc armonic de precizie și rechemare. Pentru problemele în care precizia și rechemarea sunt importante, se poate selecta un model care maximizează acest scor F-1. Pentru alte probleme, este nevoie de un compromis și trebuie luată o decizie dacă să maximizați precizia sau să vă amintiți.sper că acest blog a fost captivant și perspicace. Aștept cu nerăbdare feedback-ul dvs. în secțiunea de comentarii., Și nu uitați să citiți articolele de referință, ele sunt cu adevărat o bogăție de cunoștințe. Lectură plăcută!

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *