Presisjon vs Husker

I denne bloggen, Jeg vil fokusere på utfordringene knyttet til modell evaluering jeg kom over mens implementere en maskin logg analytics klassifisering algoritme. Spesielt, vil jeg vise betydningen av modell evaluering beregninger presisjon og recall gjennom real life eksempler, og forklare trade-offs involvert., Skjønt, min erfaringene er hentet fra min erfaring i loggen analytics-prosjektet, vil jeg prøve å gi generiske eksempler for å forklare alle konsepter. For den nysgjerrige de klør seg i hjernen akkurat nå, her er en god referanse papir for å forstå hva logge analytics er alle om. For flere detaljer, vennligst sjekk ut referanser sitert på slutten av denne bloggen.

Før du dykker ned i det konseptet med presisjon og recall, la meg oppsummering for deg hva som Type i og Type II feil betegne.

Type i og Type II Feil

En fin morgen, Jack fikk en telefon samtale., Det var en fremmed mann på linje. Jack, fortsatt nipper til sin nytraktet kaffe om morgenen, var knapt i stand til å forstå hva som kom til ham. Den fremmede sa, «Gratulerer Kontakt! Du har vunnet et lotteri på $10 Millioner! Jeg trenger bare å gi meg din bankkonto detaljer, og pengene vil bli satt inn på din bankkonto rett måte…»

Hva er oddsen for at det skjer? Hva bør Jack gjøre? Hva ville du ha gjort?

Vanskelig, ikke sant? La meg prøve å forklare kompleksiteten her., Forutsatt at Jack er en normal fyr, han ville tenke på dette som en prank, eller kanskje en svindel for å hente sin bank detaljer, og derfor vil nekte å gi noen informasjon. Men denne beslutningen er basert på hans antagelse om at samtalen var en spøk. Hvis han har rett, vil han spare penger på sin bankkonto. Men, hvis han tar feil, denne beslutningen ville koste ham en million dollar!

La oss snakke i statistiske begreper for en bit., Ifølge meg, nullhypotesen i denne saken er at denne samtalen er en bløff. Som et spørsmål om faktum, hvis Jack ville ha trodd det fremmede og gitt sin bank detaljer, og samtalen var faktisk en bløff, ville han har begått en type i feil, også kjent som et falskt positivt resultat. På den annen side, hadde han ignorerte den fremmedes forespørsel, men fant senere ut at han faktisk hadde vunnet i lotto, og samtalen var ikke en spøk, han ville ha begått en Type II feil, eller en falsk negativ.,

Nå som vi er klare med konseptet av Type i og Type II feil, la oss dykke inn i konseptet av precision og recall.

Presisjon og Recall

Ofte tror vi at presisjon og recall både angir nøyaktigheten av modellen. Mens det er noe sant, det er en dypere og tydelig betydningen av hver av disse vilkårene. Presisjon betyr at andel av resultater som er relevante., På den annen side, husker viser prosentandel av total relevante resultater korrekt klassifisert av algoritmen. Uten tvil, dette er et vanskelig konsept å ta tak i det første gå. Så la meg prøve å forklare det med Jack eksempel.

…Føler du deg litt panicky, Jack ringte til banken sin for å sørge for at hans eksisterende kontoer ble trygt og alle hans studiepoeng var trygge. Etter å ha lyttet til Jack ‘ s historie, bank executive informert Jack at alle hans kontoer var trygge., Men, for å sikre at det er ingen fremtidig risiko, bank manager spurte Jack til å huske alle forekomster i de siste seks månedene hvor han kunne ha delt sin konto detaljer med en annen person for noen form for transaksjon, eller kan ha sett sin internett-konto fra et offentlig system, osv…

Hva er sjansene for at Jack vil være i stand til å huske alle slike tilfeller presist? Hvis du forstått hva jeg spurte i forrige setning med en prosent tillit, har du sikkert forstått hva recall og presisjon egentlig betyr., Men, bare for å dobbeltsjekke, her er min analyse. hvis Jack hadde la oss si ti slike tilfeller i virkeligheten, og han fortalt tjue tilfeller å endelig stave ut ti riktig tilfeller, så er hans recall vil være 100%, men hans presisjon vil bare være 50%.

Sperring tid Jack brukt på telefonsamtalen med banken executive stave ut ekstra informasjon, men det var faktisk ingenting mye på spill her på grunn av lav presisjon. Men, tenk deg hvis det samme skjer neste gang du søker etter et produkt på la oss si at amazon., I det øyeblikket du begynner å få irrelevante resultater, ville du bytter til en annen plattform, eller kanskje til og med droppe ideen om å kjøpe. Dette er grunnen til at både presisjon og recall er så viktig i modellen. Og på denne tiden, er du kanskje allerede har gjettet, kommer på bekostning av en annen.

Trade-off

Dette er ganske intuitivt. Hvis du har til å huske alt, du har å holde generere resultater som ikke er nøyaktige, derfor senke presisjon. For å eksemplifisere dette, tenk tilfelle av digitale verden (igjen, amazon.com?,), hvor det er et begrenset antall plasser på hver nettside, og svært begrenset oppmerksomheten span av kunden. Derfor, hvis kunden er vist en masse irrelevante resultater og svært få relevante resultater (for å oppnå en høy recall), vil kunden ikke holde lesing hver og produkt for alltid å endelig finne den han eller hun ønsker å kjøpe, og vil sannsynligvis bytte til Facebook, twitter, eller kan være Airbnb for å planlegge sin neste ferie. Dette er et stort tap, og dermed den underliggende modellen eller algoritmen ville trenger en løsning for å balansere recall og presisjon.,

Lignende ting skjer når en modell som forsøker å maksimere presisjon.

Gjør et enklere beregning eksisterer?

I de fleste problemer, kan du enten gi en høyere prioritet til å maksimere presisjon, eller husker, avhengig av problemet du prøver å løse. Men generelt er det en enklere beregning som tar hensyn til både presisjon og recall, og du kan derfor sikte på å maksimere dette nummeret for å gjøre modellen bedre., Denne beregningen er kjent som en F1-score, som er ganske enkelt den harmoniske gjennomsnittet av precision og recall.

For meg, denne verdien virker mye enklere og mer praktisk å jobbe med, som du bare har å maksimere en score, snarere enn å balansere to separate score., Faktisk, det er andre måter å kombinere presisjon og recall inn en score som et geometrisk gjennomsnitt av de to, og det kan være verdt å utforske ulike typer og deres respektive trade-offs.

Så, hva er de viktigste takeaways?

Presisjon og recall er to ekstremt viktig modell evaluering beregninger. Mens presisjon viser prosentandel av resultater som er relevante, husker viser prosentandel av total relevante resultater korrekt klassifisert av algoritmen., Det er dessverre ikke mulig å maksimere begge disse beregningene på samme tid, som en kommer på bekostning av en annen. For enkelhets skyld, det er en annen beregning tilgjengelig, kalt F-1 score, som er en harmonisk gjennomsnitt av precision og recall. For problemer der både presisjon og recall er viktig, kan man velge en modell som maksimerer denne F-1 poeng. For andre problemer, en trade-off er nødvendig, og en beslutning tas om å maksimere presisjon, eller hent.

jeg håper at denne bloggen var engasjerende og innsiktsfull. Jeg ser frem til din tilbakemelding i kommentarfeltet., Og ikke glem å lese referanse artikler, de er virkelig et vell av kunnskap. God lesing!

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *