Přesné vs Připomeňme si,

V tomto blogu, Zaměřím se na problémy vztahující se k hodnocení modelu jsem narazil při provádění stroj log analytics klasifikační algoritmus. Konkrétně budu demonstrovat význam metrik hodnocení modelu-přesnost a vyvolání prostřednictvím příkladů reálného života a vysvětlím související kompromisy., Ačkoli, moje učení jsou odvozeny z mých zkušeností v projektu log analytics, pokusím se dát obecné příklady vysvětlit všechny pojmy. Pro zvědavé ty, poškrábání jejich mozek právě teď, tady je skvělý referenční papíru, aby pochopili, co log analytics je vše kolem. Pro více informací se prosím podívejte na odkazy uvedené na konci tohoto blogu.

než se ponoříme do konceptu přesnosti a odvolání,dovolte mi shrnout, jaké chyby typu I a typu II znamenají.

chyby typu I a typu II

jednou ráno, Jack dostal telefonní hovor., Byl to cizinec na lince. Jack, který stále popíjel čerstvě uvařenou ranní kávu, byl sotva v pozici, aby pochopil, co pro něj přichází. Cizinec řekl: „gratuluji Jacku! Vyhráli jste loterii ve výši 10 milionů dolarů! Potřebuji, abyste mi poskytli údaje o svém bankovním účtu a peníze budou uloženy na vašem bankovním účtu správným způsobem…“

jaká je pravděpodobnost, že se to stane? Co by měl Jack dělat? Co byste udělal?

složité, že? Pokusím se vysvětlit tu složitost., Za předpokladu, že Jack je normální chlap, myslel by na to jako žert, nebo možná, podvod načíst jeho bankovní údaje, a proto bude popírat poskytnout jakékoli informace. Toto rozhodnutí je však založeno na jeho předpokladu, že hovor byl podvod. Pokud má pravdu, ušetří peníze na svém bankovním účtu. Ale pokud se mýlí, toto rozhodnutí by ho stálo milion dolarů!

Pojďme mluvit ze statistického hlediska., Podle mě je nulová hypotéza v tomto případě, že toto volání je podvod. Ve skutečnosti, pokud by Jack věřil cizince a poskytl své bankovní údaje, a hovor byl ve skutečnosti podvod, dopustil by se chyby typu I, také známý jako falešně pozitivní. Na druhou stranu, kdyby ignoroval žádost cizince, ale později zjistil, že ve skutečnosti vyhrál loterii a Hovor nebyl podvod, dopustil by se chyby typu II nebo falešného negativu.,

nyní, když jsme jasně s konceptem chyb typu I a typu II, pojďme se ponořit do konceptu přesnosti a odvolání.

Přesné a Připomeňme si,

Často si myslíme, že přesnost a připomeňme si, jak naznačují přesnost modelu. I když je to poněkud pravda, existuje hlubší, zřetelný význam každého z těchto pojmů. Přesnost znamená procento vašich výsledků, které jsou relevantní., Na druhou stranu, recall odkazuje na procento celkových relevantních výsledků správně klasifikovaných podle vašeho algoritmu. Nepochybně je to těžký koncept, který je třeba pochopit v prvním kroku. Pokusím se to vysvětlit Jackovým příkladem.

… cítil se trochu panicky, Jack zavolal svou banku, aby zajistil, že jeho stávající účty budou bezpečné a všechny jeho kredity byly bezpečné. Po poslechu Jackova příběhu bankovní manažer informoval Jacka, že všechny jeho účty jsou v bezpečí., Nicméně, aby bylo zajištěno, že neexistuje budoucnost bez rizika, bankovní manažer zeptal se Jack připomenout všechny instance v posledních šesti měsících, kde by mohl podělil o své údaje o účtu s jinou osobou, pro jakýkoliv druh transakce, nebo mohou mít přístup k jeho on-line účet z veřejného systému, atd…

Jaké jsou šance, že bude Jack schopen vzpomenout všechny případy přesně? Pokud jste pochopili, co jsem se zeptal v předchozí větě s důvěrou procent, pravděpodobně jste pochopili, co odvolání a přesnost skutečně znamená., Ale abych to znovu zkontroloval, tady je moje analýza. pokud Jack měl řekněme deset takových případů ve skutečnosti, a on vyprávěl dvacet případů, aby konečně hláskovat deseti správnou instancí, pak jeho odvolání bude 100%, ale jeho přesnost bude jen 50%.

Blokování čas, Jack strávil na telefonát s bankou výkonný hláskování další informace, byl tam vlastně nic moc v sázce vzhledem k nízké přesnosti. Představte si však, že se to samé stane při příštím hledání produktu na řekněme Amazonu., V okamžiku, kdy začnete dostat irelevantní výsledky, by se mělo přepnout na jinou platformu, nebo možná i kapku myšlenkou nákupu. To je důvod, proč jsou přesnost i odvolání ve vašem modelu tak důležité. A do této doby jste možná už uhodli, jeden přichází za cenu druhého.

Trade-off

to je docela intuitivní. Pokud si musíte vzpomenout na všechno, budete muset neustále vytvářet výsledky, které nejsou přesné, a tím snížit vaši přesnost. Chcete-li to ilustrovat, představte si případ digitálního světa (opět, amazon.com?,), kde je na každé webové stránce omezený prostor a extrémně omezená pozornost zákazníka. Proto, pokud zákazník je zobrazeno mnoho irelevantních výsledků, a jen velmi málo relevantních výsledků (v zájmu dosažení vysoké recall), zákazník nebude mít procházení každého a každý výrobek navždy konečně najít ten, on nebo ona má v úmyslu koupit, a bude pravděpodobně přepnout na Facebook, twitter, nebo může být Airbnb, aby plán jeho nebo její příští dovolenou. Jedná se o obrovskou ztrátu, a proto by základní model nebo algoritmus potřeboval opravu, aby vyrovnal odvolání a přesnost.,

podobná věc se stane, když se model pokusí maximalizovat přesnost.

Dělá jednodušší existovat?

Ve většině problémů, můžete buď dát vyšší prioritu maximalizaci přesnosti, či odvolání, v závislosti na problému, který se snažíte vyřešit. Obecně však existuje jednodušší metrika, která bere v úvahu přesnost i odvolání, a proto se můžete zaměřit na maximalizaci tohoto čísla, aby byl váš model lepší., Tato metrika je známá jako F1-skóre, což je prostě harmonický průměr přesnosti a odvolání.

Aby mě tato metrika se zdá mnohem jednodušší a pohodlnější pro práci s, jako jen musíte maximalizovat skóre, spíše než vyvažování dvou samostatných skóre., Ve skutečnosti existují i jiné způsoby, jak spojit přesnost a vzpomenout si na jedno skóre jako geometrický průměr obou, a možná by stálo za to prozkoumat různé druhy a jejich příslušné kompromisy.

Takže, jaké jsou klíčové takeaways?

přesnost a vyvolání jsou dvě nesmírně důležité metriky hodnocení modelu. Zatímco přesnost odkazuje na procento vašich výsledků, které jsou relevantní, recall odkazuje na procento celkových relevantních výsledků správně klasifikovaných podle vašeho algoritmu., Bohužel není možné maximalizovat obě tyto metriky současně, protože jedna přichází za cenu druhé. Pro jednoduchost je k dispozici další metrika, nazývaná skóre F-1, což je harmonický průměr přesnosti a odvolání. Pro problémy, kde je důležitá přesnost i odvolání, lze vybrat model, který maximalizuje toto skóre F-1. Pro další problémy je nutný kompromis a musí být rozhodnuto, zda maximalizovat přesnost, nebo odvolání.

doufám, že tento blog byl poutavý a bystrý. Těším se na vaši zpětnou vazbu v sekci komentáře., A nezapomeňte si přečíst referenční články, jsou to opravdu bohaté znalosti. Šťastné čtení!

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *