Обяснение на показателите за ефективност на модела на майка ми

Майка ми е много умна. Тя беше специалност английски, окончателен редактор на много от моите документи в гимназията и колежа и никога не оставяше граматична грешка да остане непоправена. Въпреки това разговорите за моята работа като Data Scientist често завършват с „Аз правя математика на компютър“.

С надеждата да подобря както разбирането на майка ми за кариерата ми, така и способността ми да обяснявам технически концепции на нетехнически хора, се опитах да й обясня някои общи показатели за ефективност на модела. Ето как успях да го направя:

Примерен казус: Класифициране на цветята гардения

Първо, намерих за много полезно да използвам пример от реалния свят. Това помага да се избегне използването на абстрактни фрази като „процент от положителния клас“. Майка ми е запален градинар, така че избрах случай, който би изисквал малко контекстуално обяснение: класифициране на цветя Гардения. Често я питам „какво цвете е това?“, така че в този случай тя е експертът по темата. Попитах я какво взема предвид при идентифицирането на най-вероятния тип цвете и използвах нейния отговор, за да обясня функциите, които бих използвал, за да предскажа дали едно цвете е гардения или не. В този случай бих използвал височината на цветето, дължината на венчелистчето и цвета на венчелистчето за двоична прогноза: гардения или не.

Едно предупреждение към това упражнение: избрах да запазя обяснението на обучението по модела (разделяне на обучение/тест, инженеринг на функции и т.н.) за друг път. Ако преподавах на студент или стажант за машинно обучение, щях да започна по-назад в този процес, но за днес исках да премина към добрата част: оценка на обучен модел.

Точност: какъв процент от всички цветя предвидихме правилно?

Точността е един от по-лесните показатели за обяснение, като се има предвид колко често се използва в ежедневния език. Затова започнах с обяснение как да изчислим точността, след като имаме модел, който искаме да оценим. Проверих два пъти дали е разбрала този показател, преди да продължа, защото след това показателите стават по-сложни за някой, който никога не е правил това преди.

Чувствителност: какъв процент гардении предвидихме правилно?

След това преминах към чувствителността, където обясних, че понякога се грижим най-много за правилното идентифициране на положителния клас (Gardenias). Внимателното обяснение на знаменателя (в този случай само гардении) направи този показател по-лесен за смилане, както и даването на числен пример, който може лесно да се раздели, като например „8 от 10 гардении бяха правилно предсказани като гардении, което ни дава 80% чувствителност. ”

Специфичност: какъв процент не-Gardenia предвидихме правилно?

Моят подход към специфичността беше подобен на чувствителността, само че тук обясних как разглеждаме само цветята, които не са Gardenia. След като разбра разликата между чувствителност и специфичност, я накарах да ми обясни и двете, преди да продължа.

Прецизност: какъв процент от прогнозите за „Gardenia“ бяха верни?

Прецизността се оказа най-сложната метрика, която обсъждахме, защото сега нашият знаменател не се основава на основната истина (цветето всъщност ли е гардения), а вместо това се основава на нашата прогноза (беше ли цветето предвидено, че е гардения). Въпреки това, още веднъж давайки числен пример със стойности, с които е лесно да се работи, й помогна да разбере.

F1:когато вземем предвид прецизност и чувствителност, как се представя нашият модел?

Един ключ при обяснението на F1 е да не се използва математическото уравнение (хармонично средно на чувствителността и прецизността), поне за начало. В други настройки, където обясних F1, открих, че е достатъчно просто да го оформя като метрика, която взема предвид както чувствителността, така и прецизността, което е полезно предвид дърпането на въже между тези два показателя. По този начин, след като обясних как максимизирането на прецизността може да навреди на чувствителността (и обратното), ако моделът не се представя добре, аз просто обясних F1 като показател, който улавя както прецизността, така и припомнянето.

Ключови изводи

Моят основен извод е, че обяснението на числителя и знаменателя за всеки показател води дълъг път към разбирането на показателите за ефективност. Освен това, даването на числен пример за всяка метрика (използвайки числа, които могат да бъдат разделени наум) помага за укрепване на разбирането на всяка метрика. Започването с просто (точност) и преминаването към по-сложното (F1) беше полезно, както и периодичното проверяване, за да се уверим, че тя все още разбира показателите, които разгледахме преди.

За да направя тази стъпка по-нататък, вероятно бих добавил как всеки показател може да бъде приоритизиран пред други като се има предвид различен случай. Например, ако имахме класификатор, който се използва за идентифициране на пациенти за евтино животоспасяващо лекарство без странични ефекти, бихме искали да се фокусираме върху нашата чувствителност, а не върху нашата специфика. Засега примерът за класифициране на цветя послужи за преодоляване на пропастта между интересите на майка ми и моите.

И накрая, и най-важното, обадете се на майка си. Тя ще се радва да чуе от вас.

Вижте също:

Нови материали

Разговорен AI: какво представлява и как работи

Селия Сердейра от Talkdesk обяснява как разговорният AI управлява инструменти на контактния център като виртуални агенти и чатботове. Той използва машинно обучение (ML) и обработка на..

Работа с Hebbian Learning част 2 (машинно обучение)

Моделиране и контрактивност на невронно-синаптичните мрежи с Hebbian Learning (arXiv) Автор: Вероника Ченторино , Франческо Було , Джовани Русо Резюме: Този документ се занимава с..

Как да обедините речници в Python

Три стратегии за консолидиране на речници Обединяването на данни - често наричано операция за обединение - е често срещана задача в програмирането. Когато става въпрос за обединяване на..

Локално разсъждение в Swift

Локално разсъждение в Swift Swift е невероятно изразителен и мощен език за програмиране. Ще проучим някои от езиковите функции на Swift, които могат да направят вашия код по-лесен за четене...

10 умопомрачителни C# хакове

Здравейте! Като страстен разработчик на C#, аз винаги съм търсил начини да подобря уменията си за кодиране. Вълнувам се да споделя с вас някои умопомрачителни хакове и прозрения, които ми..

Electron с база данни Sqlite3

Electron е рамка за изграждане на междуплатформени настолни приложения с HTML, CSS JavaScript. Electron е написан на C++, Javascript, Objective C, Python и т.н. Днес Electron е супер готин и..

Системи за препоръчване в машинното обучение

Какво представляват двигателите за препоръки? Това е най-мощното и полезно приложение на технологията за машинно обучение в бизнеса. Тези дни. Днес всеки голям гигант като Google, Amazon,..

Етикети

Machine Learning JavaScript Data Science Artificial Intelligence Coding Software Development Web Development Python Deep Learning AI React Java Software Engineering Computer Science Algorithms Nodejs Typescript Data Learning To Code Computer Vision Neural Networks Development Productivity Programming Languages Front End Development Reactjs Angular NLP Tutorial Tech ChatGPT Javascript Tips Mathematics CSS Towards Data Science Golang Business DevOps