Читаем Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик полностью

TN: модель правильно определила не спам-письмо как не спам (0 писем).

FN: модель неправильно определила спам-письмо как не спам (0 писем).

Рассчитайте точность как отношение TP к общему числу положительных ответов (TP + FP):

Precision = TP / (TP + FP) = 10 / (10 + 5) = 0.667 = 66.7%

Таким образом, в данном примере модель правильно определила 10 из 15 спам-писем, что соответствует точности в 66.7%.

Пример № 2:

В задаче классификации новостей на две категории – политика и спорт – модель классифицировала 200 статей, из которых 150 статей по политике и 50 статей по спорту. Модель правильно определила 120 статей по политике и 40 статей по спорту. Однако, 30 статей по политике модель неправильно классифицировала как спортивные статьи, а 10 спортивных статей – как статьи по политике. Рассчитаем метрику Precision для класса "политика".

Определите класс, для которого вы хотите рассчитать точность. В данном примере это класс "политика".

Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:

TP: модель правильно определила статью по политике как статью по политике (120 статей).

FP: модель неправильно определила спортивную статью как статью по политике (10 статей).

TN: модель правильно определила спортивную статью как спортивную (40 статей). Значение TN не важно для расчета Precision, поскольку оно не учитывается в формуле.

FN: модель неправильно определила статью по политике как спортивную статью (30 статей). Значение FN также не важно для расчета Precision.

Рассчитайте точность как отношение TP к общему числу положительных ответов (TP + FP): Precision = TP / (TP + FP) = 120 / (120 + 10) = 120 / 130 = 0.923 = 92.3%

Таким образом, в данном примере модель правильно определила 120 из 130 статей, которые были классифицированы как статьи по политике. Точность модели для класса "политика" составляет 92.3%.

<p>Метрика Recall (Полнота)</p>

Метрика Recall (Полнота) – это одна из метрик качества работы алгоритма классификации, которая показывает, какую долю объектов положительного класса модель смогла правильно классифицировать. Recall фокусируется на правильно классифицированных положительных объектах и пропущенных срабатываниях (ложноотрицательные результаты).

Метрика Recall рассчитывается следующим образом:

Recall = TP / (TP + FN)

где:

TP (True Positives) – количество правильно классифицированных положительных объектов;

FN (False Negatives) – количество неправильно классифицированных положительных объектов (пропущенные срабатывания).

Recall принимает значения в диапазоне от 0 до 1 (или от 0% до 100%). Чем ближе значение Recall к 1 (или 100%), тем лучше модель справляется с задачей распознавания положительного класса.

Важно отметить, что метрика Recall не учитывает ложные срабатывания (False Positives). В некоторых случаях, когда ложные срабатывания могут иметь серьезные последствия, например, в задачах определения спам-писем, лучше использовать другие метрики, такие как Precision (точность) или F1-score, которые учитывают и ошибки первого, и второго рода.

Пример № 1:

Пример № 1: В задаче классификации писем на спам и не спам, модель должна максимизировать количество обнаруженных спам-писем. Если модель правильно определила 80 из 100 спам-писем, то полнота модели для класса "спам" будет 80%.

Давайте рассмотрим пошаговое решение для метрики Recall (Полнота) на примере № 1:

Определите класс, для которого вы хотите рассчитать полноту. В данном примере это класс "спам".

Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:

TP: модель правильно определила спам-письмо как спам (80 писем).

FP: модель неправильно определила не спам-письмо как спам (20 писем).

FN: модель неправильно определила спам-письмо как не спам (20 писем).

Рассчитайте полноту как отношение TP к общему числу положительных примеров (TP + FN):

Recall = TP / (TP + FN) = 80 / (80 + 20) = 0.8 = 80%

Таким образом, в данном примере модель правильно определила 80 из 100 спам-писем, что соответствует полноте в 80%.

Пример № 2: Представьте, что вы работаете аналитиком в интернет-магазине, который хочет улучшить свой алгоритм рекомендаций товаров пользователям. Вы хотите проверить, насколько хорошо работает текущий алгоритм и решаете посчитать метрику полноты для одной из категорий товаров – "электроника".

Для этого вы берете случайную выборку из 200 пользователей, которые просмотрели товары в категории "электроника" на вашем сайте за последний месяц. После того, как вы применили алгоритм рекомендаций, вы получили следующие результаты:

Из 200 пользователей 120 купили хотя бы один рекомендованный товар в категории "электроника" (TP).

Из 200 пользователей 80 не купили ни одного рекомендованного товара в категории "электроника" (FN).

Рассчитайте метрику полноты (recall) для категории "электроника".

Решение:

Перейти на страницу:

Похожие книги

10 гениев бизнеса
10 гениев бизнеса

Люди, о которых вы прочтете в этой книге, по-разному относились к своему богатству. Одни считали приумножение своих активов чрезвычайно важным, другие, наоборот, рассматривали свои, да и чужие деньги лишь как средство для достижения иных целей. Но общим для них является то, что их имена в той или иной степени становились знаковыми. Так, например, имена Альфреда Нобеля и Павла Третьякова – это символы культурных достижений человечества (Нобелевская премия и Третьяковская галерея). Конрад Хилтон и Генри Форд дали свои имена знаменитым торговым маркам – отельной и автомобильной. Биографии именно таких людей-символов, с их особым отношением к деньгам, власти, прибыли и вообще отношением к жизни мы и постарались включить в эту книгу.

А. Ходоренко

Карьера, кадры / Биографии и Мемуары / О бизнесе популярно / Документальное / Финансы и бизнес
100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
100 способов заработать деньги в трудные времена
100 способов заработать деньги в трудные времена

Многие почему-то уверены, что в кризисные, нестабильные времена лучше не высовываться и держаться за свою работу, какой бы скучной и малооплачиваемой она ни была. Однако мнение это ошибочно. Ведь сколько известно случаев, когда человек, попав под сокращение, в считаные дни нашел себе должность куда лучше или вообще занялся, наконец, тем, о чем мечтал всю жизнь и на что до сих пор не решался.Как не растеряться, внезапно лишившись источника доходов и найти работу своей мечты?Как выжить предпринимателю в кризисной обстановке? Какие сферы деятельности, по прогнозам, не только не вымрут в ближайшее время, но и позволят неплохо заработать? Какие профессии гарантируют максимальную надежность во все времена?Решить все эти вопросы вам поможет наша книга.И помните: в каждой проблеме заключена скрытая возможность, и при правильном подходе просто не бывает таких времен, в которые нельзя заработать и преуспеть.

Александр Попов

Карьера, кадры / О бизнесе популярно / Финансы и бизнес
100 бизнес-технологий: как поднять компанию на новый уровень
100 бизнес-технологий: как поднять компанию на новый уровень

А вы знаете сверхвозможности и сверхслабости своей компании, команды и собственный потенциал? Давно ли вы спускались в производственный отдел или отдел продаж и просто спрашивали: «Как дела?» Эта книга откроет вам глаза на реальное положение дел в вашей компании и поможет перехватить управленческую инициативу для достижения бизнес-результатов. В ней рассматриваются фундаментальные принципы строительства бизнеса, которые необходимо выбрать в начале пути и следовать им; говорится о степени затягивания гаек и ослабления болтов в руководстве коллективом, подборе эффективной, сильной команды, нацеленной на результат; рассказывается о методах принятия верных управленческих решений и методах увеличения результативности собственной работы. Все, о чем говорят в кулуарах и что действительно важно для успеха вашей компании, – в этой книге. Хватит смотреть на западные технологии, пора применять управленческие инструменты, работающие в отечественных компаниях.Издание рекомендуется владельцам компаний, директорам всех подразделений, а также менеджерам, заинтересованным в успехе.

Роман Черепанов

Карьера, кадры / О бизнесе популярно / Управление, подбор персонала / Финансы и бизнес