Блоги

Медиана, ящик с усами и предсказание по игрокам для Компендиума к TI8

14.08.2018 в 22:16

Мотивация

В последнее время на киберспортивных ресурсах всё чаще начинают появляться материалы со "статистикой" и "инфографикой", которые на деле имеют к обоим понятиям весьма опосредованное отношение (отсюда и кавычки). Я давно хотел написать вводную заметку о том, что на самом деле стоит считать статистикой и чем инфографика отличается от визуализации данных. Поводы к этому регулярно возникали, но были не особо значительными / быстро протухали и потому у меня также быстро терялся к ним интерес.

Однако недавно я решил ознакомиться с предсказаниями для Компендиума, основанными, по заверениям автора, на данных, я увидел там фразу: "Выбор был между Х и Y и я решил выбрать Y потому, что Х у меня уже был в другой категории". После такого шизофренического суждения я понял, что лучшего повода для прояснения ситуации, чем предсказания для Компендиума я в ближайший год вряд ли найду и решил наконец взяться за них сам и написать об этом небольшую заметку.

Warnings and disclaimers

Сразу сделаю ряд оговорок, без которых чтение дальнейшего текста не имеет особого смысла.

Во-первых, я не являюсь экспертом по доте, её механикам, "мете" (что бы это слово ни значило) и прочим вещам. Зато я умею работать с данными дальнейший текст написан в первую очередь для демонстрации некоторых способов анализа этих самых данных.

Во-вторых, т.к. дальше речь пойдёт об устойчивых метриках измерения "среднего", я принципиально взял данные с OpenDota за весь год, а не только за последние патчи/турниры и т.д. С точки зрения статистики малые выборки плохи тем, что в них больше вероятность встретить крайние значения. Поэтому чем больше данных, тем надёжнее будут прогнозы на их основе.

В-третьих, нужно понимать, что любая статистика, анализ данных, машинное и даже глубокое обучение основаны на том, что поведение прогнозируемых объектов в будущем будет похожим на их поведение в прошлом (о котором у нас есть соответствующие данные). Поэтому если поголовно все команды тренировали к инту что-то принципиально новое, чего они никогда не делали, никакой анализ данных не сможет этого предсказать. Что, впрочем, не делает его хуже слепого гадания, т.к. пока что во всех известных мне случаях даже самая простая модель справлялась с задачей прогноза лучше любых экспертов.

Таким образом, вещи, о которых пойдет речь дальше вряд ли можно назвать полноценной моделью, однако в плане надежности они должны быть явно лучше статистики с последних 2х-3х турниров и тем более "экспертных" оценок. С результатами последних вы можете ознакомиться на Реддите. Спойлер: лучший результат на ТИ7 показал Мерлини, угадав 11 пунктов из 40. Большинство не набрало и 10.

Предсказания

Начнём с самого простого (по крайней мере для меня) пункта: предсказания по игрокам. Простым он мне кажется потому, что игроки, в отличие от команд, не меняли состав и их вряд ли смог баффнуть/понерфить Айсфрог.

Почти все номинации там представлены двумя типами показателей -- среднее значение за турнир и максимум за одну игру. Второе предсказать практически невозможно, т.к. речь идёт фактически о "чёрных лебедях", а вот со средними попроще.

Что значит "в среднем"?

Как правило, для большинства людей слова "в среднем" означают "среднее арифметическое", т.е. сумму значений, поделённую на количество наблюдений. Эта формула известна всем со средней школы и дальше неё у большинства людей знания статистики не распространяются.

На самом деле показателей средней тенденции, к которым относится "среднее арифметическое", около дюжины и придуманы они для разных ситуаций, в том числе и таких, когда среднее арифметическое посчитать либо невозможно (на каком герое "в среднем" играет данный игрок?) либо можно, но это лишь введёт в заблуждение. Вот об этом случае и стоит поговорить подробнее.

Какое-то время назад на всех новостных порталах была новость о том, как кто-то из топовых про-игроков зашёл поиграть из компьютерного клуба / интернет кафе. Я не смог за разумное время вспомнить/нагуглить, о ком была эта новость, поэтому для простоты представим, что это был Miracle- на момент, когда у него было 10 000 MMR. Допустим, что в зале на тот момент было 10 человек и у каждого было ровно по 100 MMR. Если мы сложим суммарный MMR в зале (10 * 100 + 10 000) и поделим на количество игроков (11), то получится, что у всех присутствующих в среднем 1000 MMR. Подобный результат безусловно потешит ЧСВ сидевших посетителей (и опечалит Миракла), но именно так работает среднее арифметическое и поэтому не везде оно уместно. Собственно, когда вы слышите аргумент о средней температуре по больнице, то речь идёт именно об этом недостатке среднего арифметического: стоит среди наблюдений появиться аномально большому (Миракл в провинциальном интернет кафе) или аномально малому (я в Team Liquid) значению, как "среднее" неизбежно искажается в сторону этого аномального значения.

Именно для таких случаев придумана другая мера средней тенденции, которая называется медианой. Способ её вычисления очень прост: нужно лишь взять все значения и упорядочить по возрастанию. То значение, которое будет находиться ровно посередине и будет считаться показателем средней тенденции, т.к. ровно половина всех наблюдений меньше или равна этому значению. Для нашего примера с Мираклом медиана равняется 100, т.к. у половины людей в клубе ММР действительно меньше или равен 100.

Вооружившись этими нехитрыми знаниями, давайте теперь попробуем посмотреть, почему я остановился на тех игроках, которых я отметил в прогнозе. И тут нам на помощь приходит вторая тема, которую я хотел затронуть в этом посте, а именно визуализация данных.

Немного о графиках

Давайте сравним медианы и средние арифметические значения количества убийств у участников TI (для удобства оставив на графике только мидеров и керри). Самым удобным видом графика для этой задачи является диаграмма рассеивания (scatterplot), т.к. с её помощью удобно рассматривать взаимосвязи между двумя переменными. В связи с тем, что ни у кого из них не было значений ниже 4,5 по медиане и 5 по среднему арифметическому, график начинается именно с этих значений, а не с 0.

Здесь нам "повезло" и Iceberg оказался выше ближайших конкурентов по обоим показателям. Однако взгляните на Миракла -- он второй по среднему количеству убийств, но с точки зрения медианы он практически не отличим от Resolut1on, Armel, No[o]ne и RAMZES666. Т.к. график не очень хорошо передаёт разницу в десятых и сотых, убедимся в этом с помощью табличного представления данных.

Как мы видим, целых 6 игроков имеют одинаковые значения медианы, что ещё раз говорит о её устойчивости к экстремальным значениям. Поэтому, даже если кому-то из игроков повезло в одном или двух матчах устроить избиение соперников, наклепав кучу фрагов, это мало отразиться на устойчивость данного показателя "на дистанции". Иными словами, если Айсберг в половине игр набирает не менее 10 фрагов, в то время как остальные только 9 или 8, то при попытке предсказать среднее значение количества убийств в Компендиуме лучше всё же полагаться на медиану и выбрать его.

Что же делать с предсказанием максимального количества убийств в одной игре? Казалось бы, ответ очевиден: взять того игрока, кто сумел выбить максимум фрагов за одну игру в сезоне. Давайте посмотрим, кто этот счастливчик.

Мы видим, что здесь отличился Рамзес. Однако Moon вроде бы не сильно далеко от него отстал, да и речь идёт лишь о максимальном значении. Может быть ему просто повезло в тот раз? Тем более, что "в среднем" они совершают по 8-9 убийств, а тут более, чем в 3 раза больше. Имеет смысл посмотреть, как часто у них получаются столь высокие показатели, на столбиковой диаграмме (barchart).

Столбиковая диаграмма показывает, что Армель хоть и смог совершить лишь 28 убийств в максимуме, зато они с Айсбергом по 5 раз за сезон делал более 20 фрагов, в то время как у Рамзеса и Муна это получалось лишь по 2 раза. Как быть? Простого ответа здесь нет, однако логично предположить, что шанс сделать больше фрагов у того, кто сыграет больше игр. А тут, как мне кажется, из 4х команд Virtus.pro с бОльшей вероятностью пройдёт дальше, чем остальные, поэтому я выбрал Рамзеса.

Несложно заметить, что сравнение нескольких распределений и подсчёт экстремальных значений с помощью столбиковых диаграмм не очень удобно и наглядно. Поэтому напоследок хотелось бы рассказать о самом полезном графике, который совмещает в себе всё, о чём я тут написал. Этот график называется boxplot и на русский язык чаще всего переводится как "ящик с усами" (не спрашивайте меня почему). Возьмем для примера предсказание ассистов.

Для удобства я оставил ТОП-5 игроков по медиане и с помощью данного графика мы сразу видим, что у 4х игроков (ALWAYSWANNAFLY, Kaka, nofear, YapzOr) она равна 15 (верхняя граница тёмно-серой части "ящика"), в то время как у GH'a она явно выше. Поэтому в номинации со средним количеством ассистов я выбрал его.

Однако, можно заметить, что у него не было ни одной игры с более, чем 35 ассистами, в то время как у всех остальных они были. Если воспользоваться грубыми прикидками о том, чья команда имеет бОльшие шансы пройти дальше по турниру, а также количеством экстремальных значений, которые очень хорошо показывает график, в номинации "максимум ассистов за игру" я выбрал Япзора.

Остальные предсказания

Дабы не надоедать больше занудством, остальные предсказания выложу просто картинками, благо при их составлении я руководствовался ровно теми же принципами, которые я описал в данном тексте.

Заключение

Итак, резюмируя сказанное.

В данном посте я решил воспользоваться моментом и представить публике ряд статистических показателей и графиков, которые практически не встречаются в материалах со "статистикой" по доте;
В связи с предыдущим пунктом я не гнался за точностью прогноза, лишь за наглядностью хода мыслей.
Среднее арифметическое подвержено влиянию экстремальных значений, поэтому для большей стабильности лучше пользоваться медианой;
Ящик с усами -- один из самых полезных графиков в арсенале методов визуализации данных, однако без понимания, что такое медиана и распределение данных, он, увы, бесполезен. Надеюсь, что с помощью данного поста мне удалось немного изменить эту ситуацию.

Post scriptum

Вот, собственно, и все принципы, которыми я руководствовался при составлении своих предсказаний. Расписывать все остальные категории и номинации у меня уже нет ни сил, ни времени, однако смею вас заверить, что там я руководствовался только этими соображениями. После написания текста я ознакомился с предсказаниями Ноксвилля, Нахаза, Мерлини и NS'a и убедился, что более-менее попал с таким подходом в предложенные ими варианты. Менять Sand King на Christal Maiden я не стал принципиально, т.к. целью поста было показать как принимать решения основываясь на данных, а не на понимании меты и знании инсайтов.