Блоги

Как полному нубу попасть в 99,2% фэнтези лиги

28.08.2018 в 21:42

К чему это всё

Перед началом я написал в блог заметку о медиане и "ящиках с усами" как самых полезных инструментов для анализа и визуализации данных. В качестве примера я использовал предсказания компендиума по игрокам, но т.к. там почти половина пунктов состоит из предсказания экстремальных значений (кол-во убийств, GPM за одну игру и т.п.), что не очень хорошо решается с помощью статистики, я решил в этом году попробовать воспользоваться ею также и в Фэнтези Лиге. В этом посте я решил описать, что из этого получилось.

Что такое Фэнтези Лига

Для тех, кто не в курсе, Фэнтези Лига это соревнование прогнозов целью которых является подобрать сборную игроков из команд, играющих в определённый день, таким образом, чтобы максимизировать суммарное число фэнтези очков. Очки даются игрокам за определённые действия (убийства, первая кровь, установка варда и т.д.) и в одну команду можно набрать 2х кОров, 1 оффлейнера и 2х саппортов. Причём в качестве кОров можно вполне взять двух мидеров или двух керри. То же самое, касается и саппортов.

Также эти очки модифицируются в зависимости от типа карточки игрока. Серебрянные и золотые карточки дают бонусы к некоторым показателям, достигающие 20%. Однако в связи с тем, что в этом году фэнтези карточки нельзя купить напрямую и мне пришлось потратить около 1000 рублей, чтобы только собрать полный комплект всех игроков, это превращает всё соревнование фактически в pay to win, где при двух одинаковых прогнозах больше очков получает тот, кто потратил больше денег, чтобы заполучить карточки лучшего качества.

Способ и участники сравнения

В связи с этим я решил сравнивать чистые показатели (без модификаторов от карточек), т.к.:

Большинство участников указывали имена игроков, а не конкретные карты;
Интересовала точность предсказаний, а не количество денег залитых ради золотых карточек.

Для сравнения своих предсказаний, я нашёл пользователей, которые регулярно публиковали свои прогнозы в Твиттер или другие публичные источники. Таким образом мне удалось найти 12 участников:

Esports Tales;
Finargot;
GOSU.AI;
Noxville;
Scrub;
StatsByLeo;
TobyWan;
Tekcac;
Team Goblak;
Team V1l@t;
Team fng;
Team NS & Dread.

Результаты

Результаты я свёл в дэшборд, интерактивная версия которого находится по ссылке.

Что можно сказать о полученном результате? В первую очередь, стоит отметить, что первые 4 места так или иначе опирались на статистику и анализ данных при подборе команд в фэнтези лигу. В то же время хоть Дрэд и ссылался постоянно на "сухую статистику" и называл себя с НС'ом "рабами статистики", его результаты ставят справедливость этих слов под сомнение. Вообще, по моим наблюдениям, сухой статистика бывает только у тех, кто не умеет ею пользоваться. В руках же умелых людей она довольно быстро становится влажной, if you know what I mean... Впрочем, мы отвлеклись.

Также имеет смысл обратить внимание на то, как обвалились очки у всех, кто поставил в последний день на Evil Geniuses. Особенно не повезло Тоби, т.к. он ухитрился опуститься не только в данном рейтинге, но и вылететь из мирового ТОП-100. В этом, в общем-то, и заключается основная проблема "экспертных" суждений -- они основаны на человеческом восприятии, которое подвержено огромному числу искажений, за исследование которых Дэниэл Канеман и Амос Тверски в 2002 году получили Нобелевскую премию. Все они прекрасно описаны в книге Канемана "Thinking Fast and Slow" и если вам по какой-то причине в жизни предстоит прочитать только одну книгу, то лучшего кандидата на её место придумать сложно. Так и здесь предыдущее поражение PSG.LGD и победа Evil Geniuses сыграли с экспертами плохую шутку.

Напоследок нужно отметить, что не стоит всерьез относиться к невысоким результатам Вилата, Гоблака и ФНГ, т.к. они играли по особым правилам, согласно которым каждый выбирал себе игрока в команду по очереди и другие уже не могли взять этого игрока к себе. Впрочем, даже несмотря на такие ограничения, Гоблак показал, что в доте он всё-таки шарит неплохо, в то время как ФНГ относился к делу явно несерьёзно, выбирая игроков из команд, которым предстоит сыграть только 2 матча в то время как очевидно было, что больше очков наберут те игроки, которы предстоит сыграть 3 матча.

"Секрет успеха"

Так как же мне удалось попасть так высоко среди людей, которые разбираются в доте гораздо лучше, чем я? Как я уже написал во введении, я решил воспользоваться вещами, которые преподают на первых лекциях курса по мат. статистике в любом университете. Для этого я собрал данные по играм всех участников Инта за год, включая The International 2017 и посмотрел на полученные распределения их фэнтези очков. Это давало более стабильную оценку ценности игроков, которую не искажали их недавные взлёты или падения.

Т.к. времени у меня было не очень много, делал я это "на глаз" по графикам "ящиков с усами". Для этого я сделал себе он-лайн дашборд, позволявший выбирать диапазон дат, команды и роли игроков для сравнения.

Например здесь явно видно, что Себастьян Ceb Дебс имеет самое большое значение фэнтези очков по медиане -- 12.1. Это значит, что в 50% своих игр он получает как минимум столько очков. Также стоит обратить внимание на Ян Chalice Шэньи: у него не только самый низкий показатель медианы (9.7), но и самый низкий разброс (выраженный размером прямоугольника) значений. Т.е. он не только в половине игр набирает мало очков, но и половина всех его очков находится достаточно близко от медианы. Поэтому неудивительно, что в последний день он набрал меньше очков, чем Йохан n0tail Сундштайн. Большой размер "ящика" говорит о бОльшем разбросе, т.е. игрок может набрать как значительно больше медианы, так и значительно меньше. Поэтому если нас интересует стабильность игрока, то нужно рассматривать не только высокое значение медианы, но и небольшой разброс значений вокруг неё.

Напоследок скажу, что будучи всё же человеком, с присущими ему искажениями восприятия, я пару раз отступал от советов статистики, что стоило мне около 30 фэнтези очков. Например, в один из дней я не решился выбрать Анатан ana Фам и Себастьян Ceb Дебс из-за того, что у меня со слов комментаторов сложилось о них впечатление как о руинерах. Хотя данные на тот момент и результаты самого Инта это, как мы уже знаем, не подтверждают.

Вместо заключения

В общем, надеюсь, что на этот раз мне удалось донести до вас ценность понимания основ статистики. Возможно для кого-то это подсластит пилюлю возвращения в школу/университет, добавив мотивации к изучению данного предмета. Если же кому-то официальные учебные заведения уже не грозят, то я могу порекомендовать отличные ресурсы по теме:

Книжка "Статистика и котики", которая объясняет азы анализа данных на... котиках.
Курс "Основы статистики" от Stepik, где данный предмет изложен не просто на пальцах, но ещё и при помощи пакета R, которым пользуюсь для этих целей я.
Проект OpenIntro с видеолекциями, учебником и лабораторными заданиями в R для тех, кто не боится английского.

На этом у меня на сегодня всё. Спасибо за внимание.

UPD. Скрипт в R для сбора и приготовления данных для дэшборда выложил сюда. Для того, чтобы он сработал, нужно скопировать мою таблицу с предсказаниями к себе в Google Documents.