- Вариация в пределах субъектов и между субъектами
- Размах (интервал изменения)
- Статистика и проекты по машинному обучению
- Первоначальное исследование данных
- Очистка данных
- Тонкая настройка модели
- Важные понятия статистики
- Статистика в машинном обучении
- Группирование данных в корзины
- Дисперсия
- Описательная статистика
- Меры центральной тенденции
- Арифметическое среднее
- Усеченное среднее (trimmed mean)
- Мода
- Меры рассеяния
- Размах {range}
- Стандартное отклонение
- Медианное абсолютное отклонение
- Межквартильный размах
- Ассиметрия и эксцесс
- Ассиметрия и эксцесс в R
- А теперь все вместе!
- Описательных статистик недостаточно
- Описательные статистики
- Медиана
- Нормальное распределение
- Среднее геометрическое
- Статистика помогает ответить на вопросы, подобные этим
Вариация в пределах субъектов и между субъектами
Если провести повторные измерения непрерывной переменной у исследуемого объекта, то можно увидеть ее изменения (внутрисубъектные изменения). Это можно объяснить тем, что объект не всегда может дать точные и те же самые ответы, и/или ошибкой, погрешностью измерения. Однако при измерениях у одного объекта вариация обычно меньше, чем вариация единичного измерения в группе (межсубъектные изменения).
Например, вместимость легкого 17-летнего мальчика составляет от 3,60 до 3,87 л, когда измерения повторяются не менее 10 раз; если провести однократное измерение у 10 мальчиков того же возраста, то объем будет между 2,98 и 4,33 л. Эти концепции важны в плане исследования.
Связанные определения:Выборочное среднее, среднее значение выборкиВыбросДисперсия (рассеяние, разброс)Дисперсия выборки (выборочная дисперсия)Коэффициент вариацииМаксимумМатематическое ожидание дискретной случайной величиныМатематическое ожидание непрерывной случайной величиныМедианаМеры дисперсии, меры разбросаМинимумМодаОписательные статистикиОписательный анализПараметры рассеянияПараметры центральной тенденцииСреднее значениеСреднеквадратичное отклонение популяцииСтандартная ошибка среднегоСтандартное отклонение
Размах (интервал изменения)
Размах — это разность между максимальным и минимальным значениями переменной в наборе данных; этими двумя величинами обозначают их разность. Обратите внимание, что размах вводит в заблуждение, если одно из значений есть выброс (см. раздел 3).
Статистика и проекты по машинному обучению
экспериментальный анализ данных (EDA) и добыча данных (Data Mining)
Первоначальное исследование данных
Отчасти знание домена помогает овладеть определённым типом переменных. Тем не менее как эксперты, так и новички в этой области извлекают пользу из реальной работы с реальными наблюдениями в домене. Важные связанные с этим понятия в статистике сводятся к изучению описательной статистики и визуализации данных.
Очистка данных
Проектирование экспериментов — это подраздел статистики, который управляет процессом выбора и оценки модели. Он требует хорошего понимания проверки статистических гипотез и оценочной статистики.
Тонкая настройка модели
- Определение вопроса, на который можно ответить статистически, чтобы принимать эффективные решения.
- Вычисление и интерпретация общих статистических данных и использование стандартных методов визуализации данных для передачи результатов.
- Понимание того, как математическая статистика применяется в конкретной области, такие понятия, как центральная предельная теорема и закон больших чисел.
- Умение делать выводы из оценок местоположения и изменчивости (ANOVA).
Определение связи между целевыми и независимыми переменными.
- Разработка экспериментов по проверке статистических гипотез, A/B тестирование и т. д.
- Вычисление и интерпретация метрик производительности, таких как р-значение, альфа, ошибки первого и второго рода и т. д.
Важные понятия статистики
- Приступая к освоению статистики, нужно понимать типы данных (данные в прямоугольной системе координат и другие данные), оценивать местоположение и вариабельность распределения данных, бинарные и категориальные данные, корреляцию, отношение между различными типами переменных.
- Статистические распределения — случайные числа, закон больших чисел, центральная предельная теорема, стандартная погрешность и т. д.
- Выборка и распределение данных — случайная выборка, смещение выборки, смещение выбора, распределение выборки, бутстрэп, доверительный интервал, нормальное распределение, t-распределение, биномиальное распределение, распределение «хи квадрат», F-распределение, распределение Пуассона и экспоненциальное распределение.
- Непараметрические статистические методы — ранжирование данных, критерии нормальности, нормализация данных, ранговая корреляция, критерии знаковых рангов, критерий независимости.
Статистика в машинном обучении
Конечно, имеются некоторые факторы, затрудняющие обучение статистике. Я говорю о математических уравнениях, греческой нотации и тщательно выверенных понятиях, затрудняющих развитие интереса к предмету. Можно решить эти проблемы с помощью простых и ясных объяснений, учебных пособий с соответствующим темпом и практических занятий — решения проблем с помощью прикладных методов статистики. От исследовательского анализа данных до разработки экспериментов для проверки гипотез статистика играет ключевую роль в решении проблем во всех основных отраслях и областях.
Тот, кто хочет развить глубокое понимание машинного обучения, должен узнать, как статистические методы формируют основу алгоритмов регрессии и классификации, как статистика позволяет учиться на основе данных и как она помогает извлекать смысл из немаркированных данных.
Группирование данных в корзины
В целях развития интуитивного понимания в отношении того, что именно все эти расчеты разброса значений измеряют, мы можем применить метод под названием группировка в частотные корзины (binning). Когда данные имеют непрерывный характер, использование специального словаря для подсчета частот Counter (подобно тому, как он использовался при подсчете количества пустых значений в наборе данных об электорате) становится нецелесообразным, поскольку никакие два значения не могут быть одинаковыми. Между тем, общее представление о структуре данных можно все-равно получить, сгруппировав для этого данные в частотные корзины (bins).
Процедура образования корзин заключается в разбиении диапазона значений на ряд последовательных, равноразмерных и меньших интервалов. Каждое значение в исходном ряду попадает строго в одну корзину. Подсчитав количества точек, попадающих в каждую корзину, мы можем получить представление о разбросе данных:
На приведенном выше рисунке показано 15 значений x, разбитых на 5 равноразмерных корзин. Подсчитав количество точек, попадающих в каждую корзину, мы можем четко увидеть, что большинство точек попадают в корзину по середине, а меньшинство — в корзины по краям. Следующая ниже функция Python nbin позволяет добиться того же самого результата:
def nbin(n, xs):
»’Разбивка данных на частотные корзины»’
min_x, max_x = min(xs), max(xs)
range_x = max_x — min_x
fn = lambda x: min( int((abs(x) — min_x) / range_x * n), n-1 )
return map(fn, xs)
Например, мы можем разбить диапазон 0-14 на 5 корзин следующим образом:
list( nbin(5, range(15)) )
После того, как мы разбили значения на корзины, мы можем в очередной раз воспользоваться словарем Counter, чтобы подсчитать количество точек в каждой корзине. В следующем ниже примере мы воспользуемся этим словарем для разбиения данных об электорате Великобритании на пять корзин:
Количество точек в крайних корзинах (0 и 4) значительно ниже, чем в корзинах в середине — количества, судя по всему, растут по направлению к медиане, а затем снова снижаются. В следующем разделе мы займемся визуализацией формы этих количеств.
Дисперсия
Один из способов измерения рассеяния данных заключается в том, чтобы определить степень отклонения каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений.
Однако мы не можем использовать среднее этих отклонений как меру рассеяния, потому что положительные отклонения компенсируют отрицательные отклонения (их сумма равна нулю). Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение и находим среднее возведенных в квадрат отклонений; эта величина называется вариацией, или дисперсией.
Возьмем n наблюдений x1, x2, х3,. , xn, среднее которых равняется
В случае, если мы имеем дело не с генеральной совокупностью, а с выборкой, то вычисляется выборочная дисперсия:
Теоретически можно показать, что получится более точная дисперсия по выборке, если разделить не на n, а на (n-1).
Единицы измерения (размерность) вариации — это квадрат единиц измерения первоначальных наблюдений.
Например, если измерения производятся в килограммах, то единица измерения вариации будет килограмм в квадрате.
Описательная статистика
Статистика делится на описательную статистику (descriptive statistics) и статистику вывода (inferential statistics). Описательная статистика пытается описать нашу выборку (sample, т. те данные, что у нас на руках) различными способами. Проблема в том, что описательная статистика может описать только то, что у нас есть, но не позволяет сделать выводы о генеральной совокупности (population) — это уже цель статистики вывода. Цель описательной статистики — “ужать” данные для их обобщенного понимания с помощью статистик.
Заметьте, у выборки (sample) мы считаем статистики (statistics), а у генеральной совокупности (Population) есть параметры (Parameters). Вот такая вот мнемотехника.
Статистики часто выступают в роли точечной оценки (point estimators) параметров, так что в этом легко запутаться. Например, среднее (в выборке) — это оценка среднего (в генеральной совокупности). Да, можно свихнуться. Мы это будем разбирать подробнее в следующие занятия (это действительно важно, поверьте), пока что остановимся только на описании выборки.
Сегодня мы будем работать с пакетом survival, в котором есть датасет pbc. Мы его сразу превратим в data. table
(survival)
(data. table)
(pbc)
pbcdt <- (pbc)
Это данные 424 пациентов с первичным билиарным циррозом — редким аутоимунным заболеванием печени. При поступлении в клинику у них измерили разные медицинские показатели, определели в экспериментальную и контрольную группу. В наборе данных есть информация о том, что стало с этими испытуемыми.
“This data is from the Mayo Clinic trial in primary biliary cirrhosis (PBC) of the liver conducted between 1974 and 1984. A total of 424 PBC patients, referred to Mayo Clinic during that ten-year interval, met eligibility criteria for the randomized placebo controlled trial of the drug D-penicillamine. The first 312 cases in the data set participated in the randomized trial and contain largely complete data
Подробнее про датасет можно почитать здесь или в Help.
Эти данные часто используются в качестве примера для анализа выживаемости. Они уже в достаточно упорядоченном виде и не нуждаются в предобработке (что, к сожалению, случай малореалистичный).
Для простоты мы удалим все пропущенные значения. Мы уже знакомы с функцией is. na(), теперь познакомимся с еще одной функцией: complete. cases() возвращает вектор, равный длине датафрейма, с FALSE для строчек, где есть хотя бы один NA, и TRUE если пропущенных значений нет.
Пока что мы будем использовать только данные о возрасте испытуемых. Для краткости обозначим это вектором a
Меры центральной тенденции
Мера центральной тенденции — это число для описания центра распределения.
Арифметическое среднее
Самая распространенная мера центральных тенденций — арифметическое среднее, то самое, которые мы считаем с помощью функции mean().
В качестве упражнения попробуйте самостоятельно превратить эту формулу в функцию mymean() c помощью sum() и length(). Можете убирать NA по дефолту! Сравните с результатом функции mean().
Усеченное среднее (trimmed mean)
Если про среднее и медиану слышали все, то про усеченное (тримленное) среднее известно гораздо меньше. Тем не менее, на практике это довольно удобная штука, потому что представляет собой некий компромисс между арифметическим средним и медианой.
В усеченном среднем значения ранжируются так же, как и для медианы, но отбрасывается только какой-то процент крайних значений. Усеченное среднее можно посчитать с помощью обычной функции mean(), поставив нужное значение параметра trim =:
trim = 0. 1 означает, что мы отбросили 10% слева и 10% справа. trim может принимать значения от 0 до 0. Что будет, если trim = 0?
Мода
Мода (mode) — это самое частое значение. Обычно используется для номинальных переменных. Например, можно посчитать моду для регионов, в которых происходили битвы. Что интересно, в R нет встроенной функции для подсчета моды. Обычно она и не нужна: мы можем посчитать таблицу частот и даже проранжировать ее (и мы уже умеем это делать разными способами). На случай если Вы все-таки хотите создать свою функцию для моды, можно попробовать что-то такое:
Меры рассеяния
Начинающий статистик пытался перейти в брод реку, средняя глубина которой 1 метр. И утонул. В чем была его ошибка? Он не учитывал разброс значений глубины!
Мер центральной тенденции недостаточно, чтобы описать выборку. Необходимо знать ее вариабельность.
Размах {range}
Самое очевидное — посчитать размах (range), то есть разницу между минимальным и максимальным значением. В R есть функция для вывода максимального и минимального значений:
Осталось посчитать разницу между ними:
Естественно, крайние значения очень сильно влияют на этот размах, поэтому на практике он не очень-то используется.
Дисперсия (variance) вычисляется по следующей формуле:
Попробуйте превратить это в функцию myvar()!
myvar <- (x) ((x (x)))
Естественно, в R уже есть готовая функция var(). Но, заметьте, ее результат немного отличается от нашего:
Дело в том, что встроенная функция var() делит не на (n), а на (n-1). Это связано с тем, что эта функция пытается оценить дисперсию в генеральной совокупности, т. относится уже к статистике вывода. Про это мы будем говорить в дальнейших занятиях, сейчас нам нужно только отметить то, что здесь есть небольшое различие.
Стандартное отклонение
Если вы заметили, значение дисперсии очень большое. Чтобы вернуться к единицам измерения, соответствующих нашим данным используется корень из дисперсии, то есть стандартное отклонение (standard deviation):
Для этого есть функция sd():
Что то же самое, что и:
Медианное абсолютное отклонение
Поскольку стандартное отклонение не устойчово ко всяким выбросам, то иногда используют его альтернативу, которая устойчива к выбросам (особенно если эти выбросы нам как раз и нужно удалить) — медианное абсолютное отклонение (median absolute deviation):
Для этого есть функция mad():
Межквартильный размах
Другой вариант рабостной оценки вариабельности данных является межквартильный размах (interquartile range, IQR). Это разница между третьим и первым квартилем7 — значением, которое больше 75% значений в выборке, и значением, которое больше 25% значений в выборке.
Ну а второй квартиль — это медиана!
Ассиметрия и эксцесс
Ассиметрия (skewness) измеряет симметричность распределения. Положительный показатель ассиметрии (“Right-skewed” или positive skewness) означает, что хвосты с правой части распределения длиннее. Негативный показатель ассиметрии (“Left-skewed” или negative skewness) означает, что левый хвост длиннее.
Например, в психологии положительная ассиметрия встречается очень часто. Например, время реакции: оно ограничено снизу 0 мс (а по факту не меньше 100 мс — быстрее сигнал не успеет по нервной системе пройти до пальцев), а вот с другой стороны оно никак не ограничено. Испытуемый может на полчаса перед монитором затупить, ага.
Эксцесс (kurtosis) — это мера “вытянутости” распределения:
Положительные показатели эксцесса означают “вытянутое” распределение, а отрицательные — “плоское”.
Ассиметрия и эксцесс в R
К сожалению, в базовом R нет функций для ассиметрии и эксцесса. Зато есть замечательный пакет psych (да-да, специально для психологов).
В нем есть функции skew() и kurtosi():
Ассиметрия близка к нулю — значит распределение выборки достаточно симметричное, а эксцесс немного ниже нуля — значит распределение довольно “плоское”.
А теперь все вместе!
В базовом R есть функция summary(), которая позволяет получить сразу неплохой набор описательных статистик.
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 26. 28 41. 51 49. 71 49. 80 56. 58 78
Функция summary() — это универсальная (generic) функция. Это означает, что Вы можете ее применять для разных объектов и получать разные результаты. Попробуйте применить ее к векторам с разными типами данных и даже к дата. фреймам и дата. тейблам. Посмотрите, что получится.
В пакете psych есть еще и замечательная функция describe(), которая даст Вам еще больше статистик, включая ассиметрию и куртозис:
## vars n mean sd median trimmed mad min max range skew
## X1 1 276 49. 8 10. 52 49. 71 49. 57 10. 63 26. 28 78. 44 52. 16 0. 18
## kurtosis se
## X1 -0. 52 0
Даже усеченное (trimmed) среднее есть (с trim = 0. 1)! Все кроме se мы уже знаем. А про этот se узнаем через позже.
Эта функция прекрасно работает в data. table в сочетании с by =:
## stage vars n mean sd median trimmed mad min
## 1: 4 1 94 53. 09709 10. 71781 53. 92334 53. 20437 10. 890666 29. 55510
## 2: 3 1 111 47. 94154 10. 00419 47. 42779 47. 41838 9. 948946 26. 27789
## 3: 2 1 59 48. 52757 10. 22616 48. 75838 48. 34855 10. 975908 30. 27515
## 4: 1 1 12 47. 41182 10. 11477 47. 97673 47. 75359 12. 132762 28. 88433
## max range skew kurtosis se
## 1: 78. 43943 48. 88433 -0. 07684694 -0. 4361883 1. 105458
## 2: 71. 89322 45. 61533 0. 35465904 -0. 3655477 0. 949556
## 3: 75. 01164 44. 73648 0. 19440406 -0. 7000602 1. 331333
## 4: 62. 52156 33. 63723 -0. 06406915 -1. 1025021 2. 919883
Описательных статистик недостаточно
Я в тайне от Вас загрузил данные в переменную xxx (можете найти этот набор данных здесь, если интересно). Выглядят они примерно так:
## x y
## 1: 55. 3846 97. 1795
## 2: 51. 5385 96. 0256
## 3: 46. 1538 94. 4872
## 4: 42. 8205 91. 4103
## 5: 40. 7692 88. 3333
## 6: 38. 7179 84. 8718
Надеюсь, Вы уже понимаете, как это интерпретировать — два столбца с 142 числами каждый. Представьте себе, как выглядят эти точки на плоскости, если каждая строчка означают координаты одной точки по осям x и y (это называется диаграмма рассеяния, точечная диаграмма или scatterplot).
Применим разные функции, которые мы выучили:
Средние и медианы примерно одинаковые, при этом по х они около 53-54, а по у — примерно 46-47. Попытайтесь представить это. Идем дальше:
Похоже, расброс по у несколько больше, верно?
Похоже, оба распределения немного право-ассиметричны и довольно “плоские”.
Давайте еще посчитаем корреляцию. Мы про нее будем говорить позже гораздо подробнее. Пока что нам нужно знать, что она говорит о линейной связи двух переменных. Если корреляция положительная (максимум равен 1), то чем больше х, тем больше у. Если отрицательная (минимум равен -1), то чем больше х, тем меньше у. Если же корреляция равна нулю, то такая линейная зависимость отсутствует.
Корреляция очень близка к нулю (делайте выводы и представляйте).
Давайте напоследок воспользуемся функцией describe() из psych:
## vars n mean sd median trimmed mad min max range skew
## x 1 142 54. 26 16. 77 53. 33 53. 69 15. 97 22. 31 98. 21 75. 90 0. 28
## y 2 142 47. 83 26. 94 46. 03 46. 90 30. 79 2. 95 99. 49 96. 54 0. 25
## kurtosis se
## x -0. 29 1. 41
## y -1. 06 2
Готовы узнать, как выглядят эти данные на самом деле?!
Из этого можно сделать важный вывод: не стоит слепо доверять описательным статистикам. Нужно визуализировать данные, иначе можно попасть в такую ситуацию в реальности. Все следующее занятие будет посвящено визуализации данных.
Описательные статистики
Описательные статистические величины, или статистики, — это числа, которые используются для обобщения и описания данных. В целях демонстрации того, что мы имеем в виду, посмотрим на столбец с данными об электорате Electorate. Он показывает суммарное число зарегистрированных избирателей в каждом избирательном округе:
Мы уже очистили столбец, отфильтровав пустые значения (nan) из набора данных, и поэтому предыдущий пример должен вернуть суммарное число избирательных округов.
Описательные статистики, так называемые сводные статистики, представляют собой разные подходы к измерению свойств последовательностей чисел. Они помогают охарактеризовать последовательность и способны выступать в качестве ориентира для дальнейшего анализа. Начнем с двух самых базовых статистик, которые мы можем вычислить из последовательности чисел — ее среднее значение и дисперсию (варианс).
Наиболее распространенный способ усреднить набор данных — взять его среднее значение. Среднее значение на самом деле представляет собой один из нескольких способов измерения центра распределения данных.
Среднее значение числового ряда вычисляется на Python следующим образом:
def mean(xs):
»’Среднее значение числового ряда»’
return sum(xs) / len(xs)
Мы можем воспользоваться нашей новой функцией mean для вычисления среднего числа избирателей в Великобритании:
На самом деле, библиотека pandas уже содержит функцию mean, которая гораздо эффективнее вычисляет среднее значение последовательности. В нашем случае ее можно применить следующим образом:
Медиана — это еще одна распространенная описательная статистика для измерения центра распределения последовательности. Если Вы упорядочили все данные от меньшего до наибольшего, то медиана — это значение, которое находится ровно по середине. Если в последовательности число точек данных четное, то медиана определяется, как полусумма двух срединных значений.
Медианное значение электората Великобритании составляет:
Библиотека pandas тоже располагает встроенной функцией для вычисления медианного значения, которая так и называется median.
Среднее арифметическое и медиана являются двумя альтернативными способами описания среднего значения последовательности, но сами по себе они мало что говорят о содержащихся в ней значениях. Например, если известно, что среднее последовательности из девяноста девяти значений равно 50, то мы почти ничего не скажем о том, какого рода значения последовательность содержит.
Она может содержать целые числа от одного до девяноста девяти либо сорок девять нулей и пятьдесят девяносто девяток, а может быть и так, что она девяносто восемь раз содержит отрицательную единицу и одно число 5048, или же вообще все значения могут быть равны 50.
Дисперсия (варианс) последовательности чисел показывает «разброс» данных вокруг среднего значения. К примеру, данные, приведенные выше, имели бы разную дисперсию. На языке математики дисперсия обозначается следующим образом:
где s2 — это математический символ, который часто используют для обозначения дисперсии.
def variance(xs):
»’Дисперсия (варианс) числового ряда,
несмещенная дисперсия при n <= 30»’
mu = mean(xs)
n = len(xs)
n = n-1 if n in range(1, 30) else n
square_deviation = lambda x : (x — mu) ** 2
return sum( map(square_deviation, xs) ) / n
Для вычисления квадрата выражения используется оператор языка Python возведения в степень **.
Поскольку мы взяли средний квадрат отклонения, т. получили квадрат отклонения и затем его среднее, то единицы измерения дисперсии (варианса) тоже будут в квадрате, т. дисперсия электората Великобритании будет измеряться «людьми в квадрате». Несколько неестественно рассуждать об избирателях в таком виде. Единицу измерения можно привести к более естественному виду, снова обозначающему «людей», путем извлечения квадратного корня из дисперсии (варианса). В результате получим так называемое стандартное отклонение, или среднеквадратичное отклонение:
В библиотеке pandas функции для вычисления дисперсии (варианса) и стандартного отклонения имплементированы соответственно, как var и std. При этом последняя по умолчанию вычисляет несмещенное значение, поэтому, чтобы получить тот же самый результат, нужно применить именованный аргумент ddof=0, который сообщает, что требуется вычислить смещенное значение стандартного отклонения:
Медиана представляет собой один из способов вычислить срединное значение из списка, т. находящееся ровно по середине, дисперсия же предоставляет способ измерить разброс данных вокруг среднего значения. Если весь разброс данных представить на шкале от 0 до 1, то значение 0. 5 будет медианным.
Для примера рассмотрим следующую ниже последовательность чисел:
Отсортированная последовательность состоит из семи чисел, поэтому медианой является число 21 четвертое в ряду. Его также называют 0. 5-квантилем. Мы можем получить более полную картину последовательности чисел, взглянув на 0. 0 (нулевой), 0. 25, 0. 5, 0. 75 и 1. 0 квантили. Все вместе эти цифры не только показывают медиану, но также обобщают диапазон данных и сообщат о характере распределения чисел внутри него. Они иногда упоминаются в связи с пятичисловой сводкой.
Один из способов составления пятичисловой сводки для данных об электорате Великобритании показан ниже. Квантили можно вычислить непосредственно в pandas при помощи функции quantile. Последовательность требующихся квантилей передается в виде списка.
00 21780. 00
0. 25 65929. 25
0. 50 70813. 50
0. 75 74948. 50
1. 00 109922. 00
Name: Electorate, dtype: float64
Когда квантили делят диапазон на четыре равных диапазона, как показано выше, то они называются квартилями. Разница между нижним (0. 25) и верхним (0. 75) квартилями называется межквартильным размахом, или иногда сокращенно МКР. Аналогично дисперсии (варианса) вокруг среднего значения, межквартильный размах измеряет разброс данных вокруг медианы.
Мода — это значение, которое встречается наиболее часто в наборе данных; если данные непрерывные, то мы обычно группируем их и вычисляем модальную группу.
Некоторые наборы данных не имеют моды, потому что каждое значение встречается только 1 раз. Иногда бывает более одной моды; это происходит тогда, когда 2 значения или больше встречаются одинаковое число раз и встречаемость каждого из этих значений больше, чем любого другого значения.
Как обобщающую характеристику моду используют редко.
Медиана
Если упорядочить данные по величине, начиная с самой маленькой величины и заканчивая самой большой, то медиана также будет характеристикой усреднения в упорядоченном наборе данных.
Медиана делит ряд упорядоченных значений пополам с равным числом этих значений как выше, так и ниже ее (левее и правее медианы на числовой оси).
Вычислить медиану легко, если число наблюдений n нечетное. Это будет наблюдение номер (n + 1)/2 в нашем упорядоченном наборе данных.
Например, если n = 11, то медиана — это (11 + 1)/2, т. 6-е наблюдение в упорядоченном наборе данных.
Если n четное, то, строго говоря, медианы нет. Однако обычно мы вычисляем ее как среднее арифметическое двух соседних средних наблюдений в упорядоченном наборе данных (т. наблюдений номер (n/2) и (n/2 + 1)).
Так, например, если n = 20, то медиана — это среднее арифметическое наблюдений номер 20/2 = 10 и (20/2 + 1) = 11 в упорядоченном наборе данных.
Нормальное распределение
Гистограмма дает приблизительное представление о том, каким образом данные распределены по всему диапазону, и является визуальным средством, которое позволяет квалифицировать данные как относящиеся к одному из немногих популярных распределений. В анализе данных многие распределения встречаются часто, но ни одно не встречается также часто, как нормальное распределение, именуемое также гауссовым распределением.
Распределение названо нормальным распределением из-за того, что оно очень часто встречается в природе. Галилей заметил, что ошибки в его астрономических измерениях подчинялись распределению, где малые отклонения от среднего значения встречались чаще, чем большие. Вклад великого математика Гаусса в описание математической формы этих ошибок привел к тому, что это распределение стали называть в его честь распределением Гаусса.
Любое распределение похоже на алгоритм сжатия: оно позволяет очень эффективно резюмировать потенциально большой объем данных. Нормальное распределение требует только два параметра, исходя из которых можно аппроксимировать остальные данные. Это среднее значение и стандартное отклонение.
Среднее геометрическое
При несимметричном распределении данных среднее арифметическое не будет обобщающим показателем распределения.
Если данные скошены вправо, то можно создать более симметричное распределение, если взять логарифм (по основанию 10 или по основанию е) каждого значения переменной в наборе данных. Среднее арифметическое значений этих логарифмов — характеристика распределения для преобразованных данных.
Чтобы получить меру с теми же единицами измерения, что и первоначальные наблюдения, нужно осуществить обратное преобразование — потенцирование (т. взять антилогарифм) средней логарифмированных данных; мы называем такую величину среднее геометрическое.
Если распределение данных логарифма приблизительно симметричное, то среднее геометрическое подобно медиане и меньше, чем среднее необработанных данных.
Статистика помогает ответить на вопросы, подобные этим
- Какие из признаков наиболее важны?
- Как проектировать эксперимент, чтобы разработать стратегию продукта?
- Какие показатели производительности мы должны измерять?
- Какой самый распространенный и ожидаемый результат?
- Как отличить шум от достоверных данных?
Это важные и общие вопросы, на которые ежедневно приходится отвечать работающим с данными командами. Ответы на эти вопросы помогают эффективно принимать решения. Статистические методы помогают нам не только настраивать проекты прогнозного моделирования, но и интерпретировать результаты.
Для примера мы возьмем массу супергероев, предварительно удалив из нее все NA для удобства.
weight <- heroes %>%
Мода (mode) — это самое частое значение. Обычно используется для номинальных переменных, для континуальных данных мода неприменима. Что интересно, в R нет встроенной функции для подсчета моды. Обычно она и не нужна: мы можем посчитать таблицу частот и даже проранжировать ее (и мы уже умеем это делать разными способами).
count(Gender, sort = TRUE)
Можете попробовать написать свою функцию для моды!