Share This
Связаться со мной
Крути в низ
Categories
//📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Попробуем простыми словами объяснить ключевые для Data Scientist концепции из статистики, а также расскажем про книги, курсы и видеолекции, которые помогут их изучить. Обсудить

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki e3e98ee - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Статистика – это использование математики (прежде всего теории вероятностей) для выполнения технического анализа данных. Понимание основных ее концепций поможет Data Scientist формировать конкретные выводы, а не просто строить догадки.

Во вступительных публикациях серии мы писали о том, какие знания по математике нужны специалисту по анализу данных. Углубляя тему, расскажем об 11 важнейших концепциях из статистики, без которых не может обойтись ни один Data Scientist.

Случайная величина

Случайная величина – это переменная, значения которой определяются случайным экспериментом. Случайные величины используются в качестве модели для процессов генерации данных, которые мы хотим исследовать.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki d934574 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Пример того, как случайная величина является функцией от всех возможных исходов к реальным значениям. Источник

Свойства данных тесно связаны с соответствующими свойствами случайных величин, вроде ожидаемого значения, дисперсии и корреляции. Зависимости между случайными величинами являются решающим фактором, позволяющим прогнозировать неизвестные значения на основе известных – на этом основано контролируемое машинное обучение.

P-value

P-value – это мера вероятности значения, которое принимает случайная величина. Предположим, что у нас есть случайная величина A и значение x. P-value значения x – вероятность того, что A принимает это или любое другое значение, которое имеет тот же или меньший шанс быть наблюдаемым. На практике если значение Р меньше альфа (скажем, 0,05), мы говорим, что вероятность того, что результат мог произойти случайно, составляет менее 5%.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki df51335 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

P-value используется при оценке того, насколько несовместимы данные с построенной статистической моделью, но необходимо также учитывать контекстуальные факторы, вроде дизайна исследования, качества измерений, внешних доказательств изучаемого явления и обоснованности предположений, лежащих в основе анализа данных.

Нормальное распределение

Нормальное распределение также известно как распределение Гаусса, которое определяется его средним значением и стандартным отклонением. Среднее смещает распределение пространственно, где стандартное отклонение управляет спредом. Мы знаем среднее значение набора данных и разброс данных с гауссовым распределением.

Распределение Пуассона такое же, как и нормальное, но с добавлением асимметрии. Оно имеет относительно равномерный разброс во всех направлениях, как и нормальный во время малозначимой асимметрии. При высоком значении асимметрии разброс данных будет различным в разных направлениях.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki e4cc868 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Пример нормального распределения оценок. Источник

Существует множество распределений, которые помогают интерпретировать категориальные данные с равномерным распределением. Распределения вероятностей помогает вычислить доверительные интервалы для параметров и критические области для проверки гипотез. Для одномерных данных полезно определить подходящую модель распределения данных. Статистические интервалы и проверка гипотез также зависят от предположений о распределении переменных.

Меры центральной тенденции

Центральная тенденция – это центральное (или типичное) значение распределения вероятностей. Наиболее распространенными показателями центральной тенденции являются среднее, медиана и мода.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki dd75077 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

Среднее (mean) – это среднее значение последовательных значений.

Медиана (median) – это значение в середине, когда значения сортируются в порядке возрастания или убывания.

Мода (mode) – это значение, которое появляется чаще всего.

Снижение размерности

Термин уменьшение размерности интуитивно понятен. У нас есть набор данных, и мы хотели бы уменьшить количество измерений. В науке о данных это число переменных признаков.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 54aa73a - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

Наиболее распространенным статистическим методом, используемым для уменьшения размерности, является метод главных компонент (с англ. Principal component analysis, PCA), который создает векторные представления объектов, показывающие, насколько они важны для вывода (их корреляцию). Метод главных компонент или PCA можно использовать для выполнения уменьшения размерности данных с наименьшей потерей информации.

Дисперсия и стандартное отклонение

Дисперсия – это мера вариации между значениями. Она рассчитывается путем сложения квадратов разностей каждого значения и среднего значения, а затем деления суммы на количество выборок.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 4e2d985 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Пример выборок из двух популяций с одинаковым средним значением, но разными дисперсиями. Красное население имеет среднее и дисперсию равные 100 (SD=10), голубое население имеет среднее 100 и дисперсию равную 2500 (SD=50). Источник

Стандартное отклонение (с англ. standard deviation, SD) – это мера того, насколько разбросаны значения. Если быть более точным, это квадратный корень из дисперсии.

Среднее, медиана, мода, дисперсия и стандартное отклонение – это основные статистические показатели, которые используются для описания переменных на начальном этапе работы с данными.

Ковариации и корреляции

Ковариация – это количественная мера, которая представляет, насколько вариации двух переменных соответствуют друг другу. Чтобы быть более конкретным, ковариация сравнивает две переменные с точки зрения отклонений от их среднего (или ожидаемого) значения. Ковариация переменной с самой собой – это дисперсия переменной.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 15d1871 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Пример визуализации ковариации переменных. Источник

Корреляция – это нормализация ковариации на стандартное отклонение каждой переменной. Эта нормализация отменяет единицы измерения, и значение корреляции всегда находится между 0 и 1. Обратите внимание, что это абсолютное значение. В случае отрицательной корреляции между двумя переменными, корреляция находится между 0 и -1. Если мы сравниваем отношения между тремя или более переменными, лучше использовать корреляцию, потому что диапазоны значений или единицы измерения могут вызвать ложные предположения.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki aa3b7fd - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Пример корреляции в исследовании рака кожи и географической широтой штатов. Источник

Центральная предельная теорема

Во многих областях, включая естественные и социальные науки, когда распределение случайной величины неизвестно, используется нормальное распределение. Центральная предельная теорема (с англ. Central limit theorem, CLT) обосновывает, почему в таких случаях можно использовать нормальное распределение. Согласно CLT, по мере того как мы берем больше выборок из распределения, средние значения выборок будут стремиться к нормальному распределению независимо от распределения населения.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 5ee9160 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

Возьмем выборку из набора данных и вычислим среднее ее значение. После многократного повторения вы нанесете средние значения и их частоты на график и увидите, что была создана колоколообразная кривая, также известная как нормальное распределение. Среднее значение этого распределения будет очень похоже на исходные данные. Вы можете повысить точность среднего значения и уменьшить стандартное отклонение, взяв большие выборки данных и больше выборок в целом.

Линейная и логистическая регрессии

Линейная регрессия является одним из наиболее фундаментальных алгоритмов, используемых для моделирования отношений между зависимой переменной и одной или несколькими независимыми переменными. Данный алгоритм включает в себя поиск линии наилучшего соответствия, представляющей две или более переменных.

Линия наилучшего соответствия находится путем минимизации квадратов расстояний между точками и линией наилучшего соответствия – это известно как минимизация суммы квадратов остатков. Остаток равен прогнозируемому значению минус фактическое значение.

Логистическая регрессия аналогична линейной регрессии, но используется для моделирования вероятности дискретного числа исходов, обычно двух.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki d03e5a9 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

Условная вероятность

Условная вероятность – это вероятность того, что событие произойдет, и всегда принимает значение от 0 до 1 включительно. Вероятность события A обозначается как p(A) и вычисляется как число желаемого результата, деленное на число всех исходов. Например, когда вы бросаете кубик, вероятность получить число меньше четырех равна 2/3. Это значит, если нам известно, что это нечетное число, то в двух из трех случаев сумма кубиков будет меньше четырех.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki d527d00 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

Условная вероятность – это вероятность того, что событие A произойдет при условии, что другое событие, которое уже произошло, имеет отношение к событию A.

Теорема Байеса

Теорема Байеса – это условное вероятностное утверждение. По существу она рассматривает вероятность того, что одно событие (B) произойдет, учитывая, что другое событие (A) уже произошло.

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 6c0219e - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Источник

Это один из самых популярных алгоритмов машинного обучения. Наивный байесовский классификатор, построен на этих двух концепциях. Кроме того если вы заинтересованы в области онлайн-машинного обучения, вы, скорее всего, будете использовать байесовские методы.

***

Подробнее об этих и других концепциях статистики вы сможете узнать из нашей подборки курсов, видеолекций и книг.

Курсы

На русском

  • Основы статистики
  • Просто о статистике (с использованием R)
  • Машинное обучение: от статистики до нейросетей
  • Математическая статистика и А/В тестирование

На английском

  • Intro to Descriptive Statistics
  • Basic Statistics
  • Bayesian Statistics: From Concept to Data Analysis
  • Probability Theory, Statistics and Exploratory Data Analysis

Видеолекции

Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka

Statistics and Probability Full Course || Statistics For Data Science

Statistics – A Full University Course on Data Science Basics

Анализ данных на Python в примерах и задачах

Книги

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 0611272 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

An Introduction to Statistical Learning: With Applications in R by Gareth M. James, Daniela Witten, Trevor Hastie, Robert Tibshirani

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 0b302f2 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Think Stats by Allen B. Downey

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 800aef8 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki ec7b4a7 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

Искусство статистики. Как находить ответы в данных от Дэвида Шпигельхалтер

obuchenie data science 11 neobhodimyh specialistu po analizu dannyh koncepcij iz statistiki 3528113 - 📊 Обучение Data Science: 11 необходимых специалисту по анализу данных концепций из статистики

***

Используя статистику, мы можем получить глубокое представление о структурировании данных. Это позволяет оптимально применять методы Data Science, чтобы добыть еще больше ценной информации, на которой будут основаны наши решения.

  • 1 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    Roman Spiridonov
    Roman Spiridonov

    Привет ! Мне 38 лет, я работаю в области информационных технологий более 4 лет. Тут собрано самое интересное.

    Our Instagram 04.

    Categories 05.

    © Speccy 2020 / All rights reserved

    Связаться со мной
    Close