Share This
Связаться со мной
Крути в низ
Categories
//Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное. Обсудить

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh 83496ee - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика – фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда.

Часто новички не могут перейти к перечисленным ниже дисциплинам из-за слабой базовой подготовки. 5 января «Библиотека программиста» запускает онлайн-марафон по школьной математике для Data Science. За 10 дней квалифицированные преподаватели помогут вам восполнить пробелы в знаниях.

Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера – математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых специалисту по Data Science математических знаниях и способах их получить.

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh 80e898a - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Источник

Классический математический анализ

Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения:

  • Функции одной переменной, пределы, лимиты, дифференцируемость;
  • Теоремы о средних значениях, неопределенные формы, теорема Лопиталя;
  • Максимумы и минимумы;
  • Правило продукта и цепочки;
  • Ряд Тейлора, концепции суммирования бесконечных рядов/интегрирования;
  • Фундаментальные и средние значения, теоремы интегрального исчисления, оценка определенных и неправильных интегралов;
  • Бета-и гамма-функции;
  • Функции множественных переменных, предел, непрерывность, частные производные;
  • Основы обыкновенных и дифференциальных уравнений в частных производных.

Где применяется?

Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило.

Линейная алгебра

Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе:

  • Основные свойства матриц и векторов: скалярное умножение, линейное преобразование, транспонирование, сопряженность, ранг, детерминант;
  • Внутренние и внешние произведения, правило умножения матриц и различные алгоритмы, обратные матрицы;
  • Специальные матрицы: квадратная, единичная и треугольная матрицы, представление о разреженной и плотной матрице, единичные векторы, симметричная матрица, Эрмитова матрица, Антиэрмитова и унитарная матрицы;
  • Концепция матричного факторизации, LU-разложение, Метод Гаусса, решение линейной системы уравнений Ax=b;
  • Векторное пространство, базис, промежуток, ортогональность, ортонормированность, линейный наименьший квадрат;
  • Собственный вектор, диагонализация, сингулярное разложение.

Где применяется?

Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров.

Функции, переменные, уравнения и графики

Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также:

  • Логарифм, экспоненциальные, полиномиальные функции, рациональные числа;
  • Основы геометрии и теоремы, тригонометрические тождества;
  • Вещественные и комплексные числа (с англ. real and complex numbers), основные свойства;
  • Ряды, суммы, неравенства;
  • Построение графиков, декартовых и полярных координат, конических сечений.

Где применяются?

Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search). Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад.

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh 30dd64d - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Источник

Статистика

Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции:

  • Обобщение данных и описательная статистика, центральная тенденция, дисперсия, ковариация, корреляция;
  • Базовая вероятность: основная идея, математическое ожидание, вероятностное исчисление, теорема Байеса, условная вероятность;
  • Функции распределения вероятностей: равномерные, нормальные, биномиальные, хи-квадрат, t-распределение Стьюдента, центральная предельная теорема;
  • Выборка, измерение, погрешность, генерация случайных чисел;
  • Проверка гипотез, A/B testing, доверительные интервалы, p-values;
  • ANOVA, t-тест;
  • Линейная регрессия, регуляризация.

Где применяется?

В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных.

Дискретная математика

Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте:

  • Наборы, подмножества, наборы мощности;
  • Счетные функции, комбинаторика, счетность;
  • Основные методы доказательства: индукция, доказательство противоречием;
  • Основы индуктивной, дедуктивной и пропозициональной логики;
  • Основные структуры данных: стеки, очереди, графики, массивы, хэш-таблицы, деревья;
  • Свойства графа: связные компоненты, степень, концепции максимального потока/минимального разреза, раскраска графа;
  • Рекуррентные соотношения и уравнения;
  • Функция роста.

Где применяется?

В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети.

Исследование операций

Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения:

  • Основы оптимизации и как сформулировать задачу;
  • Максимумы, минимумы, выпуклая функция, глобальное решение;
  • Линейное программирование, Симплекс-метод;
  • Целочисленное программирование;
  • Программирование в ограничениях, задача о рюкзаке (с англ. knapsack problem);
  • Рандомизированные методы оптимизации.

Где применяется?

Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации.

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh 392db2c - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Источник

Курсы

Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома.

Статистика

  1. Основы статистики
  2. Intro to Descriptive Statistics (англ.)
  3. Basic Statistics (англ.)
  4. Bayesian Statistics: From Concept to Data Analysis (англ.)
  5. Probability Theory, Statistics and Exploratory Data Analysis (англ.)

Анализ

  1. Введение в математический анализ
  2. Data Science Math Skills (англ.)
  3. Mathematics for Data Science (англ.)
  4. Data Science Math Skills (англ.)
  5. Mathematics for Machine Learning: Linear Algebra (англ.)

Математика с Python и R

  1. Практикум по математике и Python
  2. Introduction to Probability and Data with R (англ.)

Видеолекции

Лекции онлайн-курса по математике в Data Science от Proglib

Линейная алгебра для начинающих с примерами

Какая математика нужна для Data Science? Интервью с преподавателями МГУ

Комбинаторика для начинающих с примерами

Какая математика нужна в анализе данных? Для обучения нейронной сети?

Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat

Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka

Книги

Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh e35c962 - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh d898c9a - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh a62f834 - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh 181ebb3 - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke

obuchenie data science kakie znanija po matematike nuzhny specialistu po analizu dannyh 29ae26b - Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

***

Пытающиеся освоить профессию аналитика данных с нуля часто сталкиваются с нехваткой базовой математической подготовки. Школьные формулы не особенно нужны в Data Science, но без знания азов невозможно понять содержание продвинутых курсов по анализу, теории вероятностей, статистике и другим важным дисциплинам. С 5 января «Библиотека программиста» запускает онлайн-марафон по школьной математике для Data Science. Квалифицированные преподаватели помогут слушателям курса получить простые знания, без которых нельзя освоить сложные.

Записаться на десятидневный марафон можно на нашем сайте.

Интересно, хочу попробовать

  • 7 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Связаться со мной
Close