Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?
Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное. Обсудить Базовой компетенцией специалиста по Data Science является его способность анализировать и интерпретировать данные, а математика – фундамент любой научной дисциплины. Почти все методы современной науки о данных, включая машинное обучение, имеют серьезную математическую основу. Глубокое понимание стоящего за алгоритмами научного аппарата обеспечит вам преимущества на рынке труда. Часто новички не могут перейти к перечисленным ниже дисциплинам из-за слабой базовой подготовки. 5 января «Библиотека программиста» запускает онлайн-марафон по школьной математике для Data Science. За 10 дней квалифицированные преподаватели помогут вам восполнить пробелы в знаниях. Во вступительных публикациях серии мы писали о том, как можно изучить Data Science онлайн с нуля, а также рассказали историю Тима Хоппера – математика, который построил карьеру аналитика данных. Сегодня речь пойдет о необходимых специалисту по Data Science математических знаниях и способах их получить. Источник Дифференциальное и интегральное исчисление лежат в основе Data Science и машинного обучения. Они скрывается за простым на вид аналитическим решением обычной задачи наименьших квадратов в линейной регрессии или встроены в каждое обратное распространение, которое ваша нейронная сеть делает, чтобы узнать новый паттерн. Это ценные разделы, которые стоит добавить в свой набор навыков. Темы для изучения: Если вы когда-нибудь задумывались, как работает логистическая регрессия, то вам понадобятся знания о градиентном спуске (с англ. gradient descent) и понятия из исчисления: производные, пределы и цепное правило. Это важный раздел математики для понимания того, как алгоритмы машинного обучения работают с потоком данных для создания представления. Все алгоритмы, лежащие в основе рекомендательных систем и распознавания изображений, включают в себя матрицы и матричную алгебру. Главные темы для изучения в данном разделе: Все нейросетевые алгоритмы применяют методы линейной алгебры для представления и обработки сетевых структур и операций обучения, а также для уменьшения размерности набора данных с наименьшим количеством параметров. Эта область математики включает все основы для Data Scientist, от уравнения прямой до биномиальной теоремы, а также: Если вы хотите понять, как выполнить поиск из миллиона элементов после сортировки в базе данных быстрее, вы столкнетесь с понятием двоичный поиск (с англ. binary search). Чтобы понять его динамику, вам необходимо знать как устроены логарифмы и рекуррентные уравнения. Или, например, если вы хотите проанализировать временной ряд, вы можете столкнуться с такими понятиями, как периодические функции и экспоненциальный распад. Источник Для Data Scientists важно понимание основных понятий статистики и теории вероятностей. Многие специалисты в этой области считают классическое (не нейронное сетевое) машинное обучение ничем иным, как статистическим обучением. Данная тема очень обширна, поэтому обратите внимание на наиболее важные концепции: В интервью и на практике. Если сможете показать, что освоили эти понятия, вы быстро произведете хорошее впечатление, так как вам предстоит использовать их почти каждый день на этапе обработки и анализа данных. Эта область математики не так часто обсуждается, но вся современная наука о данных использует вычислительные системы, и дискретная математика лежит в их основе. Повышение квалификации по дискретной математике будет включать в себя концепции, критически важные для применения алгоритмов и структур данных в аналитическом проекте: В анализе социальных сетей необходимо знать свойства графа, быстрый алгоритм поиска и обхода сети. Эти темы наиболее актуальны в специализированных областях, таких как теоретическая информатика, теория управления или исследование операций. Базовое понимание этих мощных методов также может быть полезным и в практике машинного обучения. Почти каждый алгоритм стремится минимизировать ошибку оценки с учетом различных ограничений, что является проблемой оптимизации. Темы для изучения: Простые задачи линейной регрессии с использованием функции наименьших квадратов потерь имеют точное аналитическое решение, но не задачи логистической регрессии. Для их решения необходимо понимать, как работает выпуклость в оптимизации. Источник Освоить теорию по учебникам не так просто, часто для наработки математического базиса начинающие специалисты по анализу данных прибегают к помощи опытных преподавателей. В наше время это можно сделать не выходя из дома. *** Пытающиеся освоить профессию аналитика данных с нуля часто сталкиваются с нехваткой базовой математической подготовки. Школьные формулы не особенно нужны в Data Science, но без знания азов невозможно понять содержание продвинутых курсов по анализу, теории вероятностей, статистике и другим важным дисциплинам. С 5 января «Библиотека программиста» запускает онлайн-марафон по школьной математике для Data Science. Квалифицированные преподаватели помогут слушателям курса получить простые знания, без которых нельзя освоить сложные. Записаться на десятидневный марафон можно на нашем сайте. Интересно, хочу попробоватьКлассический математический анализ
Где применяется?
Линейная алгебра
Где применяется?
Функции, переменные, уравнения и графики
Где применяются?
Статистика
Где применяется?
Дискретная математика
Где применяется?
Исследование операций
Где применяется?
Курсы
Статистика
Анализ
Математика с Python и R
Видеолекции
Лекции онлайн-курса по математике в Data Science от Proglib
Линейная алгебра для начинающих с примерами
Какая математика нужна для Data Science? Интервью с преподавателями МГУ
Комбинаторика для начинающих с примерами
Какая математика нужна в анализе данных? Для обучения нейронной сети?
Mathematics for Machine Learning | Mathematics for Data Science by Intellipaat
Statistics And Probability Tutorial | Statistics And Probability for Data Science by Edureka
Книги
Essential Math for Data Science: Take Control of Your Data with Fundamental Calculus, Linear Algebra, Probability, and Statistics by Hadrien Jean
Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (второе издание на английском) by Peter C. Bruce, Andrew Bruce, Peter Gedeck
Практическая статистика для специалистов Data Science (первое издание на русском языке) от Брюса Эндрю и Брюса Питер
Mathematics for Machine Learning by A. Aldo Faisal, Cheng Soon Ong, and Marc Peter Deisenroth
Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd Edition by John Kruschke
- 0 views
- 0 Comment
Свежие комментарии