Share This
Связаться со мной
Крути в низ
Categories
//5 незаменимых функций Pandas для Data Science

5 незаменимых функций Pandas для Data Science

18.07.2021Category : Python

Перевод статьи «5 Must-Know Pandas Functions for Data Science».

Каждый проект из области data science начинается с анализа данных. Когда мы говорим об анализе данных, невозможно не упомянуть pandas – библиотеку Python, также известную как Panel Data Analysis.

В этой статье я поделюсь с вами важными функциями pandas, которые помогают осуществлять различные операции над датасетами.

Я буду работать с датасетом от Kaggle для предсказания цен на недвижимость. Скачать его можно здесь.

Сперва изучим наши данные.

import pandas as pd df = pd.read_csv("House data.csv")

Вид датасета следующий. 

5 nezamenimyh funkcij pandas dlja data science 1e14fcf - 5 незаменимых функций Pandas для Data Science

Так как это данные для предсказания цен на недвижимость, здесь учитывается количество комнат, ванные, этажность и другие факторы, способные повлиять на цену дома с различными особенностями.

Применим к этим данным некоторые функции pandas.

1. count()

Скажем, вам нужно быстро проверить, есть ли в таблице значения NaN. В этом случае мы можем воспользоваться функцией count() , которая посчитает количество ячеек, содержащих какое-либо число.

df.count()

5 nezamenimyh funkcij pandas dlja data science d0202ed - 5 незаменимых функций Pandas для Data Science

Отличные новости: в нашем датасете нет NaN. Поэтому поместим значение NaN в одну ячейку и посмотрим, что изменится.

df.at[0,'price']= np.nan

5 nezamenimyh funkcij pandas dlja data science a9481a5 - 5 незаменимых функций Pandas для Data Science

Теперь, если я вызову count(), получу следующий результат:

5 nezamenimyh funkcij pandas dlja data science 402c1b8 - 5 незаменимых функций Pandas для Data Science5 nezamenimyh funkcij pandas dlja data science 41b0fb3 - 5 незаменимых функций Pandas для Data Science

Кодинг-марафон по Python

Реши 10 задач и выиграй 5500 рублей

Подписаться ×

2. idxmin() и idxmax()

Эти функции возвращают индекс строки, удовлетворяющей определённому условию.

Скажем, нам нужно посмотреть подробную информацию о доме с наименьшей ценой. Существует множество способов сделать это с помощью других методов. Но функции idxmin() и idxmax() наиболее эффективны.

df.loc[df['price'].idxmin()]

Запустив этот код, я получу данные о жилье с минимальной ценой:

5 nezamenimyh funkcij pandas dlja data science 8c7a16a - 5 незаменимых функций Pandas для Data Science

Это будет трёхкомнатная квартира в Федерал-Уэй с ценой 0.

Очевидно, что в данных ошибка, ведь мы тренируемся на open-source датасете. Но, думаю, суть вы уловили:) То же самое можно проделать с idxmax() , чтобы найти дом с наибольшей ценой.

5 nezamenimyh funkcij pandas dlja data science 4f6d5d8 - 5 незаменимых функций Pandas для Data Science

Но что, если домов с минимальной/максимальной ценой окажется несколько? В этом случае функции возвращают первое вхождение. Далее в статье мы разберём и такой случай.

3. cut()

Допустим, у нас есть непрерывная переменная. Но, например, в рамках вашей задачи эту переменную необходимо рассматривать как категориальную.

Функция cut() поможет вам привести непрерывную переменную к виду дискретной, разбив весь диапазон значений на интервалы.

В нашем случае я хочу создать набор ценовых данных, поскольку значение цены колеблется от 0 до 26590000. Если я сгруппирую данные, с ними будет проще работать.

pd.cut(df["price"], 4)

5 nezamenimyh funkcij pandas dlja data science 2a6c69a - 5 незаменимых функций Pandas для Data Science

Каждому интервалу можно также дать название.

5 nezamenimyh funkcij pandas dlja data science c5d2b2a - 5 незаменимых функций Pandas для Data Science

Неплохо! Можно заменить соответствующую колонку ценой в новом формате или же добавить новый столбец.

4. pivot_table()

Если вы работали в excel, вы точно использовали эту функцию.

Допустим, нам нужно найти среднюю цену дома в каждом городе, основываясь на количестве комнат.

df.pivot_table(index="city" , columns="bedrooms" ,values="price" , aggfunc="mean")

5 nezamenimyh funkcij pandas dlja data science 8349a86 - 5 незаменимых функций Pandas для Data Science

Здесь вы можете заметить NaN, так как не в каждом городе есть двухкомнатные квартиры – также особенность нашего датасета.

5. nsmallest() и nlargest()

Мы уже научились использовать idxmin() и idxmax(), чтобы находить определённые значения. А что, если нужно найти три позиции с наибольшей ценой? Тут-то нам и пригодятся функции nsmallest() и nlargest().

df.nlargest(3, "price")[["city","price"]]

5 nezamenimyh funkcij pandas dlja data science d83405d - 5 незаменимых функций Pandas для Data Science

df.nsmallest(3, "price")[["city","price"]]

5 nezamenimyh funkcij pandas dlja data science d37d20a - 5 незаменимых функций Pandas для Data Science

Замечательно! Теперь мы нашли три города, в которых есть дома с нулевой ценой:)

Заключение

Итак, мы познакомились с функциями pandas, которые станут отличными помощниками в решении ваших повседневных задач в области Data Science.

Надеюсь, статья вам понравилась. Спасибо за внимание!

5 nezamenimyh funkcij pandas dlja data science b2cef84 - 5 незаменимых функций Pandas для Data Science

Кодинг-марафон по Python

Реши 10 задач и выиграй 5500 рублей

Подписаться ×

  • 7 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    blank
    Roman Spiridonov

    Моя специальность - Back-end Developer, Software Engineer Python. Мне 39 лет, я работаю в области информационных технологий более 5 лет. Опыт программирования на Python более 3 лет. На Django более 2 лет.

    Categories 05.

    © Speccy 2022 / All rights reserved

    Связаться со мной
    Close