📊 ТОП-30 ресурсов с данными для машинного обучения
Kaggle expert⚛️ Пишу материал о различных алгоритмах и техниках в сфере Machine Learning. Сбор данных (Data collection) является техникой профессионалов, а готовые данные в интернете часто ограничены авторскими правами. В этом материале мы расскажем о некоторых ресурсах с предобработанной «датой», которую вы можете использовать в своей работе. Если вы когда-нибудь проходили курсы или хакатоны, связанные с наукой о данных, вы наверняка сталкивались с Kaggle. Это сообщество специалистов по Data Science. Изначально оно было соревновательной платформой, однако со временем на Kaggle появились другие разделы, в том числе возможность делиться данными. Каталог, о котором редко упоминают – Data world. По способу поиска он похож на поисковик Google. Разница в том, что глубина поиска больше, например, он включает в себя подфайлы, которые могут содержать нужные данные. Это особенно важно при поиске вторичных данных. Еще один репозиторий с сотнями наборов данных предлагает Калифорнийский университет. Данные в UCI классифицируется по типу задач машинного обучения. Можно найти данные для одномерных и многомерных временных рядов, классификации, регрессии или рекомендательных систем. Некоторые наборы данных в UCI уже очищены и готовы к использованию. Датасеты общего назначения можно использовать в простых Pet-проектах. Для анализа (EDA) или прогнозирования на их основе не нужны углубленные знания Data Science. Например, вы можете использовать простые техники машинного обучения, не углубляясь в Deep Learning. В этом разделе мы расскажем о датасетах, которые являются «классикой» машинного обучения. Этот портал позволяет загружать данные из различных государственных учреждений США – от бюджетов организаций до документов школ. Спектр тем настолько широк, что делает этот ресурс идеальным для применения в разных сферах вашей деятельности, связанной с датой. При поиске открытых данных на сайте data.gov пользователи могут применять дополнительные фильтры по категориям: темы, тип набора данных, местоположение, теги, формат файла, организации и т. д. Данные с этого сайта можно использовать без заключения договора с Министерством здравоохранения РФ. Данные находится в открытом доступе. Информацию можно копировать, публиковать, распространять, видоизменять и объединять с другой информацией, использовать в некоммерческих и коммерческих целях. Этот ресурс предоставляет информацию о данных на тех же условиях, что и Министерство здравоохранения РФ. Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а» Интересно, перейти к каналу Среднемесячные цены на жилье (£) для графства Линкольншир (Англия, UK) и округов. Все цифры включают сделки с недвижимостью от 10 000 фунтов стерлингов до более чем 1 млн. Данные отфильтрованы по типам домов. Набор данных обновляется ежемесячно за 12-месячный период. Этот набор данных состоит из нескольких датасетов: В этом датасете используется мерка ZHVI – Zillow Home Values Index. Существует ZHVI верхнего уровня (стоимость домов в диапазоне от 65-го до 95-го процентиля для данного региона) и ZHVI нижнего уровня (стоимость домов в диапазоне от 5-го до 35-го процентиля для данного региона). Zillow также публикует ZHVI для всех типов домов и апартаментов, учитывая стоимость, количество спален и метраж. Индекс рассчитывается в долларах путем вычисления среднего значения объявленной арендной платы, которая попадает в диапазон от 40-го до 60-го процентиля для всех домов и квартир в данном регионе. Подробную информацию можно найти в методологии ZORI. Экспертная группа Всемирного банка создала глобальную базу данных инфляции, которая охватывает 196 стран за период с 1970 до 2021 гг. Она включает шесть показателей инфляции с тремя частотами – годовая, квартальная и месячная: Кроме того, база данных представляет совокупную инфляцию по странам мира, странам с развитой экономикой, странам с формирующимся рынком и развивающимся странам, а также показатели мировых цен на сырьевые товары. Производная от общей численности населения. Данные можно загрузить в формате Данные Всемирного банка и файлы данных национальных счетов ОЭСР (Организация экономического сотрудничества и развития). В сфере Deep Learning данные, в большинстве случаев, выражены не табличной датой, а изображениями, видео или текстом. В настоящее время, во многих научных работах используют запатентованные наборы данных, которые не принято публиковать для широкой публики. Это становится проблемой, если вы хотите учиться и практиковать свои навыки. Ниже мы привели самые интересные датасеты, которые можно использовать в сфере глубокого обучения. Они доступны каждому, а для их использования не требуется никаких дополнительных условий. Набор данных CIFAR-10 состоит из 60 000 цветных изображений 32×32 в 10 классах, по 6000 изображений в каждом классе. Он содержит 50 000 обучающих и 10 000 тестовых изображений. Изображения разделены на пять обучающих и одну тестовую партию по 10 000 изображений. Тестовая партия включает в себя 1000 случайно выбранных изображений из каждого класса. Обучающие партии содержат остальные изображения в случайном порядке. Однако, некоторые из обучающих партий могут содержать больше изображений из одного класса, чем из другого. Между собой обучающие партии включают 5000 изображений из каждого класса. Это новый масштабный набор данных, который содержит разнообразные стерео видеопоследовательности, записанные в уличных сценах из 50 городов. В них содержатся высококачественные аннотации на уровне пикселей (pixel-level) для 5000 кадров, в дополнение к набору из 20 000 слабо аннотированных кадров. Таким образом, CityScapes предлагает значительно большой набор данных, чем аналогичные ресурсы. CityScapes предназначен: Набор данных Objectron представляет собой коллекцию коротких, ориентированных на объект видеоклипов, которые сопровождаются метаданными AR-сессии. Они включают в себя расположения камеры, разреженные облака точек и характеристику плоских поверхностей в окружающей среде. В каждом видеоролике камера перемещается вокруг объекта, снимая его под разными углами. Данные содержат аннотированные вручную трехмерные ограничительные рамки для каждого объекта, которые описывают его положение, ориентацию и размеры. Набор данных состоит из 15 000 аннотированных видеоклипов, дополненных более чем 4 млн аннотированных изображений в следующих категориях: велосипеды, книги, бутылки, камеры, коробки с крупами, стулья, чашки, ноутбуки и обувь. Для обеспечения географического разнообразия набор данных собран в 10 странах на 5 континентах. Вместе с «датой» ресурс предлагает решение для обнаружения 3D-объектов четырех категорий: обуви, стульев, кружек и камер. Модели, приведенные в качестве примера, обучены с использованием данных Objectron и выпущены в MediaPipe. Набор различных датасетов, каждый из которых содержит необходимую информацию для анализа тональности текста. Так, данные, взятые с IMDb – это бинарный набор для анализа настроений. Он состоит из 50 000 отзывов из базы данных фильмов (IMDb), помеченных как положительные или отрицательные. Данные содержат только поляризованные отзывы. Отрицательный отзыв имеет оценку ≤ 4 из 10, положительный – ≥ 7 из 10. На каждый фильм включается не более 30 рецензий. Модели оцениваются по точности. Коллекция SMS-спама v.1 – общедоступный набор SMS-сообщений с метками, которые были собраны для исследования спама с мобильных телефонов. Данные состоят из 5574 англоязычных, реальных и неконсолидированных сообщений, помеченных как легитимные (ham) или спам. Сообщения SMS-спама были вручную извлечены с веб-сайта Grumbletext. Это британский форум, на котором пользователи мобильных телефонов публично заявляют о спамовых SMS-сообщениях. Идентификация текста спам-сообщений в претензиях – сложная и трудоемкая задача. Она включает тщательное сканирование сотен веб-страниц. WikiQA представляет собой набор пар вопросов и предложений. Они были собраны и аннотированы для исследования ответов на вопросы в открытых доменах. Большинство предыдущих работ по выбору предложений для ответа сосредоточено на наборе данных, созданном на основе данных TREC-QA, который включает вопросы, созданные редакторами, и предложения-кандидаты для ответа, отобранные по совпадению содержательных слов в вопросе. WikiQA создана с использованием более естественного процесса. Она включает вопросы, для которых не существует правильных предложений, что позволяет исследователям работать над триггером ответа, критически важным компонентом любой системы QA. Классификация текста – это задача присвоения предложению или документу соответствующей категории. Категории зависят от выбранного набора данных и могут варьироваться в зависимости от тем. Так, TREC – это набор данных для классификации вопросов, который состоит из открытых вопросов, основанных на фактах. Они разделены на широкие семантические категории. Датасет имеет шестиклассную (TREC-6) и пятидесятиклассную (TREC-50) версии. Обе версии включают 5452 обучающих и 500 тестовых примеров. Этот набор данных состоит из нескольких миллионов отзывов покупателей Amazon и их оценок. Датасет используется для возможности обучения fastText, анализируя настроения покупателей. Идея состоит в том, что несмотря на огромный объем данных – это реальная бизнес-задача. Модель обучается за считанные минуты. Именно это отличает Amazon Reviews от аналогов. Набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка. Набор данных ONCE – крупномасштабный набор данных автономного вождения с аннотациями 2D и 3D объектов. Включает в себя: Ford AV dataset создан в рамках программы AWS Public Dataset Program. Представленные данные организованы на основе временных рядов. Все разделы содержат подразделы для каждого транспортного средства и карт. Каждый подраздел Vehicle включает журналы в формате rosbag, изображения PNG и файлы калибровки всех датчиков. Калибровочные данные для каждого автомобиля предоставляются отдельно. CADC Dataset нацелен на продвижение исследований по улучшению самостоятельного вождения в неблагоприятных погодных условиях. Это первый публичный датасет, который посвящен реальным данным о вождении в снежных погодных условиях. Включает в себя: Клинические данные являются основным источником большинства медицинских исследований. Они собираются в ходе текущего лечения пациентов или в рамках официальной программы клинических исследований. HSL предлагает клинические данные шести основных типов: Датасет хронических заболеваний в США (US chronic diseases). DL предлагает набор данных, которые были получены в результате более 10 тыс. исследований на 4 тыс. уникальных пациентов. Данные включают в себя информацию о различных типах поражений, таких как: узелки в легких, опухоли печени, увеличенные лимфатические узлы и т.д. Используя DeepLesion, мы обучаем универсальный детектор поражений, который может находить все их типы поражений с помощью единой унифицированной системы. Приведенные выше датасеты были найдены в результате мониторинга большого количества ресурсов. Поиск этих данных – процесс трудоемкий и требует времени. Он подходит, когда данные нужны вам разово. Однако, в случае, когда данные нужны постоянно, рекомендуется использовать агрегаторы. Наиболее известными из них являются open-data от GitHub, Dataset Search от Google и Microsoft Azure. Члены Конгресса США (1789 – настоящее время), комитеты Конгресса (1973 – настоящее время), состав комитетов (только текущий), а также президенты и вице-президенты США в формате YAML, JSON и CSV. Файлы хранятся в формате YAML в основной ветке этого проекта. YAML – это формат сериализации, схожий по структуре с JSON, но обычно записываемый с одним полем в строке. Как и JSON, он допускает вложенную структуру. Каждый уровень вложенности обозначается отступом или тире. Полный набор данных COVID-19 – коллекция данных о коронавирусе, которую ведет компания Our World in Data. Ресурс обновляется ежедневно в течение всего периода пандемии COVID-19. Google Dataset Search – это версия поисковой системы Google, которую можно использовать для поиска наборов данных со всего мира в таких областях, как машинное обучение, социальные науки, государственные данные, геонауки, биология, науки о жизни, сельское хозяйство. По данным Google, их Dataset Search проиндексировал около 25 миллионов наборов данных. Компания считает, что поиск данных поможет создать экосистему обмена, в которой правительства и частные компании смогут обмениваться данными, используя передовые методы хранения и публикации. Большинство открытых датасетов используют schema.org, который является стандартом. Это означает, что любой желающий может свободно загружать и использовать эти наборы данных для исследований, бизнес-аналитики, или обучения ML-модели. Если у вас есть набор данных, который не находится в открытом доступе, вы можете сделать так, чтобы другие его увидели, добавив описание schema.org. Коллекция образцов речи, полученных из различных аудиоисточников. Набор данных содержит короткие аудиоклипы на русском языке. Все файлы были преобразованы в opus, за исключением тех, которые служат для проверки. Основная цель набора данных – обучение моделей преобразования речи в текст. Russian speech to text (STT) включает: Одновременная локализация и картирование (SLAM) – одна из самых фундаментальных возможностей, необходимых для роботов. Благодаря повсеместной доступности изображений, визуальная SLAM (V-SLAM) стала важным компонентом многих автономных систем. Этот набор данных использует преимущества развивающихся технологий компьютерной графики и направлен на охват различных сценариев со сложными характеристиками при моделировании роботов. Больше о Microsoft azure datasets вы узнаете по этой ссылке. *** В этом материале мы постарались рассказать о возможностях использования различных датасетов для реализации проектов в самых разных областях Data Science: политики, экономики, жилья, медицины, компьютерного зрения. Мы привели примеры, с помощью которых можно решить как разовые задачи с использованием ограниченного количества данных, так и задачи, которые требуют постоянного притока новой «даты». Alex Maszański
Где искать датасеты?
1. Kaggle
2. Data World
3. UCI Machine Learning Repository
Датасеты общего назначения
Государственные датасеты
1. Данные федерального правительства США
2. Данные министерства здравоохранения РФ
3. Данные министерства культуры РФ
Данные о жилье
1. Lincolnshire (UK) House Prices
2. Zillow Housing data
Экономика и финансы
1. Глобальный датасет инфляции в мире
2. Рост населения
.csv
, xml
и .excel
.3. Рост ВВП
Датасеты для глубокого обучения
Компьютерное зрение
1. CIFAR-10
2. CityScapes
3. Objectron
Анализ тональности текста
1. Sentiment analysis
2. SMS спам
3. WikiQA
Обработка естественного языка (NLP)
1. Text classification
2. Amazon Reviews dataset
3. Yelp dataset
Автопилоты
1. ONCE Dataset
2. Ford AV dataset
3. Canadian Adverse Driving Conditions Dataset
Медицинские данные
1. Health Science Library
2. DeepLesion
Список лучших агрегаторов баз данных ML
Лучшие открытые наборы данных (для машинного обучения и анализа)
Открытые базы данных на Github
1. Congress legislators: база данных людей, избранных в конгресс США
2. Covid data
Dataset Search от Google
Открытые наборы данных Microsoft Azure
1. Russian Open Speech To Text
2. TartanAir
Материалы по теме
- 5 views
- 0 Comment