Share This
Связаться со мной
Крути в низ
Categories
//Исследование МТИ нашло «систематические» ошибки в датасетах для обучения нейросетей

Исследование МТИ нашло «систематические» ошибки в датасетах для обучения нейросетей

30.03.2021Category : My Habr

issledovanie mti nashlo sistematicheskie oshibki v datasetah dlja obuchenija nejrosetej 3a6b48c - Исследование МТИ нашло «систематические» ошибки в датасетах для обучения нейросетей

Исследователи из Массачусетского технологического института проанализировали популярные датасеты, которые используются для обучения нейросетей, и обнаружили в них существенное количество ошибок маркировки. Десять датасетов, включая ImageNet, базу данных изображений, используемую для обучения алгоритмов компьютерного зрения, содержат в среднем 3,4% ошибок. Число ошибок варьировалось от чуть более 2,9 тысяч в ImageNet до более 5 миллионов в QuickDraw.

Исследователи проанализировали наиболее часто используемые наборы данных с открытым исходным кодом, созданные за последние 20 лет. В общей сложности они оценили шесть датасетов изображений (MNIST, CIFAR-10, CIFAR-100, Caltech-256 и ImageNet), три набора текстовых данных (20news, IMDB и Amazon Reviews) и один набор аудиоданных (AudioSet).

По оценкам исследователей, у QuickDraw был самый высокий процент ошибок — 10,12% от общего числа меток. Второе место занял CIFAR с примерно 5,85% неверно промаркированных изображений, третье ImageNet с 5,83%. Примерно 4% от набора данных Amazon Reviews промаркировано неверно. 

Речь идет о ситуациях, когда, например, одну породу собак путают с другой; отзыв о продукте Amazon маркирован как отрицательный, хотя на самом деле он положительный; звук обозначен как свист, хотя на самом деле он представляет собой высокую ноту в песне.

Предыдущее исследование МТИ показало, что у ImageNet «систематические проблемы с аннотациями». В ходе эксперимента исследователи отфильтровали ошибки в ImageNet и протестировали несколько моделей на исправленном наборе. Исследователи пришли к выводу, что более крупные модели работали на исправленных датасетах хуже, чем нейросети с меньшей емкостью.

«Удивительно, но мы обнаружили, что модели с более низкой емкостью могут быть практически более полезными, чем модели с более высокой емкостью, в реальных наборах данных с высокой долей ошибочно помеченных данных», — указывают авторы исследования.

Кроме того, большое количество ошибок в датасетах делает результаты тестов нейросетей ненадежными. Исследователи выпустили версию каждого датасета с ​​исправленными ошибками. Команда рекомендует специалистам по данным измерять реальную точность нейросетей.

  • 0 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    Roman Spiridonov
    Roman Spiridonov

    Привет ! Мне 38 лет, я работаю в области информационных технологий более 4 лет. Тут собрано самое интересное.

    Our Instagram 04.

    Categories 05.

    © Speccy 2020 / All rights reserved

    Связаться со мной
    Close