Share This
Связаться со мной
Крути в низ
Categories
//Google обучила языковую модель ИИ на триллионе параметров

Google обучила языковую модель ИИ на триллионе параметров

14.01.2021Category : My Habr

google obuchila jazykovuju model ii na trillione parametrov 1ed1719 - Google обучила языковую модель ИИ на триллионе параметров

Исследователи Google разработали метод, который, по их утверждению, позволил обучить языковую модель, содержащую более триллиона параметров. Они заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.

Данная модель достигла ускорения в 4 раза по сравнению с более ранней, самой крупной языковой моделью Google T5-XXL. Исследователи применили Switch Transformer, метод «редко активируемого», который использует только подмножество весов модели или параметры, которые преобразуют входные данные в модели.

Концепция Switch Transformer состоит в том, чтобы объединить несколько моделей, специализирующихся на различных задачах, внутри более крупной и встроить «стробирующую сеть», выбирающую, к какой из этих моделей обращаться в конкретном случае.

Switch Transformer использует графические процессоры и блоки тензорной обработки (TPU) Google. В распределенной системе обучения модели распределяют уникальные веса по разным устройствам, поэтому сохраняется управляемая память и вычислительные ресурсы на каждом устройстве.

В ходе эксперимента исследователи предварительно обучили несколько различных моделей Switch Transformer, используя 32 ядра TPU на Colossal Clean Crawled Corpus, наборе данных размером 750 ГБ, взятом из Reddit, Wikipedia и других веб-источников. Они поставили перед моделями задачу предсказывать пропущенные слова в отрывках, где 15% слов были замаскированы, а также решать другие задачи, такие как поиск текста для ответа на список из все более сложных вопросов.

Исследователи утверждают, что их модель с 2048 внутренних моделей Switch-C показала «отсутствие обучающей нестабильности вообще» в отличие от предшественника Switch-XXL, содержащей 395 млрд параметров и 64 внутренних модели.

Предварительное обучение модели удалось ускорить более чем в 7 раз при использовании того же количества вычислительных ресурсов.

В будущей работе исследователи планируют применить Switch Transformer к работе с изображениями и текстом. Они считают, что разреженность моделей может дать преимущества в целом ряде различных сред, а также в мультимодальных моделях.

К сожалению, в работе исследователей не учитывалось влияние крупных языковых моделей на реальный мир, так как они часто отражают предубеждения, закодированные в общедоступных данных. Исследовательская компания ИИ OpenAI отмечает, что это может привести к размещению таких слов, как «непослушный» рядом с женскими местоимениями и «ислам» рядом с такими словами, как «терроризм».

Другие исследования от Intel, MIT и канадской инициативы CIFAR в области искусственного интеллекта уже обнаружили высокий уровень стереотипных предубеждений в некоторых популярных моделях, включая Google BERT и XLNet, OpenAI GPT-2 и Facebook RoBERTa.

Уже зафиксировано несколько сомнительных эпизодов применения новой языковой модели GPT-3 от OpenAI. Осенью прошлого года на Reddit появился блог, который фактически вел GPT-3. Он отвечал на вопросы о самоубийствах, домогательствах, теориях заговора, иммиграции, расизме и другие.

А исследователи из французской компании Nabla использовали систему генерации текста для создания медицинского чат-бота. Во время имитационного сеанса с пациентом бот посоветовал ему убить себя.

  • 3 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    Roman Spiridonov
    Roman Spiridonov

    Привет ! Мне 38 лет, я работаю в области информационных технологий более 4 лет. Тут собрано самое интересное.

    Our Instagram 04.

    Categories 05.

    © Speccy 2020 / All rights reserved

    Связаться со мной
    Close