Share This
Связаться со мной
Крути в низ
Categories
//Авторы проекта GPT-Neo пытаются создать аналог GPT-3 с открытым исходным кодом

Авторы проекта GPT-Neo пытаются создать аналог GPT-3 с открытым исходным кодом

19.01.2021Category : My Habr

В июне OpenAI презентовала модель машинного обучения GPT-3, обученную на 175 млрд параметров. Эта модель является одной из самых сложных. В отличие от предшественников GPT-2 и GPT-1 ее исходный код или обучающий набор данных решили не открывать. Теперь создатели проекта GPT-Neo от EleutherAI решили воссоздать аналог GPT-3.

Коммерческая лицензия на GPT-3 доступна только для Microsoft, которая инвестировала $1 млрд в OpenAI и построила суперкомпьютер на базе Azure, предназначенный для дальнейших исследований компании.

Было предпринято уже несколько попыток воссоздать GPT-3 с открытым исходным кодом. Однако нынешнюю можно назвать самой серьезной. Создатели GPT-Neo Коннор Лихи, Лео Гао и Сид Блэк собирают рядовых исследователей в области машинного обучения с открытым исходным кодом, чтобы начать проект не позднее августа.

GPT-Neo это кодовое название серии языковых моделей, основанных на преобразователях в стиле архитектуры GPT с открытым исходным кодом. У проекта есть кодовая база, построенная на Tensorflow-mesh (для обучения на TPU) и на Deepspeed (для обучения на GPU). Обе могут масштабироваться до размеров GPT-3, но проекту пока не хватает TPU для полного обучения модели со 175 млрд параметров.

avtory proekta gpt neo pytajutsja sozdat analog gpt 3 s otkrytym ishodnym kodom 0c718ef - Авторы проекта GPT-Neo пытаются создать аналог GPT-3 с открытым исходным кодом

Большую часть модели уже построили и обучили модели размера GPT-2, а также реализовали несколько экспериментальных архитектур. В настоящее время ведется работа над завершением репликации модели размера GPT-2.

Как отметили исследователи, самая большая модель, которую им приходилось тренировать для одного шага, включала 200 млрд параметров.

В октябре команда ученых из Мюнхенского университета Людвига-Максимилиана разработала методику глубокого обучения для моделей обработки естественного языка. Она обучила модель Transformer NLP с 223 млн параметров, которая превзошла GPT-3 более чем на 3% в тесте SuperGLUE.

А на днях в Google представили метод, который, по утверждению компании, позволил обучить языковую модель, содержащую более триллиона параметров. Исследователи заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.

О том, как разработчики пытались применять GPT-3 в обычной жизни, можно почитать здесь (1, 2, 3).

  • 0 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    Roman Spiridonov
    Roman Spiridonov

    Привет ! Мне 38 лет, я работаю в области информационных технологий более 4 лет. Тут собрано самое интересное.

    Our Instagram 04.

    Categories 05.

    © Speccy 2020 / All rights reserved

    Связаться со мной
    Close