Share This
Связаться со мной
Крути в низ
Categories
//Facebook представила систему распознавания речи wav2vec-U

Facebook представила систему распознавания речи wav2vec-U

22.05.2021Category : My Habr

facebook predstavila sistemu raspoznavanija rechi wav2vec u ffec004 - Facebook представила систему распознавания речи wav2vec-U

Facebook разработала систему распознавания речи wav2vec Unsupervised (wav2vec-U). В компании заверяют, что технология не требует транскрибированных данных; в нее можно просто загрузить образцы речи и случайный текст на нужном языке. Система сама распознает слова и фразы и соотнесет их со словарем. 

Распознавание речи wav2vec-U начинается с изучения структуры речи в представленном отрывке аудио. Система разбивает запись на речевые единицы, которые приблизительно соответствуют отдельным звукам. Чтобы научиться распознавать слова в аудиозаписи, Facebook обучила генеративную состязательную сеть (GAN). Генератор берет каждый аудиосегмент и предсказывает фонему, соответствующую звуку на языке. Первоначально транскрипции получались очень плохие, признают в компании, но со временем и с учетом обратной связи дискриминатора они стали точнее.

Facebook протестировала wav2vec-U на таких языках, как суахили и татарский, для которых в настоящее время недоступны высококачественные модели распознавания речи, поскольку им не хватает данных для обучения. Система показала на 63% меньше ошибок, чем предыдущая аналогичная технология. В качестве исходных данных в нее загрузили 9,6 часов речи и 3000 написанных фраз. 

Новая модель распознавания речи Facebook AI — это последняя разработка за несколько лет работы над моделями распознавания речи. ее предшественниками стали wav2letter, wav2vec, Librilight, wav2vec 2.0, XLSR и wav2vec 2.0.

  • 9 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    blank
    Roman Spiridonov

    Моя специальность - Back-end Developer, Software Engineer Python. Мне 39 лет, я работаю в области информационных технологий более 5 лет. Опыт программирования на Python более 3 лет. На Django более 2 лет.

    Categories 05.

    © Speccy 2022 / All rights reserved

    Связаться со мной
    Close