Разработка неконтролируемых методов и алгоритмов распознавания речи на основе не выровненных аудио и текстовых данных.

Реферат (абстракт) на русском языке

Разработка неконтролируемых методов и алгоритмов распознавания речи на основе не выровненных аудио и текстовых данных.

ИРН АР 08053085

В данной работе планируется разработка неконтролируемых методов и алгоритмов для распознавания речи на основе не выровненных аудио и текстовых данных. Работа основывается на предположении, что частоты и контекстные отношения фонем близки в аудио и текстовых доменах для одного и того же языка. Поэтому это позволит создать отображение между акустическим и текстовым пространствами, которое будет учитывать структуру этих пространств вместе с операцией конкатенации последовательностей. В качестве математического аппарата были выбраны генеративные методы на основе вариационных автоэнкодеров. Апробация разработанных методов и алгоритмов будет проводиться на задаче автоматической транскрипции новостей на казахском и английском языках. Данные для экспериментов будут собраны в рамках проекта.

Цели на русском языке

Целью данного проекта является разработка неконтролируемых методов и алгоритмов для распознавания речи на основе не выровненных аудио и текстовых данных.

Задачи на русском языке

1) Сбор и обработка данных. В данной задаче предполагается автоматический сбор (краулинг) аудио и текстовых данных на казахском и английском языках с различных интернет и медиа ресурсов.

2) Акустическое моделирование. В данной задаче предполагается разработка неконтролируемых методов и алгоритмов глубокого обучения для отображения аудио данных в акустическое латентное пространство.

3) Языковое моделирование. В данной задаче предполагается разработка неконтролируемых методов и алгоритмов глубокого обучения для отображения текстовых данных в текстовое латентное пространство.

4) Отображение пространств. В данной задаче предполагается разработка методов и алгоритмов гомоморфного отображения между акустическим и текстовым латентными пространствами, которое будет учитывать структуру этих пространств вместе с операцией конкатенации последовательностей.

5) Проведение финальных экспериментов. В данной задаче предполагается проведение масштабных вычислительных экспериментов на основе собранных данных (в п. 1) и разработанных методов и алгоритмов (в пунктах 2-4). Здесь будут использованы не аннотированные и не связанные аудио и текстовые данные произвольной длины.

Разработка программного обеспечения и веб-сервиса. На основе разработанных методов и алгоритмов будет разработано программное обеспечение и демонстрационный веб-сервис. На веб-сервисе будут также выложены собранные аудио и текстовые данные. В качестве языка программирования будет использован Python.

Ожидаемые результаты на русском языке

Результатами реализации проекта станут: (1) аудио и текстовые корпусы на казахском и английском языках; (2) неконтролируемые методы и алгоритмы  распознавания речи на основе не выровненных аудио и текстовых данных; (3) программное обеспечение и демонстрационный веб-сервис системы распознавания казахской и английской речи, реализующие разработанные методы и алгоритмы; (4) публикации в рецензируемых журналах с высоким импакт-фактором и в трудах престижных конференций.

Полученные результаты

 

 

Акустическое моделирование предложений

 

 

Языковое моделирование предложений

 

 

 

Отображение между пространствами отдельных слов

 

 

 

 

В данной задаче было произведен автоматический сбор (краулинг) аудио и текстовых данных на казахском и английском языках с различных интернет и медиа ресурсов. В частности, было собрано аудио данных не менее 1000 часов, а текстовых данных не менее 1 миллиарда слов для каждого языка.

В задаче акустического моделирования предложений мы обучили нейронную сеть на основе вариационного автоэнкодера. Архитектура модели состоит их пяти слоев сверточных сетей, на вход которой подаются последовательности векторов, кодирующих спектрограмму кратковременного преобразования Фурье (STFT), извлеченную из речевых сигналов.

В задаче языкового моделирования предложений мы использовали ту же модель вариационного автоэнкодера, но при этом входом сети были векторные вложения, обученные с помощью транформера BERT. Модель BERT принимает предложения целиком в отличие от word2vec или fastText, что в целом положительно сказывается на качестве конечной нейронной сети.

На основе векторного представления слов в акустическом и текстовом пространствах, собранных в предыдущем году, мы провели предварительную работу по их анализу и визуализации с использованием методов персистентной гомологии. Как показали результаты, топологическая структура обоих пространств довольно схожа, что подтверждает гипотезу о схожести аудио и текстовых пространств, а сами исследования в дальнейшем может быть развито. В частности, в будущем можно провести эксперименты по сравнению персистентных диаграмм, как было описано выше. Близость персистентных диаграмм в смысле Римановой метрики или метрики Вассерштейна может также пролить свет на топологическую схожесть обоих пространств.

Далее нами был разработан программный модуль для отображения акустического и текстового пространств в виде веб-приложения с использованием технологий HTML/CSS/Javascript. Данный модуль позволяет загружать аудио и текстовые данные в виде набора векторов и визуализировать их, предусмотрен функционал по выборочному включению или исключению необходимых векторов, можно выбрать ту или иную размерность для отображения, реализованы различные трансформации векторов, например, PCA и прочее. Также, реализован функционал визуализации персистентных диаграм и гистограмм для первых двух чисел Бетти.

Исполнители проекты

1.                       Zhandos Yessenbayev, PhD, senior researcher, PE “National Laboratory Astana”, [ORCID: 0000-0002-6322-3848] Жандос Есенбаев, PhD, старший научный сотрудник, ЧУ «National Laboratory Astana»
https://research.nu.edu.kz/en/persons/zhandos-yessenbayev
https://scholar.google.com/citations?hl=en&user=oZlOmsAAAAAJ&view_op=list_works&sortby=pubdate

2.                       Zhanibek Kozhirbayev, PhD, senior researcher, PE “National Laboratory Astana”, [ORCID: 0000-0003-4235-9049] Жанибек Кожирбаев, PhD, старший научный сотрудник, ЧУ «National Laboratory Astana»
https://research.nu.edu.kz/en/persons/zhanibek-kozhirbayev
https://scholar.google.com/citations?user=qkucYS0AAAAJ&hl=en

Публикации

1.                       Kozhirbayev, Zh., and Yessenbayev, Zh. "Kazakh Text Normalization using Machine Translation Approaches." In CEUR Workshop Proceedings, vol. 2780, pp. 115-122. CEUR-WS, 2020.
URL: http://ceur-ws.org/Vol-2780/paper10.pdf

2.                       Kozhirbayev, Zh., and Yessenbayev, Zh. Named entity recognition for the Kazakh language. Journal of Mathematics, Mechanics and Computer Science, vol. 107, no. 3, pp. 57-66, 2020. ISSN 2617-4871.
URL:  https://doi.org/10.26577/JMMCS.2020.v107.i3.06

3.                       Yessenbayev Z., Kozhirbayev Z., Makazhanov A. (2020) KazNLP: A Pipeline for Automated Processing of Texts Written in Kazakh Language. In: Karpov A., Potapova R. (eds) Speech and Computer. SPECOM 2020. Lecture Notes in Computer Science, vol. 12335, pp. 657-666. Springer, Cham.
URL: https://doi.org/10.1007/978-3-030-60276-5_63