Казахстанские программисты обучают компьютер понимать казахско-русскую речь

Группа IT-специалистов во главе с Динарой Алимовой разработали технологию языковой модели казахского и смешанного русского и казахского языков, передает корреспондент Tengrinews.kz.

Фото из открытых источников

Автор проекта считает, что в стране наблюдается значительный рост казахоязычного населения и разработанная голосовая модель языка поможет сделать наши будни более комфортными.

"Голосовые помощники, речевая аналитика, синтез голоса - это все можно применять для автоматизации бизнес-процессов, модернизации call-центров, внедрения умных домов и, конечно, помощи людям с особенными потребностями. Наша текущая задача - вывести модель на предельно высокий уровень эффективности", - поделилась Динара.

Первое время Динара работала самостоятельно, занималась исследованиями, изучала зарубежные проекты. Приобретенные в прошлом организаторские и коммуникативные навыки помогли стать продуктовым менеджером.

"Без команды ты никто", - говорит девушка.

Через несколько недель к проекту присоединился datascience специалист Ердаулет.

"Я хочу услышать, как технология заговорит. Почти три года мы идем к этому и обязательно придем. Мы хотим создать голосового помощника для введения диалога на казахском языке", - поделилась Динара Алимова.

Спустя два, три месяца были видны уже первые результаты. По словам девушки, на тот момент полноценной команды не было, и процессы были выстроены иначе. Они совместно с datascience специалистом самостоятельно обрабатывали аудио, делали разметку.

Мы просили коллег, чтобы они записали нам аудио на казахском. Для начала нам нужно было собрать данные - записи с общей длительностью в 20 часов. Они были нужны для тренировки и демонстрации первых результатов. Когда нам нужно было представить первый прототип, нам понадобился разработчик.

С помощью коллег наутро мы уже показали свои первые достижения. Тогда наша модель распознала первые слова. Это были непередаваемые эмоции – будто ребенок заговорил", - добавила Динара Алимова.

Самой большой потребностью на тот момент был сбор данных на казахском и смешанном казахско-русском языках.

"Наша команда выросла, но мы пополняли не штат разработчиков, а штат сотрудников, которые занимались разметкой данных – они посекундно прописывали то, что слышали. Почти год мы наращивали объем информации, которую использовали для обучения. Результаты были не очень хорошие", - вспоминает разработчик.

Сейчас они собрали 1,3 тысячи часов аудиозаписей, но специалисты запланировали дойти до значения в 10 тысяч часов.

В команде три специалиста datascience, которые выбирают архитектуры, на которых тренируют модель и подбирают параметры. По мнению авторов технологии, это не только большая техническая работа, но и лингвистическая.

"Мы ведь работаем с непростым казахским языком, интегрируем его с моделью сложного русского языка, создаем словари. Backend-разработчики и frontend-разработчики принимают все эти технологии, "упаковывают" в код, и мы получаем программное обеспечение. Если воображать, то можно представить объект, который содержит много данных, словарей, фонем и понимает, что говорят люди.

Сейчас наша команда работает не только над распознаванием, мы основали целую лабораторию, которая занимается речью. Одно из активных направлений - синтез голоса. Мы хотим, чтобы наша модель заговорила. Также мы работаем с текстом в рамках NLP, развиваем функцию идентификации спикера. Нужно помнить, что современные технологии - это рукотворное чудо, и за его созданием стоят годы работы целой команды", - поделилась девушка.