Ученые разработали технологию распознавания речи для тюркских языков
Назарбаев Университет разработали новую модель, которая распознает речь десяти тюркских языков.
Автоматическое распознавание речи — это технология преобразования человеческой речи в текст по примеру голосовых помощников Siri и Alexa, виртуальных ассистентов и систем диктовки. Ученые Института умных систем и искусственного интеллекта Назарбаев Университета (NU ISSAI) разработали новую модель, которая распознает речь десяти тюркских языков — казахский, азербайджанский, башкирский, киргизский, саха, татарский, турецкий, уйгурский, узбекский и чувашский. В дополнение к ним технология распознает английскую и русскую речь.
- "Нашей целью было разработать модель распознавания речи для тюркских языков, для большинства из которых существует очень мало речевых данных в открытом доступе в интернете. Используя общие черты тюркских языков с точки зрения лексики, фонологии и морфологии, мы хотели разработать первую общую и надежную многоязычную модель, в которой бы десять тюркских языков взаимно дополняли друг друга", — сообщила аналитик данных NU ISSAI Саида Мусаходжаева.
В процессе распознавания речи технология совершает минимум ошибок.
- "Для башкирского, казахского, татарского, турецкого, уйгурского и узбекского языков процент ошибок в символах составляет менее 5%. Модель использует преимущества сходства тюркских языков. Этих результатов было бы невозможно достичь, если бы мы создали отдельные модели для каждого языка", — пояснил студент 4 курса NU Кайсар Даулетбек.
Многоязычная модель распознавания речи NU ISSAI может быть свободно протестирована на сайте Института. В свободном доступе можно также найти все разработанные модели, базы данных и коды, использованные в проекте.
- "Мы считаем, что наиболее важным результатом этих проектов является подготовка высококвалифицированных технических экспертов, которые будут не только стимулировать технологическое развитие Казахстана, но и охотно делиться и применять свои профессиональные знания и опыт для продвижения технологий в других странах, создавая возможности для будущих поколений", — отметил профессор NU Хусейн Атакан Варол, директор-основатель ISSAI.
Ученые Института уже добились успеха в создании первых корпусов казахской речи с открытым исходным кодом (KSC и KSC2), крупномасштабных корпусов преобразования текста в речь на казахском языке с открытым исходным кодом (KazakhTTS и KazakhTTS2), а также крупнейшего открытого набора данных для распознавания именованных объектов на казахском языке (KazNERD).
- "Институт прилагает значительные усилия для продвижения казахского языка в цифровом мире. Однако интерес нашего Института к языку и речевым технологиям распространяется и на другие тюркские языки. Наш Институт станет одним из ведущих научных центров искусственного интеллекта и науки о данных в тюркском мире и Евразии", — считает профессор Варол.