Нейросеть в VK Видео улучшил распознавание речи на 25%

Автор Александр Пермяков Опубликовано 12.09.2024

VK Видео внедрил новые технологии искусственного интеллекта для автоматического распознавания речи и генерации субтитров в видео, шоу, клипах и других материалах. Уровень точности анализа и расшифровки возрос на 25%, а нейросети теперь осваивают тысячи новых слов, включая мемы, собственные имена, акронимы и специализированные термины.

Субтитры создаются с помощью ML-моделей, которые генерируют текст, расставляют знаки препинания и синхронизируют их с изображением. Чтобы повысить точность, аудиопоток обрабатывается в нескольких этапах. Нейросеть удаляет посторонние звуки, распознает речь и преобразует её в текст. Затем подключаются модели для пунктуации и денормализации, которые формируют удобочитаемый текст из распознанных слов. Наконец, ИИ синхронизирует текст с аудиодорожкой, что позволяет субтитрам быть понятными как в профессиональных, так и в любительских видео.

В скором времени нейросети станут способны разделять речь разных ораторов на отдельные реплики, что упростит восприятие текста. Использование субтитров возрастает: за последний месяц доля пользователей, применяющих эту функцию в веб-версии, увеличилась на 28%, и сейчас эту опцию используют 11% всей аудитории VK Видео. Технология особенно полезна для людей с нарушениями слуха и в ситуациях, когда звук нежелателен.