Проект: создание программы, которая по аудиофайлу будет генерировать аудиофайл с вырезанными интервалами, когда были произнесены стоп-слова или когда не было произнесено никаких слов.
Актуальность проекта: считается, что из всего временного интервала аудиосообщения в мессенджерах более половины может быть отброшено, так как не несет в себе пользы. Данным проектом мы сможем повысить эффективность аудиосообщений. Большей частью неэффективных временных интервалов являются интервалы со словами-паразитами, а также интервалы, не содержащие слов. Программа будет получать на вход аудиофайл, в котором есть человеческая русская речь, на выходе будет возвращать тот же аудиофайл, но с вырезанными неэффективными интервалами.
Составные части программы:
- Синтез текста из речи
- Поиск слов в тексте
- Определение таймкодов слов
- Вырезание временных интервалов из аудио
- Возврат урезанного аудио
Этапы работы:
- Выбор перечня стоп-слов
- Поиск модели для синтеза текста из речи, выбор подходящего под задачу и дообучение модели под наши стоп-слова 2.1 Главные требования к модели: - распознавание речи на русском языке - бесплатная версия 2.2 Главные кандидаты: - Whisper - Google cloud speech-to-text - Mozilla DeepSpeech
- Изучение средств языка Python для работы с аудио
- Создание полноценной программы
(*) Возможное усложнение программы: на вход помимо аудиофайла поступает список слов, которые необходимо удалить