Automatic Closed Caption: a extensão da era digital para quem mais necessita

“A VoiceInteraction surpreendeu muito com o AUDIMUS.MEDIA, faz o que promete. Estamos muito satisfeitos com o sistema e com todo o suporte dado pela VoiceInteraction”, afirma  Daniel Fernandes, supervisor de R&D da TV TEM

Segundo um estudo recente, a previsão de crescimento para os próximos 3 anos no segmento de mídia e entretenimento acontecerá em larga escala, sendo que o de games terá um crescimento previsto de cerca de 17% ao ano, a publicidade na Internet 12% ao ano e vídeos na Internet cerca de 9% ao ano.

“Esse cenário deverá impulsionar o crescimento das plataformas digitais, com reflexos positivos nestes mercados”, disse Estela Vieira, sócia da PwC Brasil e especialista em Mídia e Entretenimento. Hoje qualquer conteúdo é facilmente acessado através da Internet à distância com um clique, onde um conjunto de imagens e principalmente áudio são liberados. Acontece que existe uma parte da população que por alguma razão tem dificuldades em entender o que está sendo dito, e que por essa razão, as legendas se tornaram um dos mais valiosos serviços de acessibilidade para uma sociedade digital, sendo elas a interface da compreensão do que está sendo falado no vídeo.

O Brasil constitui uma das maiores referências no mercado de medias, em termos de dimensão e exigência das regulamentações de acessibilidade. A ANATEL, Agência Nacional de Comunicações, tem sido preponderante neste assunto sobre o qual nos dedicamos dia após dia.

Com sua expertise em geração automática de Closed Caption, a VoiceInteraction, desenvolve softwares de reconhecimento de fala, utilizando tecnologia de reconhecimento automático de fala (ASR), que facilitarão a geração de CC para os produtores de conteúdos, de forma a tornar os mesmos acessíveis a um número maior de pessoas.

Devido ás nossas origens no campo acadêmico, o nosso tempo é utilizado pesquisando e desenvolvendo novas e mais eficientes formas de disponibilizar os conteúdos de mídia para uma audiência maior. As legendas não devem ser vistas como uma obrigação, mas como um veículo para alcançar aqueles que mais precisam, e a com o treinamento de modelos acústicos com base em técnicas de Machine Learning é possível fazê-lo sem comprometer a operação dos produtores de conteúdo, de forma precisa e em tempo real.

Atualmente, a cada hora de vídeo, a geração manual de CC consome 4 a 6 horas, e com esta ferramenta da VoiceInteraction, os criadores de conteúdos poderão diminuir este tempo consideravelmente, racionalizando esforços, tempo e recursos.