Repensando a Profundidade no Codificador de Voz

Ciência e Tecnologia

ingressos Grátis

Seminário de Almoço de Aprendizagem de Máquina da Priberam

Resumo:

Atualmente, os codificadores de voz estão a tornar-se cada vez mais poderosos, mas também maiores e mais complexos. No entanto, observamos uma redundância significativa dentro destes modelos, o que motiva um repensar de como a profundidade deve ser projetada. Nesta palestra, apresentarei uma alternativa eficiente em termos de parâmetros baseada em pesos partilhados com aplicação recursiva (em loop) de camadas de codificador, onde um conjunto menor de parâmetros é reutilizado em múltiplas iterações em vez de empilhar muitas camadas distintas. Esta abordagem visa preservar uma forte capacidade representacional ao mesmo tempo que reduz o tamanho do modelo.

Bio:

Thomas Rolland é Investigador Pós-Doutorado no INESC-ID em Lisboa, focando-se na construção de sistemas de voz robustos para configurações com poucos recursos, ruidosas e com mudança de domínio. O seu trabalho centra-se em arquiteturas eficientes em termos de parâmetros, aumento de dados sintéticos e estratégias de pós-formação para melhorar a adaptabilidade e a justiça em diversos cenários de fala.

Início do evento

21 de abril de 2026 às 12:00

Fim do evento

21 de abril de 2026 às 13:00

Localização