Benchmarking Zero-shot: Avaliação Automática Flexível e Escalável de LLMs
Ciência e Tecnologia
ingressos Grátis
Página oficial do evento
Seminário de Almoço em Machine Learning da Priberam
Resumo:
À medida que os modelos de linguagem melhoram e se tornam capazes de realizar tarefas mais complexas em várias modalidades, a sua avaliação automática torna-se cada vez mais desafiadora.
Desenvolver métricas automáticas específicas para tarefas que sejam fortes e robustas torna-se mais difícil, e conjuntos de testes anotados por humanos -- que são caros de criar -- saturam mais rapidamente.
Uma alternativa convincente é desenhar estratégias fiáveis para automatizar a criação de dados de teste e avaliação, mas as tentativas anteriores dependem de dados preexistentes ou concentram-se apenas em tarefas individuais.
Apresentamos o Benchmarking Zero-shot (ZSB), um framework para criar benchmarks de alta qualidade para qualquer tarefa, utilizando modelos de linguagem tanto para a criação de dados de teste sintéticos quanto para a avaliação.
O ZSB é simples e flexível: requer apenas a criação de um prompt para geração de dados e um para avaliação; é escalável a tarefas e línguas onde a coleta de dados do mundo real é dispendiosa ou impraticável; é agnóstico em relação ao modelo, permitindo a criação de benchmarks cada vez mais desafiadores à medida que os modelos melhoram.
Para avaliar a eficácia do nosso framework, criamos benchmarks para cinco tarefas apenas textuais e uma multi-modal: capacidades gerais em quatro línguas (inglês, chinês, francês e coreano), tradução e capacidades gerais de visão-linguagem em inglês.
Depois, classificamos uma ampla gama de sistemas abertos e fechados nos nossos benchmarks.
As classificações do ZSB correlacionam-se consistentemente de forma forte com as classificações humanas, superando benchmarks padrão amplamente adotados.
Através de ablações, descobrimos que benchmarks fortes podem ser criados com modelos abertos, e que o tamanho do modelo julgado e a variedade de conjuntos de dados são motores cruciais de desempenho.
Publicamos todos os nossos benchmarks e o código para reproduzir os nossos experimentos e para produzir novos benchmarks.
Bio:
José Pombal é um Cientista de Pesquisa Sénior na Sword Health e um estudante de doutoramento no IST, com a sua pesquisa focada na avaliação automática de LLMs e na sua aplicação à terapia de saúde mental.
Início do evento
7 de abril de 2026 às 12:00
Fim do evento
7 de abril de 2026 às 13:00
Localização