Benchmarking Zero-shot: Avaliação Automática Flexível e Escalável de LLMs

Ciência e Tecnologia

ingressos Grátis

Seminário de Almoço em Machine Learning da Priberam

Resumo:

À medida que os modelos de linguagem melhoram e se tornam capazes de realizar tarefas mais complexas em várias modalidades, a sua avaliação automática torna-se cada vez mais desafiadora.

Desenvolver métricas automáticas específicas para tarefas que sejam fortes e robustas torna-se mais difícil, e conjuntos de testes anotados por humanos -- que são caros de criar -- saturam mais rapidamente.

Uma alternativa convincente é desenhar estratégias fiáveis para automatizar a criação de dados de teste e avaliação, mas as tentativas anteriores dependem de dados preexistentes ou concentram-se apenas em tarefas individuais.

Apresentamos o Benchmarking Zero-shot (ZSB), um framework para criar benchmarks de alta qualidade para qualquer tarefa, utilizando modelos de linguagem tanto para a criação de dados de teste sintéticos quanto para a avaliação.

O ZSB é simples e flexível: requer apenas a criação de um prompt para geração de dados e um para avaliação; é escalável a tarefas e línguas onde a coleta de dados do mundo real é dispendiosa ou impraticável; é agnóstico em relação ao modelo, permitindo a criação de benchmarks cada vez mais desafiadores à medida que os modelos melhoram.

Para avaliar a eficácia do nosso framework, criamos benchmarks para cinco tarefas apenas textuais e uma multi-modal: capacidades gerais em quatro línguas (inglês, chinês, francês e coreano), tradução e capacidades gerais de visão-linguagem em inglês.

Depois, classificamos uma ampla gama de sistemas abertos e fechados nos nossos benchmarks.

As classificações do ZSB correlacionam-se consistentemente de forma forte com as classificações humanas, superando benchmarks padrão amplamente adotados.

Através de ablações, descobrimos que benchmarks fortes podem ser criados com modelos abertos, e que o tamanho do modelo julgado e a variedade de conjuntos de dados são motores cruciais de desempenho.

Publicamos todos os nossos benchmarks e o código para reproduzir os nossos experimentos e para produzir novos benchmarks.

Bio:

José Pombal é um Cientista de Pesquisa Sénior na Sword Health e um estudante de doutoramento no IST, com a sua pesquisa focada na avaliação automática de LLMs e na sua aplicação à terapia de saúde mental.

Início do evento

7 de abril de 2026 às 12:00

Fim do evento

7 de abril de 2026 às 13:00

Localização