MaLGa Colloquia: The Emerging Science of Machine Learning Benchmarks

 

Speaker

Moritz Hardt - Max Planck Institute for Intelligent Systems, Tübingen, Germany

Dove e quando

lunedì 31 Marzo, 16:00 , aula 322, UniGe DIBRIS/DIMA, Via Dodecaneso 35

 

Sommario:

I benchmarks hanno giocato un ruolo centrale nel progresso della ricerca sul machine learning  dagli anni '80. Nonostante moltissimo lavoro sia stato fatto con questi strumenti, non si è ancora capito bene perchè funzionino come motore il progresso scientifco. In questo talk si seguiranno i rudimenti della emergente scienza dei benchmarks attraverso osservazioni empiriche e teoriche selezionate. Guardando il passato saranno discussi i principali avanzamenti scientifici sull'argomento nell'era di ImageNet. Con uno sguardo verso il futuro si parlerà successivamente delle nuove sfide nell'ambito dei benchmarks nell'era dei LLM (Large Language Models). I risultati che troveremo saranno poco in linea con il senso comune, sottolineando quindi la forza e l'utilità dello sviluppo di questa scienza.

Bio:

Moritz Hardt è un direttore al Max Planck Institute for Intelligent Systems. Prima di arrivare al MPI è statoProfessore Associarto in Electrical Engineering and Computer Sciences  all' University of California, Berkeley. Le sue ricerche contribuiscono alla base sceintifica per il machine learning e l' algorithmic decision makingda un punto di vista sociale.

 

Il Colloquium sarà tenuto in lingua inglese


Speaker

Moritz Hardt - Max Planck Institute for Intelligent Systems, Tübingen, Germany

When

Monday March 31st, 16:00

Where

Room 322, UniGe DIBRIS/DIMA, Via Dodecaneso 35

 

Abstract:

Benchmarks have played a central role in the progress of machine learning research since the 1980s. Although there's much researchers have done with them, we still know little about how and why benchmarks work as an engine of scientific progress. In this talk, I will trace the rudiments of an emerging science of benchmarks through selected empirical and theoretical observations. Looking back, I'll discuss the key scientific lessons about benchmarks from the ImageNet era, focusing on the validity of model rankings. Looking ahead, I'll talk about new challenges to benchmarking and evaluation in the era of large language models. The results we'll encounter challenge conventional wisdom and underscore the benefits of developing a science of benchmarks.

 

Bio:

Moritz Hardt is a director at the Max Planck Institute for Intelligent Systems. Prior to joining the institute, he was Associate Professor for Electrical Engineering and Computer Sciences at the University of California, Berkeley. His research contributes to the scientific foundations of machine learning and algorithmic decision making from a social perspective. He is a co-author of the textbooks Fairness and Machine Learning: Limitations and Opportunities (MIT Press) and Patterns, Predictions, and Actions: Foundations of Machine Learning (Princeton University Press).

 

 

 

Ultimo aggiornamento 21 Marzo 2025