Beyond Benchmarks: Evaluating Generalist Medical Artificial Intelligence With Psychometrics

doi:10.2196/70901

Published on 26.May.2025 in Vol 27 (2025)

Preprints (earlier versions) of this paper are available at https://preprints.jmir.org/preprint/70901, first published 05.Jan.2025.

Dr. AI robot wearing glasses and a lab coat, writing with a pen in a classroom.

Beyond Benchmarks: Evaluating Generalist Medical Artificial Intelligence With Psychometrics

Luning Sun¹

; Christopher Gibbons²

; José Hernández-Orallo^{3, 4}

; Xiting Wang⁵

; Liming Jiang⁶

; David Stillwell¹

; Fang Luo⁶

; Xing Xie⁷

Article Authors Cited by (3) Tweetations Metrics

Luning Sun ¹ , PhD ; Christopher Gibbons ² , PhD ; José Hernández-Orallo ^{3, 4} , PhD ; Xiting Wang ⁵ , PhD ; Liming Jiang ⁶ , MSc ; David Stillwell ¹ , PhD ; Fang Luo ^{6
*} , PhD ; Xing Xie ^{7
*} , PhD

¹ The Psychometrics Centre, Cambridge Judge Business School, University of Cambridge, Cambridge, United Kingdom

² Oracle Health, Austin, TX, United States

³ Valencian Research Institute for Artificial Intelligence (VRAIN), Universitat Politècnica de València, València, Spain

⁴ Valencian Graduate School and Research Network of AI, València, Spain

⁵ Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China

⁶ Faculty of Psychology, Beijing Normal University, Beijing, China

⁷ Microsoft Research Asia (China), Beijing, China

*these authors contributed equally

Corresponding Author:

Fang Luo, PhD
Faculty of Psychology
Beijing Normal University
19 Xinwai Ave
Beijing 100875
China
Phone: 86 15120098365
Email: luof@bnu.edu.cn

Citation

Please cite as:

Sun L, Gibbons C, Hernández-Orallo J, Wang X, Jiang L, Stillwell D, Luo F, Xie X
Beyond Benchmarks: Evaluating Generalist Medical Artificial Intelligence With Psychometrics
J Med Internet Res 2025;27:e70901
doi: 10.2196/70901 PMID: 40418851 PMCID: 12129431

Export Metadata

END for: Endnote

BibTeX for: BibDesk, LaTeX

RIS for: RefMan, Procite, Endnote, RefWorks

Add this article to your Mendeley library

This paper is in the following e-collection/theme issue:

Viewpoints and Perspectives (1364) Development and Evaluation of Research Methods, Instruments and Tools (1287) Artificial Intelligence (4624) Applications of AI (892)

Download

Download PDF Download XML

Share Article

Share on Bluesky Share on Twitter Share on Facebook Share on LinkedIn