Laut der offiziellen Ankündigung von OpenAI vom 20. Juni hat das Unternehmen LifeSciBench veröffentlicht, einen neuen Evaluierungs-Benchmark, der dazu entwickelt wurde, KI-Systeme anhand realer wissenschaftlicher Forschungsaufgaben zu bewerten. Der Benchmark umfasst 750 von Experten verfasste Aufgaben in 7 Forschungs-Workflows und 7 Biologie-Domänen, erstellt von 173 Forschern auf Ph.D.-Niveau mit Erfahrung in Biotech- oder Pharmaindustrie.
Mehr als 79% der Aufgaben erfordern mehrschlüssiges Denken und liegen im Durchschnitt bei etwa 4 Denkschritten pro Frage. Der Benchmark enthält 1.062 reale Forschungsdaten-Anhänge wie Papers, Diagramme, Sequenzdaten und Strukturdateien und betont komplexe Forschungsfähigkeiten, einschließlich der Integration von Evidenz, experimentellem Design, Datenanalyse, wissenschaftlichem Schlussfolgern und Forschungs-Kommunikation – statt einfacher Faktenfragen.