OpenAI veröffentlicht LifeSciBench, um KI anhand realer Forschungsaufgaben zu bewerten – mit 750 von Expertinnen und Experten verfassten Inhalten in 7 Biologie-Feldern

Laut der offiziellen Ankündigung von OpenAI vom 20. Juni hat das Unternehmen LifeSciBench veröffentlicht, einen neuen Evaluierungs-Benchmark, der dazu entwickelt wurde, KI-Systeme anhand realer wissenschaftlicher Forschungsaufgaben zu bewerten. Der Benchmark umfasst 750 von Experten verfasste Aufgaben in 7 Forschungs-Workflows und 7 Biologie-Domänen, erstellt von 173 Forschern auf Ph.D.-Niveau mit Erfahrung in Biotech- oder Pharmaindustrie.

Mehr als 79% der Aufgaben erfordern mehrschlüssiges Denken und liegen im Durchschnitt bei etwa 4 Denkschritten pro Frage. Der Benchmark enthält 1.062 reale Forschungsdaten-Anhänge wie Papers, Diagramme, Sequenzdaten und Strukturdateien und betont komplexe Forschungsfähigkeiten, einschließlich der Integration von Evidenz, experimentellem Design, Datenanalyse, wissenschaftlichem Schlussfolgern und Forschungs-Kommunikation – statt einfacher Faktenfragen.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare