Berandasehat.id – Keterampilan diagnosis pediatrik ChatGPT sangat kurang setelah diminta untuk mendiagnosis 100 studi kasus acak, demikian temuan trio dokter anak di Cohen Children’s Medical Center, di New York.

Dalam studi yang dilaporkan di jurnal JAMA Pediatrics, Joseph Barile, Alex Margolis dan Grace Cason menguji keterampilan diagnostik ChatGPT. Para peneliti mencatat, diagnostik pediatrik sangat menantang karena selain memperhitungkan semua gejala yang ditemukan pada pasien tertentu, usia juga harus dipertimbangkan.

Dalam upaya baru ini, mereka mencatat bahwa LLM (large language model) telah dipromosikan oleh beberapa komunitas medis sebagai alat diagnostik baru yang menjanjikan. Untuk menentukan kemanjurannya, para peneliti mengumpulkan 100 studi kasus pediatrik secara acak dan meminta ChatGPT untuk mendiagnosisnya.

Guna mempermudah, para peneliti menggunakan pendekatan tunggal dalam menanyakan LLM untuk semua studi kasus. Mereka pertama-tama menempelkan teks dari studi kasus, dan kemudian menindaklanjuti dengan perintah ‘Buat daftar diagnosis banding dan diagnosis akhir’.

Diagnosis banding adalah metodologi yang digunakan untuk menyarankan diagnosis awal (atau beberapa diagnosis awal) menggunakan riwayat dan pemeriksaan fisik pasien. Diagnosis akhir, seperti namanya, diyakini sebagai penyebab gejala tersebut.

Jawaban yang diberikan oleh LLM dinilai oleh dua rekan sejawat yang tidak terlibat dalam penelitian ini ada tiga kemungkinan skor, yaitu benar, salah dan tidak sepenuhnya mencakup diagnosis.

Ilustrasi ChatGPT

Tim peneliti menemukan bahwa ChatGPT hanya menghasilkan skor yang benar sebanyak 17 kali—dari jumlah tersebut, 11 di antaranya secara klinis terkait dengan diagnosis yang benar namun tetap saja salah.

Para peneliti mencatat hal yang jelas: ChatGPT jelas belum siap digunakan sebagai alat diagnosis namun mereka juga menyarankan bahwa pelatihan yang lebih selektif dapat meningkatkan hasil.

Mereka lebih lanjut menyarankan bahwa sementara itu, LLM seperti ChatGPT mungkin terbukti berguna sebagai alat administratif, atau untuk membantu dalam menulis artikel penelitian atau untuk menghasilkan lembar instruksi untuk digunakan oleh pasien dalam aplikasi perawatan setelahnya, demikian laporan Science x Network. (BS)