Berandasehat.id – Meskipun ChatGPT dilaporkan mampu lulus ujian medis, penelitian baru menunjukkan bahwa tidak bijaksana jika mengandalkan perangkat itu untuk beberapa penilaian kesehatan, misalnya untuk menentukan apakah pasien dengan nyeri dada perlu dirawat di rumah sakit.
Dalam penelitian yang melibatkan ribuan kasus simulasi pasien yang mengalami nyeri dada, ChatGPT memberikan kesimpulan yang tidak konsisten, sehingga menampilkan tingkat penilaian risiko jantung yang berbeda untuk data pasien yang sama persis.
Sistem kecerdasan buatan (AI) itu juga gagal menandingi metode tradisional yang digunakan dokter dalam menilai risiko penyakit jantung pasien, menurut studi yang dipublikasikan di jurnal PLOS ONE.
“ChatGPT tidak bertindak secara konsisten,” kata penulis utama Dr. Thomas Heston, peneliti di Elson S. Floyd College of Medicine di Washington State University. “Mengingat data yang sama persis, ChatGPT akan memberikan skor risiko rendah, kemudian risiko menengah, dan kadang-kadang, memberikan skor risiko tinggi.”
Penulis yakin masalah ini kemungkinan besar disebabkan oleh tingkat keacakan yang dibangun dalam versi perangkat lunak saat ini, ChatGPT4, yang membantunya memvariasikan responsnya untuk mensimulasikan bahasa alami. “Namun, keacakan yang sama tidak berlaku untuk penggunaan layanan kesehatan yang memerlukan jawaban tunggal dan konsisten,” kata Heston.
“Kami menemukan ada banyak variasi, dan variasi dalam pendekatan itu bisa berbahaya,” katanya. “Ini bisa menjadi alat yang berguna, tapi menurut saya teknologi ini berkembang jauh lebih cepat daripada pemahaman kita tentangnya. Jadi sangat penting bagi kita untuk melakukan banyak penelitian, terutama dalam situasi klinis yang berisiko tinggi ini.”

Nyeri dada merupakan keluhan umum di ruang gawat darurat sehingga mengharuskan dokter menilai secara cepat urgensi kondisi pasien. Beberapa kasus yang sangat serius mudah dikenali dari gejalanya, namun kasus dengan risiko lebih rendah bisa lebih rumit, kata Heston, terutama ketika menentukan apakah seseorang harus dirawat di rumah sakit untuk observasi atau dipulangkan dan menerima perawatan rawat jalan.
Saat ini para profesional medis sering menggunakan salah satu dari dua ukuran yang disingkat TIMI dan HEART untuk menilai risiko jantung. Heston menyamakan skala ini dengan kalkulator yang masing-masing menggunakan beberapa variabel termasuk gejala, riwayat kesehatan, dan usia. Sebaliknya, jaringan saraf AI seperti ChatGPT dapat menilai miliaran variabel dengan cepat, yang berarti jaringan tersebut berpotensi menganalisis situasi kompleks dengan lebih cepat dan menyeluruh.
Untuk penelitian ini, Heston dan rekannya Dr. Lawrence Lewis dari Universitas Washington di St. Louis pertama-tama menghasilkan tiga kumpulan data yang masing-masing berisi 10.000 kasus simulasi secara acak. Satu kumpulan data berisi tujuh variabel skala TIMI, kumpulan data kedua berisi lima variabel skala HEART, dan kumpulan data ketiga berisi 44 variabel kesehatan yang diacak.
Pada dua kumpulan data pertama, ChatGPT memberikan penilaian risiko yang berbeda sebesar 45% hingga 48% pada masing-masing kasus dibandingkan skor TIMI atau HEART yang tetap. Untuk kumpulan data terakhir, para peneliti menjalankan kasus tersebut sebanyak empat kali dan menemukan bahwa ChatGPT kerap tidak sesuai dengan dirinya sendiri, sehingga menghasilkan tingkat penilaian yang berbeda untuk kasus yang sama sebanyak 44%.
Potensi besar ChatGPT
Meskipun terdapat temuan negatif dalam penelitian ini, Heston melihat potensi besar AI generatif dalam layanan kesehatan yang perlu dikembangkan lebih lanjut. Misalnya, dengan asumsi standar privasi dapat dipenuhi, seluruh catatan medis dapat dimuat ke dalam program, dan dalam keadaan darurat, dokter dapat meminta ChatGPT untuk memberikan fakta paling relevan tentang pasien dengan cepat. Selain itu, untuk kasus yang sulit dan kompleks, dokter dapat meminta program untuk menghasilkan beberapa kemungkinan diagnosis.
“ChatGPT sangat baik dalam membuat diagnosis banding dan itu mungkin salah satu kekuatan terbesarnya,” kata Heston.
“Jika tidak begitu tahu apa yang terjadi pada seorang pasien, dokter dapat memintanya untuk memberikan lima diagnosis teratas dan alasan di balik masing-masing diagnosis tersebut. Jadi, hal ini bisa membantu memikirkan suatu masalah, namun hal ini tidak baik dalam membantu dokter untuk memberikan jawaban atas masalah yang ada,” tandas Heston dikutip laman MedicalXpress. (BS)