Ενώ έχουμε ακούσει για τις καινοτόμες χρήσεις της τεχνητής νοημοσύνης (AI), νέα έρευνα αποκαλύπτει ότι το ChatGPT-4 δεν μπορεί να αντικαταστήσει τον καρδιολόγο σας, τουλάχιστον όσον αφορά την διαχείριση και θεραπεία καρδιαγγειακών νοσημάτων.
Στην μελέτη, που διεξήχθη από το Washington State University, οι ερευνητές αξιολόγησαν την ικανότητα του ChatGPT-4 να αξιολογεί τον κίνδυνο καρδιακής προσβολής μεταξύ προσομοιώσεων περιστατικών ασθενών με πόνο στο στήθος.
Το σύστημα τεχνητής νοημοσύνης παρείχε ασυνεπή συμπεράσματα, δίχως να εντοπίζει μεθόδους που χρησιμοποιούσαν οι γιατροί για την αξιολόγηση του καρδιακού κινδύνου ενός ασθενούς.
Ο πόνος στο στήθος αποτελεί την πιο κοινή αιτία που οι άνθρωποι επισκέπτονται τα επείγοντα. Οι γιατροί συχνά βασίζονται σε εργαλεία αξιολόγησης κινδύνου για να προσδιορίσουν ποιοι αντιμετωπίζουν υψηλό κίνδυνο καρδιακής προσβολής και χρειάζονται άμεση θεραπεία και ποιοι μπορούν να σταλούν με ασφάλεια στο σπίτι.
Αυτά τα εργαλεία λαμβάνουν υπόψη παράγοντες όπως η ηλικία του ασθενούς, το ιατρικό ιστορικό, τα ευρήματα ηλεκτροκαρδιογραφήματος και τα αποτελέσματα των εξετάσεων αίματος.
AI VS καρδιολόγου
Σε αυτή τη μελέτη, που δημοσιεύτηκε στο περιοδικό PLoS ONE, οι ερευνητές δημιούργησαν τρία σετ προσομοιώσεων ασθενών. Έδωσαν στη συνέχεια αυτά τα δεδομένα στο ChatGPT-4 και του ζήτησαν να αξιολογήσει τον κίνδυνο για κάθε “ασθενή”.
Τα καλά νέα είναι, σύμφωνα με τους ερευνητές ότι οι αξιολογήσεις κινδύνου του ChatGPT-4 συσχετίστηκαν πολύ καλά με τις δοκιμασμένες και αληθινές αξιολογήσεις που προκύπτουν από τα εργαλεία των γιατρών.
Αυτό υποδηλώνει ότι, με τη σωστή εκπαίδευση, τα μοντέλα φυσικής γλώσσας AI, όπως το ChatGPT, έχουν τη δυνατότητα να αποτελέσουν πολύτιμα εργαλεία που μπορούν να χρησιμοποιήσουν οι γιατροί για να αξιολογούν γρήγορα και με ακρίβεια τον κίνδυνο ενός ασθενούς.
Ωστόσο, όταν οι ερευνητές τροφοδοτούσαν το ChatGPT-4 με τα ίδια ακριβώς δεδομένα ασθενών πολλές φορές, συχνά έβγαζε πολύ διαφορετικές βαθμολογίες κινδύνου.
Αυτή η ασυνέπεια ήταν ακόμη πιο έντονη στο πιο περίπλοκο μοντέλο προσομοίωσης, που περιλάμβανε 44 διαφορετικές μεταβλητές.
«Το ChatGPT δεν ενεργούσε με συνέπεια», λέει ο επικεφαλής συγγραφέας της μελέτης Δρ. Thomas Heston, ερευνητής στο Elson S. Floyd College of Medicine του Washington State University.
«Ενώ το τροφοδοτούσαμε κάθε φορά με τα ίδια δεδομένα, αρχικά έδινε αξιολόγηση χαμηλού κινδύνου, μετά την επόμενη φορά έναν ενδιάμεσο κίνδυνο και περιστασιακά, θα έφτανε και στον υψηλότερο».
Πού οφείλεται η ασυνέπεια της τεχνητής νοημοσύνης
Μέρος του ζητήματος μπορεί να έγκειται στον τρόπο σχεδιασμού των γλωσσικών μοντέλων, τα οποία για να μιμηθούν τη μεταβλητότητα και τη δημιουργικότητα της ανθρώπινης γλώσσας, ενσωματώνουν ένα στοιχείο τυχαιότητας.
Αν και αυτό συμβάλλει στις πιο φυσικές απαντήσεις μπορεί να αποτελέσει πρόβλημα όταν η συνέπεια είναι το κλειδί, όπως συμβαίνει στις ιατρικές διαγνώσεις και στις αξιολογήσεις κινδύνου.
Οι ερευνητές ανακάλυψαν ότι το ChatGPT-4 είχε καλύτερη απόδοση για ασθενείς στα χαμηλά και υψηλά άκρα του φάσματος κινδύνου.
Ήταν στους ασθενείς μεσαίου κινδύνου όπου οι αξιολογήσεις του ήταν ασυνεπείς, γεγονός ιδιαίτερα ανησυχητικό καθώς ειδικά για αυτούς τους ασθενείς η ακριβής αξιολόγηση του κινδύνου είναι υψίστης σημασίας για την καλύτερη λήψη κλινικών αποφάσεων.
Μία ακόμα αδυναμία της τεχνητής νοημοσύνης ήταν η περιστασιακή τάση του ChatGPT-4 να προτείνει ακατάλληλες ιατρικές εξετάσεις.
Για παράδειγμα, μερικές φορές πρότεινε μια ενδοσκόπηση (μια διαδικασία για την εξέταση της πεπτικής οδού) ως την πρώτη εξέταση για έναν ασθενή που πίστευε ότι μπορεί να έχει παλινδρόμηση οξέος αντί να ξεκινήσει με λιγότερο επεμβατικές εξετάσεις όπως θα έκανε ένας γιατρός.
Παρά τους τρέχοντες περιορισμούς όμως, οι ερευνητές παραμένουν αισιόδοξοι για το μέλλον της τεχνητής νοημοσύνης στην ιατρική.
Προτείνουν ότι εργαλεία όπως το ChatGPT-4, με περαιτέρω βελτίωση και σε συνδυασμό με καθιερωμένες κλινικές οδηγίες, θα μπορούσαν κάποτε να βοηθήσουν τους γιατρούς να κάνουν ταχύτερες και ακριβέστερες αξιολογήσεις, οδηγώντας τελικά στην καλύτερη φροντίδα των ασθενών.