L’intelligenza artificiale sta cambiando la pratica clinica. Modelli come ChatGPT, GPT‑4 e Claude Opus migliorano la comprensione e la generazione del linguaggio. Studi recenti pubblicato su Frotires in Psychiatry e rapporti dell’American Psychiatric Association mostrano il loro potenziale.
La psichiatria ha bisogno di soluzioni personalizzate per i disturbi mentali complessi. I LLM possono aiutare a migliorare l’accesso alla terapia. Offrono supporto digitale, educazione per i pazienti e analisi del linguaggio.
Questa revisione esamina il ruolo dei LLM in psichiatria. Identifica i loro vantaggi e limiti. È la prima a focalizzarsi su ChatGPT e GPT‑4 in questo campo.
La salute mentale negli Stati Uniti ha una crescente domanda di servizi. L’intelligenza artificiale potrebbe cambiare l’accesso, i costi e la distribuzione delle cure. Questa introduzione prepara il lettore per esplorare le metodologie, le evidenze e le questioni etiche.
Punti chiave
- I modelli linguistici grandi offrono strumenti nuovi per il supporto clinico e l’analisi del linguaggio in psichiatria.
- ChatGPT psichiatria e GPT‑4 psichiatria rappresentano esempi concreti di applicazioni con potenziale clinico e limiti evidenti.
- La revisione sistematica mira a sintetizzare evidenze su efficacia, sicurezza e usabilità degli LLM in psichiatria.
- Le soluzioni AI possono migliorare l’accesso alla cura negli Stati Uniti, ma non sostituiscono il ruolo del terapeuta umano.
- Questioni etiche e di qualità dei dati restano centrali per l’implementazione clinica.

Panoramica e metodo della revisione su LLM in psichiatria
Questa sezione offre una panoramica generale. Esplora come i modelli linguistici vengono usati in psichiatria. Si concentra sull’importanza dei LLM e sul loro potenziale uso in terapia.
La ricerca è stata registrata su PROSPERO e segue i criteri PRISMA. Questo garantisce chiarezza e riproducibilità. Si è esaminato il periodo da dicembre 2022 a marzo 2024.
La strategia include il screening delle referenze. Questo aiuta a trovare risultati importanti che potrebbero non essere stati catturati dai database.
Contesto e rilevanza clinica
Si analizza il ruolo ChatGPT clinica nelle cure. Si esamina come supporta la valutazione iniziale, il monitoraggio e il supporto post-trattamento. La letteratura mostra i benefici come maggiore accesso ai servizi di salute mentale e riduzione del gap terapeutico.
Si discute anche come i LLM aiutano i terapeuti. Ad esempio, nella valutazione preliminare, nell’educazione del paziente e nel supporto a cambiamenti comportamentali.
Strategia di ricerca e criteri di selezione
La ricerca ha coinvolto ricerca PubMed Embase Scopus Web of Science. Si sono cercati studi su LLM e psichiatria. Si sono considerate patologie come la depressione e la schizofrenia.
I criteri inclusione esclusione. hanno incluso studi originali con risultati misurabili. Sono stati esclusi review e studi non in inglese.
Il processo iniziale ha prodotto 771 record. Dopo la rimozione dei duplicati, sono stati selezionati 16 studi per l’inclusione.
Processo di estrazione dati e valutazione qualitativa
L’estrazione dati LLM è stata fatta da due revisori indipendenti. Si sono estratti dati come titolo, autori e risultati sull’efficacia.
Per la valutazione qualità studi, si è usato un approccio dettagliato. Ogni studio è stato analizzato con analisi narrative e tabelle sintesi.
Per capire l’impatto delle pubblicazioni, si è analizzato l’editoriale. Si sono considerati i classici indici di letteratura come l’aèèartenenza delle riviste alle categorie di maggiore presgio.
| Fase | Attività | Output |
|---|---|---|
| Registrazione | Iscrizione protocollo su PROSPERO | CRD42024524035 |
| Ricerca | Esecuzione su PubMed, Embase, Scopus, Web of Science | 771 record iniziali |
| Screening | Rimozione duplicati; titolo/abstract | Selezione per full-text |
| Inclusione | Valutazione full-text da due revisori (MO, EK) | 16 studi inclusi |
| Estrazione dati | Template strutturato; doppia estrazione | Dataset completo per analisi |
| Valutazione qualità | Analisi narrativa, tabelle sintesi e SJR | Valutazione qualitativa dettagliata |

Applicazioni pratiche e risultati: evidenze recenti sull’uso dei LLM in psichiatria
La ricerca recente esplora l’uso dei modelli linguistici grandi (LLM) in psichiatria. Si osservano come questi modelli aiutano nella creazione di formule psicodinamiche. Si confrontano anche la diagnostica psichiatrica GPT‑4 con versioni precedenti, mostrando risultati variabili.
Ragionamento clinico e diagnostica
Studi valutano la capacità dei modelli di creare formule cliniche e supportare la diagnosi. Hwang et al. ha trovato che ChatGPT produce formule psicodinamiche con buone evidenze statistiche. Li et al. ha dimostrato che GPT‑4 supera altri modelli come Bard e Llama‑2 in esami psichiatrici.
Alcuni studi mettono in luce limiti nella valutazione del rischio suicidio. ChatGPT‑3.5 tende a sottostimarlo, mentre GPT‑4 riduce questo gap. D’Souza et al. e Heston et al. hanno mostrato che GPT‑4 risponde bene a livelli di gravità depressiva, ma la supervisione clinica è necessaria.
Analisi dei social media e data augmentation
LLM vengono usati per analizzare i social media e migliorare i dati. Liyanage et al. ha usato data augmentation GPT per aumentare i dati e migliorare le metriche di classificazione. Questo ha portato a un aumento di F‑score e Matthew’s Correlation Coefficient.
Mazumdar et al. ha dimostrato che GPT‑3 può classificare il benessere su Reddit con alta accuracy. Tuttavia, ci sono preoccupazioni sui bias demografici e sulla qualità dei dati social. Questi aspetti richiedono strategie di validazione esterna.
Interventi educativi e supporto terapeutico
LLM vengono sperimentati per creare materiale didattico in psichiatria. Spallek et al. ha mostrato che ChatGPT può migliorare con revisione esperta. Parker et al. ha trovato che ChatGPT‑3.5 può rispondere a domande su disturbi mentali, ma ha limiti nelle citazioni aggiornate.
Hadar-Shoval et al. e Sezgin et al. hanno indicato che GPT‑4 offre risposte migliori su temi complessi. Il supporto terapeutico con ChatGPT è visto come strumento complementare, non sostitutivo della cura clinica.
Sintesi delle evidenze quantitative e qualità degli studi
Le evidenze mostrano che i LLM hanno potenzialità pratiche in diversi ambiti. Tuttavia, l’eterogeneità metodologica limita le generalizzazioni. Si osservano metriche di performance come F‑score e accuracy.
I 16 studi considerati provengono da più paesi e sono pubblicati su riviste di qualità. La qualità degli studi varia, con differenze tra scenari simulati e dati reali. Questo richiede l’adozione di protocolli standard per future valutazioni.
Tabella riassuntiva degli aspetti chiave
| Ambito | Modello principale | Risultati tipici | Limitazioni |
|---|---|---|---|
| Formulazioni cliniche | ChatGPT (3.5, 4) | Kendall’s W significativo; risposte coerenti con linee guida | Variazione tra versioni; supervisione clinica necessaria |
| Valutazione rischio suicidio | ChatGPT‑3.5, GPT‑4 | GPT‑4 migliore; 3.5 tende a sottostimare | Rischio di underestimation in scenari critici |
| Analisi social media | GPT‑3, ChatGPT | Reddit wellness classification con aumento F‑score e MCC | Bias demografico e qualità dei post |
| Data augmentation | ChatGPT, GPT-based pipelines | Miglioramento metriche performance classificatori. | Possibile amplificazione di bias nei dati sintetici |
| Educazione e supporto | ChatGPT, GPT‑4 | Materiale didattico psichiatria AI. utile con revisione | Fonti non sempre aggiornate; qualità variabile |
| Robustezza degli studi | – | Pubblicazioni in SJR journals; risultati promettenti | Eterogeneità metodologica; necessità di standard |
Le evidenze attuali mostrano potenzialità pratiche in diversi domini. È importante un approccio critico alla qualità degli studi per applicazioni sicure e affidabili.
Sicurezza, limiti, implicazioni etiche e prospettive future per LLM in psichiatria
La letteratura recente mostra rischi per la sicurezza clinica. Studi hanno dimostrato che ChatGPT-3.5 può sottovalutare il rischio suicidario. Questo può essere un problema in situazioni ad alto rischio.
Un esperto afferma che i modelli come GPT-4 possono aiutare il lavoro clinico. Ma non possono sostituire il giudizio psichiatrico. È importante integrare la tecnologia con norme e controlli rigorosi.
I limiti tecnici e etici sono vari. La variabilità tra versioni e modelli concorrenti influisce sull’accuratezza. I bias nei modelli linguistici sono un grande problema.
La trasparenza e la tracciabilità sono carenti. Gli LLM non sempre forniscono fonti aggiornate e spiegazioni riproducibili. Questo è stato evidenziato da Parker et al.
Le questioni di responsabilità e privacy richiedono regole chiare. L’uso ideale degli LLM è come strumento di supporto. È necessaria la supervisione clinica e protocolli per situazioni ad alto rischio.
Per il futuro, ci sono due strade: sviluppi tecnologici e standardizzazione. Sono necessari studi comparativi e metriche comuni. È importante monitorare l’impatto sull’organizzazione sanitaria.
Link Fonte
Omar M, Soffer S, Charney AW, Landi I, Nadkarni GN, Klang E. Applications of large language models in psychiatry: a systematic review. Front Psychiatry. 2024 Jun 24;15:1422807. doi: 10.3389/fpsyt.2024.1422807. PMID: 38979501; PMCID: PMC11228775.















