ChatGPT評估兒童呼吸系統疾病竟超實習醫生

在奧地利維也納舉行的歐洲呼吸學會(ERS)大會上所展示的一項研究表明,聊天機器人 ChatGPT 在評估諸如囊性纖維化、哮喘和胸部感染等複雜呼吸系統疾病病例時的表現要優於實習醫生。

該研究還顯示,谷歌的聊天機器人 Bard 在某些方面的表現比實習醫生出色,而微軟的 Bing 聊天機器人的表現則與實習醫生旗鼓相當。

此項研究指出,這些大型語言模型(LLM)能夠用於輔助實習醫生、護士和全科醫生更迅速地爲患者進行分診,從而減輕醫療服務的壓力。

該研究由英國愛丁堡皇家兒童醫院和青少年醫院的兒科肺病顧問、愛丁堡大學名譽高級臨牀講師曼吉特·納拉亞南(Manjith Narayanan)博士提出。他說:“像 ChatGPT 這類大型語言模型在過去的一年半中脫穎而出,它們似乎能夠理解自然語言,並且能給出足以充分模擬人類對話的迴應。這些工具在醫學中有幾個潛在的應用。我開展這項研究的動機在於評估 LLM 在現實生活中對臨牀醫生的協助程度究竟如何。”

爲了探究這一問題,納拉亞南博士使用了兒科呼吸醫學中經常出現的臨牀場景。這些場景由另外六位兒科呼吸醫學專家提供,涵蓋了囊性纖維化、哮喘、睡眠呼吸障礙、呼吸困難和胸部感染等主題。這些場景均無法明確診斷,且不存在已發表的證據、指南或專家共識能指向特定的診斷或方案。

十位兒科臨牀經驗不足四個月的實習醫生獲得了一個小時的時間,在此期間,他們能夠使用互聯網,但不能使用任何聊天機器人,用 200 至 400 個單詞的描述性答案來解決每個場景。每個場景也都提供給了三個聊天機器人。

所有回答均由六位兒科呼吸專家依據正確性、全面性、有用性、合理性和連貫性來進行評分。他們還被要求說明他們認爲每個回答是由人類還是聊天機器人生成的,並給每個回答打出 9 分制的總分。

ChatGPT 3.5 版本所提供的解決方案,總體平均得分爲 9 分裡的 7 分,並且被認爲比其他聊天機器人的回答更具人類特徵。Bard 的平均得分爲 9 分裡的 6 分,被評價爲比實習醫生的回答更“連貫”,但在其他方面並不比實習醫生更好或更差。Bing 平均得分爲 9 分中的 4 分——與實習醫生總體得分相同。專家可靠地認定 Bing 和 Bard 的回答是非人類的。

納拉亞南博士說:“據我們所知,我們的這項研究是首次在反映現實臨牀實踐的情形下對大型語言模型和實習醫生進行測試。我們是通過允許實習醫生像在現實生活中那樣,能夠完全訪問互聯網上可用的資源來做到這一點的。這把重點從測試記憶力上轉移開了,在這一方面大型語言模型具有明顯的優勢。因此,這項研究向我們展示了使用大型語言模型的另一種方式,以及我們距離日常臨牀應用有多近。

“我們沒有直接測試大型語言模型在面向患者這一角色中的工作情況。然而,它可以被分診護士、實習醫生和初級保健醫生使用,他們通常是第一個查看患者的人。”

研究人員在這三個大型語言模型裡都沒有發現任何明顯的“幻覺”(貌似虛構的信息)實例。

“儘管在咱們的研究裡,我們沒瞧見大型語言模型產生幻覺的任何例子,不過我們得留意這種可能性,還要制定應對辦法。”納拉亞南博士補充說。

必應、巴德還有實習醫生偶爾會給出被認定跟上下文不相關的答案。

納拉亞南博士和他的同事們當下打算針對更資深的醫生來測試聊天機器人,並且研究更新穎、更先進的大型語言模型。

希拉里·平諾克(Hilary Pinnock)是 ERS 教育委員會主席,也是英國愛丁堡大學初級保健呼吸醫學教授,她未參與此項研究。她說:“這是一項饒有趣味的研究。看到像 ChatGPT 這樣廣泛可用的人工智能工具能夠爲兒童呼吸系統疾病的複雜病例提供解決方案,這令人鼓舞,但或許也有點讓人害怕。它無疑爲人工智能支持的護理的全新世界指明瞭方向。

“然而,正如研究人員所指出的,在我們開始將人工智能用於常規臨牀實踐之前,我們需要確信它不會因‘幻想’虛假信息或因爲它是基於不能公平代表我們所服務人羣的數據進行訓練而產生錯誤。正如研究人員所展示的那樣,人工智能帶來了新工作方式的希望,但在我們把這項技術融入常規護理之前,我們得對臨牀的準確性和安全性展開廣泛測試,對組織效率進行切實評估,並探究其社會影響。”

由歐洲呼吸學會提供