從這裡開始行動 - 有效減少AI病歷系統誤生成,守護醫療安全與資料合規
- 定期檢查AI生成報告內容,每日隨機抽查5份。
能及時發現異常,降低系統胡亂編造風險。
- 設定字數或關鍵詞限制,超過即自動提醒醫師二次確認。
防止AI長篇虛構內容流入正式病歷。
- 諮詢院內資訊專責人並參考官方《電子病歷應用管理規範》,每半年盤點存取權限。
強化個資保護與合法性,降低違規洩漏的法律風險。
- *遇疑義時優先請教臨床專業人員,不單憑AI結論決策*
維持醫療判斷權責分明,避免自動化偏見影響診斷品質。
當AI想幫忙卻搞砸了是什麼體驗
有時候,身邊總會出現那種想幫忙、結果卻不小心把事情搞砸的人。這狀況大家大概都遇過吧?只是這次主角換成了AI。有段時間,好像就是因為某個看似很厲害的功能,讓整件事變得一團亂。
先講個大概背景好了。現在在的公司,是做跟醫療紀錄相關的東西,核心產品算是靠AI來處理電子病歷,有點像醫生寫診斷筆記會用到的那種系統。最近試著弄了一項新功能,讓醫師能直接在APP裡錄下和病人對話,不用再自己打字輸入資料——聽起來好像很方便?差不多就是這個意思。
運作方式嘛,其實流程不複雜:第一步,大致上就是醫生開著APP錄音,把問診內容全都留下。然後……欸對了,接下來才是重點,但細節我還要再回憶一下,好像不是每一步都那麼順利。其實剛開始大家覺得滿新奇的,可惜後面就有些地方怪怪的——也許AI太「積極」,反而弄巧成拙。
說真的,那陣子討論這個問題的人還不少。有同事甚至私下說:「這工具是不是有自己的想法?」雖然講得有點誇張,但確實讓人感受到AI偶爾會跑偏。至於到底是哪個環節出問題,也不是每個人立刻就搞清楚,只能說整體經驗挺特別。如果要細數流程或者技術細節,可能還需要再花點時間整理。不過,就目前觀察,這類自動生成臨床紀錄的新嘗試,在某些情境下確實帶來一些意外的小插曲。
先講個大概背景好了。現在在的公司,是做跟醫療紀錄相關的東西,核心產品算是靠AI來處理電子病歷,有點像醫生寫診斷筆記會用到的那種系統。最近試著弄了一項新功能,讓醫師能直接在APP裡錄下和病人對話,不用再自己打字輸入資料——聽起來好像很方便?差不多就是這個意思。
運作方式嘛,其實流程不複雜:第一步,大致上就是醫生開著APP錄音,把問診內容全都留下。然後……欸對了,接下來才是重點,但細節我還要再回憶一下,好像不是每一步都那麼順利。其實剛開始大家覺得滿新奇的,可惜後面就有些地方怪怪的——也許AI太「積極」,反而弄巧成拙。
說真的,那陣子討論這個問題的人還不少。有同事甚至私下說:「這工具是不是有自己的想法?」雖然講得有點誇張,但確實讓人感受到AI偶爾會跑偏。至於到底是哪個環節出問題,也不是每個人立刻就搞清楚,只能說整體經驗挺特別。如果要細數流程或者技術細節,可能還需要再花點時間整理。不過,就目前觀察,這類自動生成臨床紀錄的新嘗試,在某些情境下確實帶來一些意外的小插曲。
醫生用的AI病歷系統突然開始胡說八道
本來,從錄音自動產生臨床紀錄看起來好像很單純,就是把錄到的內容轉成結構化的病歷,應該沒什麼特別困難吧?不過前陣子有個醫師提了一個奇怪的小狀況。事情是這樣:某天,有位醫師反映說,他用錄音想要產出一份病人紀錄,結果整張筆記跟他講的完全搭不上邊。比如說,系統生成了一篇關於「氣喘」患者的臨床摘要,可是那位醫師回想後,覺得自己根本沒有在對話或紀錄裡頭提過「氣喘」這三個字,更不用說連年齡還有其他病人資訊都對不上。
後來有工程人員去翻了一下當時的日誌,大概花了點時間查證。他們檢查了一輪語音轉文字出來的內容,好像也沒發現「氣喘」這詞有被提及。現在到底是哪裡出錯,也不是那麼明朗。有些細節大家還在討論,有可能是流程哪個環節出了小差池。不過目前初步看起來,似乎不是醫生自己的問題。至於數據、年齡那些,也許只是其中一個例子啦。不知道接下來會不會找到更確切原因,但暫時只能先觀察看看情況怎麼演變。
後來有工程人員去翻了一下當時的日誌,大概花了點時間查證。他們檢查了一輪語音轉文字出來的內容,好像也沒發現「氣喘」這詞有被提及。現在到底是哪裡出錯,也不是那麼明朗。有些細節大家還在討論,有可能是流程哪個環節出了小差池。不過目前初步看起來,似乎不是醫生自己的問題。至於數據、年齡那些,也許只是其中一個例子啦。不知道接下來會不會找到更確切原因,但暫時只能先觀察看看情況怎麼演變。
Comparison Table:
現象 | 描述 |
---|---|
AI幻覺 | 大型語言模型在缺乏明確線索時,自行補充細節,可能編造不真實的內容。 |
資料準確性 | 生成的資訊有可能包含根本不存在的案例或細節,造成誤導。 |
使用建議 | 在依賴AI生成內容時,需進行多次驗證以確保資料正確。 |
長度檢查措施 | 對於輸入內容設定字數下限,以避免過短訊息造成的錯誤生成。 |
未來發展 | 持續交流與學習將是找出合適應用方向的重要策略。 |

明明沒講氣喘卻冒出完整診斷報告的怪事
那天翻了下語音轉錄的紀錄,有個小地方讓人有點在意。當時看到某位醫師的兩段記錄,前後緊挨著出現。一段落寫得挺長,好像把要說的都講進去了;另一段卻只剩下一句話,短得像是隨口補充。大致推敲,他應該是先完整錄好一份備忘,沒什麼問題,一切運作正常。不過,大概過了一小會兒吧,他忽然想到有東西漏掉,就又簡單地補錄了幾個字。這種情況偶爾會發生,也許是臨時想起什麼細節,又或者只是想修正前面哪個地方。總之,看起來就像一篇比較長的文字旁邊跟著一句話,感覺不是特別罕見。有些醫師記憶力不差,但偶爾也會忘記一兩項,只能事後加上去。實際用起來,大多數人遇到類似狀況,都會選擇直接新增一句,而不是重錄全部內容。所以最後檔案裡頭就這樣多出了一行,比較明顯但也算常見吧。
工程師追查發現錄音轉文字根本沒關鍵字
他本來以為這個新輸入的內容會直接加在前一則紀錄後面,這樣想似乎也蠻合理,但實際上,設計者當初好像就是不想讓它變成這種模式。每回你按下錄音、然後產生紀錄時,前面的那一份就會被新的內容覆蓋掉。這其實滿容易讓人困惑的。不過話說回來,到底系統為什麼突然產出關於「氣喘」的醫療紀錄呢?
有必要稍微翻一翻裡頭的運作方式。流程其實沒太複雜,大概可以拆成幾個步驟:首先,醫師會直接在應用程式裡進行錄音;接著,系統再把聲音轉成文字內容。雖然順序看似簡單,中間偶爾還是可能冒出一些預期外的小插曲。
有必要稍微翻一翻裡頭的運作方式。流程其實沒太複雜,大概可以拆成幾個步驟:首先,醫師會直接在應用程式裡進行錄音;接著,系統再把聲音轉成文字內容。雖然順序看似簡單,中間偶爾還是可能冒出一些預期外的小插曲。

原來醫生以為追加備註結果整個被覆蓋
有時候,大概在一開始,醫生只是隨口錄了短短一句話。然後,好像有個先經過訓練的大型語言模型會把這些對話內容轉換成某種結構化的東西,說是要給那個專門針對特定任務調整過的模型用。這樣的流程裡,反正中間還得經手第三方的那種微調模型——最後它會產出一份臨床紀錄。不過回頭看,大家發現問題好像其實就卡在剛剛那個負責整理輸入資料的前面那步,那個原本就受過訓練的模型。記憶中我之前提到過類似情境:醫師只簡單留下一兩句音檔,有時候資料處理下來,就變得有點奇怪,也許就是所謂幻覺現象吧。所以整件事情繞了一圈,其實跟原始訊息的不完整也脫不了關係。有些細節或許當下沒人注意到,等結果出來才發現有落差。
拆解系統流程發現是預訓練模型在作怪
那句話好像是「Add on and off by the way」,內容其實沒有什麼醫療資訊。可是在某些時候,有些大型語言模型(像是ChatGPT那類)看到這一段,卻會突然開始補上一大堆從沒提過的東西,比如說病史、診斷流程甚至還有治療計劃。怎麼說呢?也許這種模型給人的感覺就很像一個講故事挺自信的人吧——有時候只要給它一點點提示,它就能把原本乾巴巴的一句話編成將近半篇小說。
為什麼會出現這樣的情況?其實不少人觀察到,只要輸入的內容裡頭沒有明確線索,AI常常就自己想像出一套情境來填補空白,好像它腦海裡已經預設了某種模式。有時候會不小心加上許多沒根據的細節,讓人以為真的發生過那些事。不太容易判斷到底是哪裡開始偏離,不過這現象確實存在,而且不是只有一次兩次。可能有七八成的人都碰過類似經驗吧?當然,也有人覺得在特定任務下,這種補充反而蠻有趣,但如果需要準確資訊,就得特別留意不要被帶偏了。
總體來看,大型語言模型雖然有助於組織文字或整理內容,但遇到資料不足時,很容易把缺漏自動腦補出來——偶爾甚至連主題都跑遠。因此在使用的時候,最好還是多花點心思檢查一下結果是否合理。如果只是拿來參考或輔助倒還行,要是真的拿去當正式依據,就必須再三確認才比較保險啦。
為什麼會出現這樣的情況?其實不少人觀察到,只要輸入的內容裡頭沒有明確線索,AI常常就自己想像出一套情境來填補空白,好像它腦海裡已經預設了某種模式。有時候會不小心加上許多沒根據的細節,讓人以為真的發生過那些事。不太容易判斷到底是哪裡開始偏離,不過這現象確實存在,而且不是只有一次兩次。可能有七八成的人都碰過類似經驗吧?當然,也有人覺得在特定任務下,這種補充反而蠻有趣,但如果需要準確資訊,就得特別留意不要被帶偏了。
總體來看,大型語言模型雖然有助於組織文字或整理內容,但遇到資料不足時,很容易把缺漏自動腦補出來——偶爾甚至連主題都跑遠。因此在使用的時候,最好還是多花點心思檢查一下結果是否合理。如果只是拿來參考或輔助倒還行,要是真的拿去當正式依據,就必須再三確認才比較保險啦。

那句『順便加個開關』讓AI腦補出完整病歷
有時候,像這種大型語言模型,其實主要靠的就是一種「下一個字會是什麼」的預測邏輯。每次你丟幾個詞進去,它不會真的去查資料,而是像在猜謎一樣,想想看接下來最可能冒出哪個詞。然後,再接著往下預測——就這樣一個又一個字、詞地串起來,回應你的問題。有些人覺得它好像很懂人,其實並不是用我們平常所說的思考或者推理,只是這種預測做得比較細緻罷了。
所以本來可能只是缺乏明確線索時,人還會說句「訊息不太夠」,可是在這種系統裡頭,情況常常變成……大概有點像:它看到頭痛不嚴重,就會順手搭配一些惡心、視線模糊,再加上一點眩暈之類——偶爾讓人忍不住懷疑,是不是多加了一些料。其實也沒那麼神秘,就是把很多資料裡的典型組合重新排列組裝而已。
有些專業背景的人或許會觀察到,這套方法適合處理某些類型的問答,但遇到複雜或需要深入判斷的狀況時,有可能給出的是拼湊出來、但和真實診斷距離還差一段的答案。不過,大致上目前主流模型都還是在這條路上走著,也許以後會改變吧。
所以本來可能只是缺乏明確線索時,人還會說句「訊息不太夠」,可是在這種系統裡頭,情況常常變成……大概有點像:它看到頭痛不嚴重,就會順手搭配一些惡心、視線模糊,再加上一點眩暈之類——偶爾讓人忍不住懷疑,是不是多加了一些料。其實也沒那麼神秘,就是把很多資料裡的典型組合重新排列組裝而已。
有些專業背景的人或許會觀察到,這套方法適合處理某些類型的問答,但遇到複雜或需要深入判斷的狀況時,有可能給出的是拼湊出來、但和真實診斷距離還差一段的答案。不過,大致上目前主流模型都還是在這條路上走著,也許以後會改變吧。
為什麼ChatGPT會像說書人自己編故事
大家有沒有聽過那種AI搞出來的「幻覺」現象?醫療筆記裡偶爾會冒出一些根本沒發生過的內容。這其實還滿讓人頭痛,萬一醫師稍微一不注意,把怪怪的東西存進系統裡,後續就可能會讓病歷亂七八糟。講到安全,有些人擔心資料出錯會影響病患,不曉得是不是曾經有人遇過這類狀況。再說,應用程式假如突然編造了一個不存在的患者,畫面大概也挺尷尬。
修正的方法好像倒也沒多複雜。有一次翻看紀錄,好像大部分轉錄都超過三百字左右,所以後來就在輸入那邊加了一道門檻:太短的不行,如果低於三百字就直接丟回去提示錯誤。也許哪天有空還可以動動手,把提示詞調整一下。
事情處理完隔一天又去查了下那些產生筆記的紀錄,看起來暫時沒再冒出什麼奇怪內容。不過這東西很難說,以後搞不好還是要偶爾盯著點比較保險吧。
修正的方法好像倒也沒多複雜。有一次翻看紀錄,好像大部分轉錄都超過三百字左右,所以後來就在輸入那邊加了一道門檻:太短的不行,如果低於三百字就直接丟回去提示錯誤。也許哪天有空還可以動動手,把提示詞調整一下。
事情處理完隔一天又去查了下那些產生筆記的紀錄,看起來暫時沒再冒出什麼奇怪內容。不過這東西很難說,以後搞不好還是要偶爾盯著點比較保險吧。

萬一醫生沒發現可能引發的醫療危機
說起來,其實最初並沒有什麼東西。不過嘛,想要寫這篇文章的時候,我還是希望能有些佐證。於是就把那個專案切回開發模式,反正長度檢查也先拿掉了,大致上試著重現那個狀況──嗯,就是那樣子啦!然後畫面上左邊顯示的是音訊逐字稿,右邊則是GPT跑出來的結構化內容。結果很妙,這位AI直接憑空捏造了一名新病患,居然還配上一段『胸口痛』的案例……看到這裡真的是有點哭笑不得。
後來我又讓GPT自己畫出它這次小小失誤的視覺版圖──就像前面貼上的那張「AI腦補」插圖一樣。
簡單帶過,如果你給AI提供的資訊太少,它八成會自己發揮得很自由。搞不好最後寫出來的東西,比小說還更天馬行空呢。
後來我又讓GPT自己畫出它這次小小失誤的視覺版圖──就像前面貼上的那張「AI腦補」插圖一樣。
簡單帶過,如果你給AI提供的資訊太少,它八成會自己發揮得很自由。搞不好最後寫出來的東西,比小說還更天馬行空呢。
最後我們用字數檢查阻止AI繼續寫小說
有時候在某個平台上看到關於生成式人工智慧的消息,大家好像都蠻熱衷討論這個主題。要是你對這些內容感到好奇,好像可以順便去LinkedIn那裡看看,他們時不時會分享一些動態。然後,如果想要比較及時地知道最近有什麼新鮮資訊,訂閱他們的電子報或者YouTube頻道,大概也算是一種選擇吧。不過說真的,未來AI怎麼發展,好像誰也沒法百分之百預測,但有人認為只要持續交流和學習,也許能慢慢找到合適的方向。