如何從健保資料庫挖掘個人隱私

民間健保監督聯盟、勞工團體和消基會等被保險人代表,在2013年5月24日當天在健保監理委員會上正式提案要求健保局必須修法限制健保資料庫的授權,否則不排除發起人民集體訴訟,告政府侵害個人隱私。

會有此相舉動是因為政府籌劃利用健保資料庫建立醫療雲系統,這時可以延伸出的問題除了個人隱私權的侵害,更包括個人實際生活利益的侵害。當一個人的就醫紀錄被公開時,我們對他的身理狀況就會較資訊不公開時有更詳細的了解,特別是保險業者,便能對這些人進行風險排除。未來保險公司在能更多降低風險的情況下,將變成無風險公司,這樣就缺乏了風險分攤的原意,對於天生或隱藏的弱勢群體將變得更加弱勢。

其實健保資料早就在販賣使用了,國家衛生研究院販賣此資料已久,在搜尋引擎上搜尋健保資料庫就可以得知其相關消息。和醫療雲不同的是國衛院所販賣的健保資料是抽樣的資料,雖然在資料提供時有將可以辨識身分的資料加密去人格化,事實上仍舊有方法可以將資料回溯把對應病例的當事人找出。也因此在申請健保資料的同時會需要填寫審請授權,其中一項規定就是不得以直接或間接方式辨識個人資料。在抽樣的資料下學者都可以利用方法回溯當事人的個人資料,更何況是醫療雲的概念對民眾權益的侵害更甚一般。如何從健保資料回溯個人資料呢?這個問題是所謂的Sample recognition 的問題。

Sample recognition 是實驗室經常遇到的問題,當實驗的樣本過多或因為當時在採集時標示不清,我們需要在事後驗證該樣本是由哪個實驗場域擷取的,這時就會用Sample recognition 的方法來協助判斷。若將個人的病例視為一種樣本,同樣的技術就能回溯當事人是誰。健保資料雖然把醫事人員、醫院、病患的名稱改編碼去人格化,一但搭配訪查或是戶政資料的協助個人的病例資料就全洩漏了。怎麼說呢?

首先健保資料庫的資料對醫院和醫事人員的保護是不足的。若把醫院當作節點把病患進出醫院的頻率當作流量來定義醫院與醫院的關聯性,很有意思的是我們很快就能從這樣的關係辨識出對應的醫院是哪些。特別是大型地區醫院或是生意很好的醫院。當醫院被標注了,接下來從醫事人員的排班就可以知道對應的醫事人員是誰。我們若把醫事人員當作節點,把就醫病患當作流體,原本要調查是否有消費醫療情況的研究中,就可以發現某些醫事人員是可以被標注的,特別是南北兩地跑的醫生和追隨他的病患。

而個人資料卻可透過親屬間的關係,加上年齡、性別與地域的關係,再加上上述對醫事機構和人員的標注就足以辨識當事人是誰了。舉例來說我們從健保資料可以知道某人的生日,他爸爸的生日,媽媽的生日,小孩的生日和性別,他們因為都在某間醫院看病,所以他們的居住地應該是在哪個區域。在這個區域內滿足這樣的生日日期的人有幾位?若搭配戶政資料,當事人馬上就可以被標注。在私立中國醫藥大學網站下的健康資料加值應用中心,裡頭所釋出的資料就有涵蓋戶政資料。這裡沒有太多人工智慧的技巧,只需要簡單扒資料的程式即可做到。若沒有戶政資料,透過訪查也可以得到這樣的資訊。這就是健保資料庫危險的地方,在抽樣資料中都能做到對少數人的辨識,更何況是醫療雲這種全資料的系統。你願意病例資料被公開?你可以繼續選擇沉默,或是讓更多人關注醫療雲的個資問題。