導(dǎo)讀:醫(yī)療保健無(wú)疑是受數(shù)據(jù)泄露影響最大的行業(yè)之一,每起數(shù)據(jù)泄露事件平均造成920萬(wàn)美元損失。
醫(yī)療保健無(wú)疑是受數(shù)據(jù)泄露影響最大的行業(yè)之一,每起數(shù)據(jù)泄露事件平均造成920萬(wàn)美元損失。在此類(lèi)違規(guī)案例當(dāng)中,最常暴露在風(fēng)險(xiǎn)之下的信息類(lèi)型正是敏感客戶(hù)數(shù)據(jù)。
面對(duì)突如其來(lái)的新冠疫情,我們已經(jīng)親眼見(jiàn)證創(chuàng)紀(jì)錄級(jí)別的數(shù)據(jù)泄露事件。IBM最近的一份報(bào)告發(fā)現(xiàn),數(shù)據(jù)泄露的成本也在急劇攀升。
醫(yī)療保健無(wú)疑是受數(shù)據(jù)泄露影響最大的行業(yè)之一,每起數(shù)據(jù)泄露事件平均造成920萬(wàn)美元損失。在此類(lèi)違規(guī)案例當(dāng)中,最常暴露在風(fēng)險(xiǎn)之下的信息類(lèi)型正是敏感客戶(hù)數(shù)據(jù)。
制藥和醫(yī)療保健企業(yè)均需要在保護(hù)患者數(shù)據(jù)的前提下,按照嚴(yán)苛的指導(dǎo)要求組織運(yùn)營(yíng)。因此,任何違規(guī)行為都可能引發(fā)高昂代價(jià)。例如,在整個(gè)藥物發(fā)現(xiàn)階段,企業(yè)需要收集、處理和存儲(chǔ)個(gè)人身份信息(PII),而在試驗(yàn)結(jié)束并提交臨床申請(qǐng)時(shí),必須在所公布的結(jié)果中注意保護(hù)患者隱私。
歐洲藥品管理局(EMA)0070號(hào)法規(guī)和加拿大衛(wèi)生部出臺(tái)的《公開(kāi)發(fā)布臨床信息》規(guī)定,均對(duì)數(shù)據(jù)匿名化提出了具體建議,希望盡量降低利用結(jié)果還原患者身份信息的風(fēng)險(xiǎn)。
除了倡導(dǎo)數(shù)據(jù)隱私之外,這些法規(guī)還要求共享試驗(yàn)數(shù)據(jù),確保社區(qū)能夠以此為基礎(chǔ)開(kāi)展工作。但這無(wú)疑讓企業(yè)陷入了兩難境地。
所以,制藥企業(yè)到底如何在數(shù)據(jù)隱私與透明度之間求取平衡,同時(shí)又能及時(shí)、經(jīng)濟(jì)且高效地發(fā)布研究結(jié)果?事實(shí)證明,AI技術(shù)能夠承擔(dān)起提交過(guò)程中超過(guò)97%的工作量,大大減輕企業(yè)的運(yùn)營(yíng)負(fù)擔(dān)。
臨床研究結(jié)果(CSR)匿名化為何如此困難?
在實(shí)施臨床提交匿名化的過(guò)程中,企業(yè)主要面臨三大核心挑戰(zhàn):
1.非結(jié)構(gòu)化數(shù)據(jù)難于處理:臨床試驗(yàn)數(shù)據(jù)當(dāng)中,有很大一部分屬于非結(jié)構(gòu)化數(shù)據(jù)。研究結(jié)果中包含大量文本數(shù)據(jù)、掃描圖片和表格,處理效率低下。研究報(bào)告動(dòng)輒上千頁(yè),從其中識(shí)別出敏感信息就如同大海撈針。而且,沒(méi)有任何標(biāo)準(zhǔn)化技術(shù)培訓(xùn)解決方案能夠自動(dòng)執(zhí)行這類(lèi)處理工作。
2.手動(dòng)過(guò)程既繁瑣又容易出錯(cuò):如今,制藥企業(yè)需要雇用數(shù)百名員工對(duì)臨床研究提交進(jìn)行匿名處理。整個(gè)團(tuán)隊(duì)需要經(jīng)歷超過(guò)25個(gè)復(fù)雜步驟,典型的摘要文檔就可能需要長(zhǎng)達(dá)45天的處理周期。而且在手動(dòng)檢查幾千頁(yè)材料時(shí),枯燥的過(guò)程往往極易引發(fā)錯(cuò)誤。
3.監(jiān)管指南的開(kāi)放性解釋?zhuān)?/strong>雖然法規(guī)中提出不少詳細(xì)建議,但細(xì)節(jié)仍然不夠完備。例如,加拿大衛(wèi)生部的《公開(kāi)發(fā)布臨床信息》規(guī)定就要求身份信息的還原風(fēng)險(xiǎn)應(yīng)低于9%,卻并沒(méi)有詳細(xì)介紹具體的風(fēng)險(xiǎn)計(jì)算方法。
下面,我們將從解決問(wèn)題的角度,設(shè)想能夠處理這類(lèi)匿名化需求的具體方案。
利用增強(qiáng)分析識(shí)別人類(lèi)語(yǔ)言中的敏感信息
以下三大要素,有助于建立技術(shù)驅(qū)動(dòng)型的匿名化解決方案:
a)用于自然語(yǔ)言處理(NLP)的AI語(yǔ)言模型
如今,AI已經(jīng)能夠像藝術(shù)家那樣創(chuàng)作,也能像醫(yī)生那樣診斷。深度學(xué)習(xí)技術(shù)已經(jīng)推動(dòng)AI取得諸多進(jìn)步,而AI語(yǔ)言模型正是其中一股中堅(jiān)力量。作為專(zhuān)司處理人類(lèi)語(yǔ)言的算法分支,AI語(yǔ)言模型特別擅長(zhǎng)檢測(cè)命名實(shí)體,例如患者姓名、社保號(hào)碼和郵政編碼。
不知不覺(jué)當(dāng)中,這些強(qiáng)大的AI模型已經(jīng)滲透到公共領(lǐng)域的各個(gè)角落,并受到公開(kāi)文檔的規(guī)?;?xùn)練。除了知名的維基百科之外,包含40000名患者脫敏數(shù)據(jù)的MIMIC-III v1.4數(shù)據(jù)庫(kù)也成為訓(xùn)練AI模型的寶貴資源。當(dāng)然,為了提高模型性能,還需要由領(lǐng)域?qū)<腋鶕?jù)內(nèi)部臨床試驗(yàn)報(bào)告,對(duì)模型開(kāi)展后續(xù)重新訓(xùn)練。
b)通過(guò)人機(jī)回圈設(shè)計(jì)提高準(zhǔn)確率
加拿大衛(wèi)生部提出的9%風(fēng)險(xiǎn)閾值標(biāo)準(zhǔn),可以大致轉(zhuǎn)化為95%左右的模型準(zhǔn)確度要求(一般用召回率或精確度來(lái)衡量)。AI算法能夠查看大量數(shù)據(jù)并運(yùn)行多輪訓(xùn)練周期來(lái)提高自身準(zhǔn)確度。然而,單靠技術(shù)改進(jìn)還不足以為臨床應(yīng)用做好準(zhǔn)備,這些模型還需要人的引導(dǎo)與支持。
為了解決臨床試驗(yàn)數(shù)據(jù)的主觀(guān)性并改善產(chǎn)出結(jié)果,分析解決方案在設(shè)計(jì)上要求與人類(lèi)協(xié)同工作——這就是所謂增強(qiáng)智能。即將人類(lèi)視為人機(jī)回圈中的一部分,他們不僅負(fù)責(zé)數(shù)據(jù)標(biāo)記和模型訓(xùn)練,同時(shí)要在解決方案生效后定期提供反饋。通過(guò)這種方式,模型的準(zhǔn)確度和產(chǎn)出性能都將有所提升。
c)以協(xié)同方式解決問(wèn)題
我們假設(shè)某項(xiàng)研究共涉及1000名患者,其中980名來(lái)自美國(guó)本土,其余20人來(lái)自南美洲。那么,是否需要對(duì)這20位患者的數(shù)據(jù)進(jìn)行編輯(涂黑)或匿名化處理?是否有必要在同一國(guó)家或洲內(nèi)選擇患者樣本?攻擊者可能會(huì)以哪些方式把這些匿名化信息同年齡、郵政編碼等數(shù)據(jù)結(jié)合起來(lái),最終還原患者身份?
很遺憾,這些問(wèn)題并沒(méi)有標(biāo)準(zhǔn)答案。為了更清楚地解釋臨床提交指南,制藥商、臨床研究組織(CRO)、技術(shù)解決方案供應(yīng)商和學(xué)術(shù)界的研究人員需要聯(lián)合起來(lái)、協(xié)同處理。
AI驅(qū)動(dòng)的匿名化方法
有了以上幾條基本思路,接下來(lái)就是把它們拼湊成完整的解決方案流程。而整個(gè)匿名化方案中的各項(xiàng)技術(shù),應(yīng)當(dāng)基于我們已經(jīng)在工作中使用的實(shí)際方法。
臨床研究報(bào)告中包含各種結(jié)構(gòu)化數(shù)據(jù)(數(shù)字與身份實(shí)體,例如人口統(tǒng)計(jì)信息和地址條目),以及我們之前討論過(guò)的各種非結(jié)構(gòu)化數(shù)據(jù)元素。必須妥善處理,才能防止惡意黑客將這些內(nèi)容還原為敏感的命名實(shí)體。結(jié)構(gòu)化數(shù)據(jù)相對(duì)易于處理,但AI算法還需要攻克非結(jié)構(gòu)化數(shù)據(jù)這道難關(guān)。
因此,首先使用光學(xué)字符識(shí)別(OCR)或計(jì)算機(jī)視覺(jué)等技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)(通常為掃描圖像或PDF等格式)轉(zhuǎn)換為可讀形式。之后,將AI算法應(yīng)用于文檔以檢測(cè)個(gè)人身份信息。為了提升算法性能,用戶(hù)可以分享對(duì)樣本結(jié)果的反饋,幫助系統(tǒng)了解該如何處理這些置信度較低的分析內(nèi)容。
AI驅(qū)動(dòng)的匿名化方法
在匿名化完成之后,還須評(píng)估相應(yīng)的身份還原風(fēng)險(xiǎn)。這項(xiàng)工作通常需要參考人群背景,再結(jié)合來(lái)自其他類(lèi)似試驗(yàn)的數(shù)據(jù)來(lái)共同完成。風(fēng)險(xiǎn)評(píng)估會(huì)通過(guò)一組元素著重識(shí)別三大風(fēng)險(xiǎn)場(chǎng)景——檢察官、記者和營(yíng)銷(xiāo)人員。這三群群體會(huì)從自身需求出發(fā),嘗試對(duì)患者信息加以還原。
在風(fēng)險(xiǎn)水平達(dá)到規(guī)定建議的9%之前,匿名化流程會(huì)持續(xù)引入更多業(yè)務(wù)規(guī)則和算法改進(jìn),嘗試以重復(fù)循環(huán)的方式增強(qiáng)效能。再通過(guò)與其他技術(shù)應(yīng)用的集成并建立機(jī)器學(xué)習(xí)運(yùn)營(yíng)(ML Ops)流程,整個(gè)匿名化方案就可以被納入實(shí)際工作流當(dāng)中。
比算法更艱難的挑戰(zhàn)——數(shù)據(jù)質(zhì)量
對(duì)制藥企業(yè)來(lái)說(shuō),這樣的匿名化解決方案能夠?qū)⑻峤恢芷诳s短達(dá)97%。更重要的是,這種半自動(dòng)化工作流程既提高了效率,同時(shí)又保證有人類(lèi)參與其中。但是,構(gòu)建AI驅(qū)動(dòng)型匿名化解決方案面臨的最大挑戰(zhàn)又是什么?
其實(shí)與大多數(shù)數(shù)據(jù)科學(xué)實(shí)踐一樣,這項(xiàng)工作的最大阻礙并不是用于識(shí)別命名實(shí)體的AI算法,而是如何將研究報(bào)告轉(zhuǎn)換為可供AI處理的高質(zhì)量數(shù)據(jù)。對(duì)于格式不同、樣式和結(jié)構(gòu)各異的文檔,相應(yīng)的內(nèi)容攝取管道經(jīng)常會(huì)無(wú)所適從。
因此,AI匿名化解決方案需要不斷微調(diào)以適應(yīng)新的文檔編碼格式,或者準(zhǔn)確檢測(cè)出圖片/表格掃描件中的起始和結(jié)束位置。很明顯,這方面工作才是AI匿名化當(dāng)中最耗費(fèi)時(shí)間和精力的領(lǐng)域。
臨床研究的匿名化新挑戰(zhàn)
隨著技術(shù)的快速進(jìn)步,臨床研究的匿名化難度會(huì)不會(huì)持續(xù)降低、更加高效?雖然AI驅(qū)動(dòng)型解決方案確實(shí)令人眼前一亮,但后續(xù)還將有新的挑戰(zhàn)需要關(guān)注。
首先,通過(guò)社交媒體、設(shè)備使用情況和線(xiàn)上跟蹤等方式收集到的消費(fèi)者數(shù)據(jù),正大大提升身份還原的風(fēng)險(xiǎn)。攻擊者可以將這些公開(kāi)信息同臨床研究數(shù)據(jù)相結(jié)合,準(zhǔn)確識(shí)別出患者的身份。更令人擔(dān)憂(yōu)的是,惡意黑客在A(yíng)I成果的運(yùn)用上非常積極,甚至有可能搶在制藥企業(yè)的行動(dòng)之前。
最后,法規(guī)也在持續(xù)演變,著力適應(yīng)特定國(guó)家/地區(qū)的實(shí)踐態(tài)勢(shì)。也許很快就會(huì)有國(guó)家公布臨床提交匿名化的具體法規(guī),這必將增加企業(yè)保持合規(guī)的復(fù)雜性和成本負(fù)擔(dān)。但所謂前途是光明的、道路是曲折的,AI技術(shù)的發(fā)展成熟至少為整個(gè)行業(yè)帶來(lái)了攻克難題的希望曙光。