2017年3月18日,在由中國(guó)研究型醫(yī)院學(xué)會(huì)醫(yī)療信息化分會(huì)醫(yī)療和臨床科研大數(shù)據(jù)專業(yè)委員會(huì)主辦、HIT專家網(wǎng)承辦的“醫(yī)療大數(shù)據(jù)應(yīng)用與實(shí)踐研討會(huì)”上,國(guó)家衛(wèi)生計(jì)生委統(tǒng)計(jì)信息中心原副主任、中國(guó)醫(yī)院協(xié)會(huì)信息管理專業(yè)委員會(huì)(CHIMA)主任委員王才有闡述了當(dāng)前對(duì)醫(yī)療大數(shù)據(jù)概念的再認(rèn)識(shí),及其所面臨的機(jī)遇與挑戰(zhàn)。
醫(yī)療大數(shù)據(jù)
第一象限:大數(shù)據(jù)采集 在數(shù)據(jù)采集階段,醫(yī)院通常會(huì)使用關(guān)系型大數(shù)據(jù)庫(kù)(例如Oracle,DB2,MySQL……),其核心訴求是要保障大數(shù)據(jù)的完整性和一致性,確保數(shù)據(jù)不會(huì)因?yàn)檐浻布收隙獾綋p失。此外,隨著互聯(lián)網(wǎng)流量的引入,大數(shù)據(jù)的聯(lián)機(jī)處理量級(jí)和效率也成為一個(gè)重要的考量。一些醫(yī)院為提升聯(lián)機(jī)事務(wù)的處理效率,引入分布式大數(shù)據(jù)庫(kù)以滿足互聯(lián)網(wǎng)流量下高并發(fā)訪問(wèn)的需求。
第二象限:大數(shù)據(jù)整理 每個(gè)醫(yī)院有很多不同的業(yè)務(wù)系統(tǒng),這些系統(tǒng)會(huì)采用相對(duì)獨(dú)立的大數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和處理不同的業(yè)務(wù)數(shù)據(jù)。通常系統(tǒng)使用的關(guān)系型數(shù)據(jù)設(shè)計(jì)容量有限,需要定期把歷史數(shù)據(jù)清理到中心大數(shù)據(jù)倉(cāng)庫(kù),從而確保聯(lián)機(jī)交易處理的快速高效。中心大數(shù)據(jù)倉(cāng)庫(kù)是為了存儲(chǔ)各個(gè)獨(dú)立系統(tǒng)的歷史全量數(shù)據(jù),同時(shí)匯集各個(gè)系統(tǒng)的數(shù)據(jù),因而在設(shè)計(jì)上會(huì)采用分布式可擴(kuò)展的技術(shù)架構(gòu),通過(guò)例如Hadoop, Spark等技術(shù)保證可以用低廉的成本,對(duì)整個(gè)集群容量和處理能力進(jìn)行無(wú)縫擴(kuò)展。
第三象限:大數(shù)據(jù)分析 用戶需要利用大數(shù)據(jù)資產(chǎn)創(chuàng)造價(jià)值。首先,來(lái)自各個(gè)分立系統(tǒng)的歷史全量大數(shù)據(jù)可以進(jìn)行關(guān)聯(lián)查詢,通過(guò)批量處理構(gòu)建不同維度的大數(shù)據(jù)分析表,驅(qū)動(dòng)BI和報(bào)表展示。然后,基于全量大數(shù)據(jù)的探索式分析,可以對(duì)各個(gè)系統(tǒng)的大數(shù)據(jù)執(zhí)行相關(guān)性分析,依賴先進(jìn)的機(jī)器學(xué)習(xí)算法發(fā)掘新的商業(yè)規(guī)則,并利用大數(shù)據(jù)規(guī)律影響指導(dǎo)決策。
第四象限:大數(shù)據(jù)決策 在第三象限通過(guò)批量大數(shù)據(jù)處理構(gòu)建的數(shù)據(jù)立方體、維度表和層級(jí)表,需要傳遞到關(guān)系型數(shù)據(jù)庫(kù),從而驅(qū)動(dòng)報(bào)表展示,生成決策視圖。進(jìn)行 決策支持的數(shù)據(jù)立方體、維表數(shù)據(jù)庫(kù)又稱為大數(shù)據(jù)集市,BI應(yīng)用和大數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用可以直接從大數(shù)據(jù)集市獲取數(shù)據(jù)進(jìn)行業(yè)務(wù)分析,也可以在維表基礎(chǔ)上進(jìn)行二次大數(shù)據(jù)匯集,形成更高層次的業(yè)務(wù)聚合。 醫(yī)療大數(shù)據(jù)的四大挑戰(zhàn)
醫(yī)療大數(shù)據(jù)面臨四大挑戰(zhàn)
第一,大數(shù)據(jù)來(lái)源的挑戰(zhàn)。大數(shù)據(jù)的來(lái)源是多元的,質(zhì)量是不受控制的,有些大數(shù)據(jù)是拿來(lái)也不可用的,比如:不可及的碎片化大數(shù)據(jù),可及但又是錯(cuò)誤的大數(shù)據(jù),可及、正確但是殘缺、無(wú)法修補(bǔ)的大數(shù)據(jù)。
第二,大數(shù)據(jù)治理的挑戰(zhàn)。沒(méi)有新的大數(shù)據(jù)治理方式,解決不了大數(shù)據(jù)共享問(wèn)題?,F(xiàn)在是社會(huì)化的大數(shù)據(jù)采集、分享方式。原有的自給自足的大數(shù)據(jù)治理方式,必須采用新的大數(shù)據(jù)治理方式。
第三,大數(shù)據(jù)分析能力的挑戰(zhàn)。最近幾年,算法進(jìn)步,并行計(jì)算能力進(jìn)步很快。信息中心更多是學(xué)計(jì)算機(jī)的人,缺少統(tǒng)計(jì)分析、流行病學(xué)、醫(yī)學(xué)的人。
第四,組織能力的挑戰(zhàn)。大數(shù)據(jù)應(yīng)用需要團(tuán)隊(duì)協(xié)同,除去技術(shù)、大數(shù)據(jù)來(lái)源,最重要的還是組織問(wèn)題。要挖掘大數(shù)據(jù)的價(jià)值,需要掌握不同的技術(shù)、學(xué)科、專業(yè)的人。需要不同專業(yè)的人去去學(xué)習(xí),特別是各種學(xué)科邊界上的接口人才、組織管理人才,包括數(shù)據(jù)科學(xué)家、業(yè)務(wù)專家、決策者、IT工程師等。