讓我們回顧大數(shù)據(jù)的發(fā)展歷史,“大數(shù)據(jù)”這個(gè)時(shí)髦的詞匯,在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域,以及軍事大數(shù)據(jù)、金融大數(shù)據(jù)、通訊大數(shù)據(jù)等行業(yè)存在已有時(shí)日。但是真正引起人們高度關(guān)注的,還是因?yàn)榻陙砘ヂ?lián)網(wǎng)和大數(shù)據(jù)信息行業(yè)的迅速發(fā)展所致。
一、 大數(shù)據(jù)的前世今生
且讓我們來看看“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)的表現(xiàn)。首先,它源于互聯(lián)網(wǎng)公司在日常運(yùn)營(yíng)中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些大數(shù)據(jù)的規(guī)模是如此龐大,以至于人們將不能再用G或T來衡量,所以,大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬個(gè)T)或Z(10億個(gè)T)?! ∧敲?,大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的大數(shù)據(jù)告訴我們:一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá)200萬個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量);賣出的手機(jī)為37.8萬臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,大數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級(jí)別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級(jí)別。國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的大數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
一系列的數(shù)據(jù)無不向我們傳達(dá)著一個(gè)概念,那就是“大”,以幾何倍數(shù)增長(zhǎng)的大,而且越來越大。但是,如果就此顧名思義,定義了“大數(shù)據(jù)”,那還是有失偏頗。
最早提出“大數(shù)據(jù)”時(shí)代到來的,是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和大數(shù)據(jù)消費(fèi)者盈余浪潮的到來?!?/span>
牛津大學(xué)互聯(lián)網(wǎng)研究所維克托·邁爾·舍恩伯格教授指出,“大數(shù)據(jù)”所代表的是當(dāng)今社會(huì)所獨(dú)有的一種新型的能力——一種前所未有的方式,通過對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品、服務(wù)和見解。
“大數(shù)據(jù)”會(huì)給整個(gè)社會(huì)帶來從生活到思維上革命性的變化:企業(yè)和政府的管理人員在進(jìn)行決策的時(shí)候,會(huì)出現(xiàn)從“經(jīng)驗(yàn)即決策”到“數(shù)據(jù)輔助決策”再到“數(shù)據(jù)即決策”的變化;人們所接受的服務(wù),將以數(shù)字化和個(gè)性化的方式呈現(xiàn),借助3D打印技術(shù)和生物基金工程,零售業(yè)和醫(yī)療業(yè)亦將實(shí)現(xiàn)數(shù)字化和個(gè)性化的服務(wù);以小規(guī)模實(shí)驗(yàn)、定性或半定量分析為主要手段的科學(xué)分支,如社會(huì)學(xué)、心理學(xué)、管理學(xué)等,將以向大規(guī)模定量化數(shù)據(jù)分析轉(zhuǎn)型;將會(huì)出現(xiàn)數(shù)據(jù)運(yùn)營(yíng)商和數(shù)據(jù)市場(chǎng),以數(shù)據(jù)和數(shù)據(jù)產(chǎn)品為對(duì)象,通過加工和交易數(shù)據(jù)獲取商業(yè)價(jià)值;人類將在哲學(xué)層面上重新思考諸如“物質(zhì)和信息誰更基礎(chǔ)”、“生命的本質(zhì)是什么”、“生命存在的最終形態(tài)是什么”等本體論問題。
綜上所訴,我們對(duì)“大數(shù)據(jù)”概念基本能有個(gè)全方面的認(rèn)識(shí)?!按髷?shù)據(jù)”不是數(shù)據(jù)量的簡(jiǎn)單刻畫,也不是特定算法、技術(shù)或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革的總和。所謂“大數(shù)據(jù)”,是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。
二、 對(duì)傳統(tǒng)醫(yī)療的挑戰(zhàn)
搭上“互聯(lián)網(wǎng)+大數(shù)據(jù)”的列車,醫(yī)療機(jī)構(gòu)便開始行進(jìn)在醫(yī)療信息數(shù)字化的路上。
醫(yī)療大數(shù)據(jù)是醫(yī)生對(duì)患者診療和治療過程總產(chǎn)生的數(shù)據(jù),包括患者基本數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)、醫(yī)學(xué)管理、經(jīng)濟(jì)數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫信息容量不斷膨脹的同時(shí),也對(duì)疾病及病人的管理、控制和醫(yī)療研究起到了積極的作用,價(jià)值不菲。
但是,發(fā)展了那么多年的傳統(tǒng)醫(yī)療行業(yè),現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個(gè)初具規(guī)模的醫(yī)院來說,每天需要接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個(gè)非常龐大的數(shù)據(jù)。
據(jù)大數(shù)據(jù)初步統(tǒng)計(jì),上海市區(qū)域醫(yī)療大信息平臺(tái)(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生大數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬人群、1400 TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級(jí)醫(yī)院3900萬就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗(yàn)及影像檢查報(bào)告、醫(yī)學(xué)影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。
日積月累,這個(gè)大數(shù)據(jù)量將會(huì)持續(xù)快速增長(zhǎng),為醫(yī)院的數(shù)據(jù)存儲(chǔ)、集成、調(diào)用等應(yīng)用帶來巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些大數(shù)據(jù)存儲(chǔ)復(fù)雜,并且對(duì)傳統(tǒng)的處理方法和技術(shù)帶來巨大挑戰(zhàn)。
三、 醫(yī)療大數(shù)據(jù)來源
隨著醫(yī)療衛(wèi)生信息化建設(shè)進(jìn)程的不斷加快,醫(yī)療數(shù)據(jù)的類型和規(guī)模也在以前所未有的速度迅猛增長(zhǎng),甚至到了在很大程度上無法利用目前主流軟件工具,在合理的時(shí)間內(nèi)達(dá)到擷取、管理并整合成為能夠幫助醫(yī)院進(jìn)行更積極目的經(jīng)營(yíng)決策的有用信息的地步。而且,如此具有特殊性、復(fù)雜性的龐大的醫(yī)療大數(shù)據(jù),其搜集如果僅靠個(gè)人甚至個(gè)別機(jī)構(gòu),那基本是不可能完成的任務(wù)。那么,這些數(shù)據(jù)到底是怎么產(chǎn)生的,又都來自于哪里呢?經(jīng)過簡(jiǎn)單的梳理,我們大致可以把他們歸檔在以下4個(gè)框架里:
(1)病人就醫(yī)過程中產(chǎn)生的信息。 從患者進(jìn)入醫(yī)院開始,掛號(hào)環(huán)節(jié)便將個(gè)人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫;看病結(jié)束以后,患者買單結(jié)算的過程中,又將有費(fèi)用信息、報(bào)銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實(shí)驗(yàn)室數(shù)據(jù)。 臨床和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,使得醫(yī)療機(jī)構(gòu)面臨的數(shù)據(jù)增長(zhǎng)非??欤粡埰胀?/span>CT圖像含有大約150 MB的數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)的病理圖則接近5 GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個(gè)社區(qū)醫(yī)院累積的大數(shù)據(jù)量就可達(dá)數(shù)萬億字節(jié)甚至數(shù)千萬億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學(xué)。 藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當(dāng)密集的,對(duì)于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學(xué)領(lǐng)域,隨著計(jì)算能力和基因測(cè)序能力逐步增加,美國(guó)哈佛醫(yī)學(xué)院個(gè)人基因組項(xiàng)目負(fù)責(zé)人詹森·鮑比就認(rèn)為,到2015年,將會(huì)有5000萬人擁有個(gè)人基因圖譜,而一個(gè)基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來的健康管理。 隨著移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個(gè)體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實(shí)現(xiàn)對(duì)個(gè)人健康數(shù)據(jù)隨時(shí)隨地的采集,而帶來的數(shù)據(jù)信息量將更是不可估量的。
四、醫(yī)療大數(shù)據(jù)特性
如此規(guī)模巨大的臨床實(shí)驗(yàn)數(shù)據(jù)、疾病診斷數(shù)據(jù)以及居民行為健康數(shù)據(jù)等匯聚在一起所形成的醫(yī)療大數(shù)據(jù),已然呈現(xiàn)出其作為大數(shù)據(jù)的特性,即:
(1)數(shù)據(jù)規(guī)模大(volume)。例如一個(gè)CT圖像含有大約150MB的數(shù)據(jù),而一個(gè)基因組序列文件大小約為750MB,一個(gè)標(biāo)準(zhǔn)的病理圖則大得多,接近5GB。
(2)數(shù)據(jù)結(jié)構(gòu)多樣(variety)。醫(yī)療數(shù)據(jù)通常會(huì)包含各種結(jié)構(gòu)化表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述文本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲(chǔ)形式。
(3)數(shù)據(jù)增長(zhǎng)快速(velocity)。一方面,醫(yī)療信息服務(wù)中包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報(bào)表生成、健康指標(biāo)預(yù)警等;另一方面,得益于信息技術(shù)的發(fā)展,越來越多的醫(yī)療信息被數(shù)字化,因此在很長(zhǎng)一段時(shí)間里,醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)的增長(zhǎng)速度將依然會(huì)很快。
(4)數(shù)據(jù)價(jià)值巨大(value)。毋庸置疑,數(shù)據(jù)是石油,是資源,是資產(chǎn),醫(yī)療大數(shù)據(jù)不僅與每個(gè)人的個(gè)人生活息息相關(guān),對(duì)這些數(shù)據(jù)的有效利用更關(guān)系到國(guó)家乃至全球的疾病防控、新藥品研發(fā)和頑疾攻克的能力。
互聯(lián)網(wǎng)+醫(yī)療大數(shù)據(jù)的結(jié)合具有很大的潛力,最重要的還是對(duì)每天產(chǎn)生的海量醫(yī)療業(yè)務(wù)數(shù)據(jù)的廣泛支持。醫(yī)療業(yè)務(wù)數(shù)據(jù)包括機(jī)器產(chǎn)生的和人為產(chǎn)生的,包括文本數(shù)據(jù)也包括影像數(shù)據(jù),我們需要有效存儲(chǔ)、分析這些數(shù)據(jù),剔除無關(guān)信息、冗余信息,保留那些有用的信息,發(fā)現(xiàn)規(guī)律與知識(shí)。一方面我們可以獲得患者的行為規(guī)律信息,進(jìn)行更有效的服務(wù)調(diào)度與安排;另一方面,我們也可以挖掘出新的醫(yī)療知識(shí),以醫(yī)院的一手業(yè)務(wù)數(shù)據(jù)來彌補(bǔ)實(shí)驗(yàn)室的生化試驗(yàn)數(shù)據(jù),促進(jìn)醫(yī)療事業(yè)的科研發(fā)展。