一、 大數(shù)據(jù)的 發(fā)展史 大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)的展現(xiàn)。源于互聯(lián)網(wǎng)公司在運營中生成、積累的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些網(wǎng)絡(luò)行為數(shù)據(jù)的規(guī)模非常龐大,從而人們將用G或T來衡量,因此,大數(shù)據(jù)的計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。大數(shù)據(jù)到底有好大?名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)顯示:一天下來,互聯(lián)網(wǎng)產(chǎn)生的所以內(nèi)容可以刻滿1.68億張VCD;發(fā)出去的郵件有甚至多于2940億封
截止2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達1.82ZB,相當于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍。
一系列的數(shù)據(jù)無不向我們傳達著一個概念,那就是“大”,以幾何倍數(shù)增長的大,而且越來越大。但是,如果就此顧名思義,定義了“大數(shù)據(jù)”。
最早提出“大數(shù)據(jù)”時代到來的,是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!?br />
牛津大學互聯(lián)網(wǎng)研究所維克托·邁爾·舍恩伯格教授指出,“大數(shù)據(jù)”所代表的是當今社會所獨有的一種新型的能力——一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品、服務(wù)和見解。
“大數(shù)據(jù)”會給整個社會帶來從生活到思維上革命性的變化:企業(yè)和政府的管理人員在進行決策的時候,會出現(xiàn)從“經(jīng)驗即決策”到“數(shù)據(jù)輔助決策”再到“數(shù)據(jù)即決策”的變化;人們所接受的服務(wù),將以數(shù)字化和個性化的方式呈現(xiàn),借助3D打印技術(shù)和生物基金工程,零售業(yè)和醫(yī)療業(yè)亦將實現(xiàn)數(shù)字化和個性化的服務(wù);以小規(guī)模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將以向大規(guī)模定量化數(shù)據(jù)分析轉(zhuǎn)型;將會出現(xiàn)數(shù)據(jù)運營商和數(shù)據(jù)市場,以數(shù)據(jù)和數(shù)據(jù)產(chǎn)品為對象,通過加工和交易數(shù)據(jù)獲取商業(yè)價值;人類將在哲學層面上重新思考諸如“物質(zhì)和信息誰更基礎(chǔ)”、“生命的本質(zhì)是什么”、“生命存在的最終形態(tài)是什么”等本體論問題。
綜上所訴,我們對“大數(shù)據(jù)”概念基本能有個全方面的認識?!按髷?shù)據(jù)”不是數(shù)據(jù)量的簡單刻畫,也不是特定算法、技術(shù)或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革的總和。所謂“大數(shù)據(jù)”,是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。
二、 對傳統(tǒng)醫(yī)療的挑戰(zhàn)
搭上“互聯(lián)網(wǎng)+”的列車,醫(yī)療機構(gòu)便開始行進在醫(yī)療信息數(shù)字化的路上。
醫(yī)療數(shù)據(jù)是醫(yī)生對患者診療和治療過程總產(chǎn)生的數(shù)據(jù),包括患者基本數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學影像數(shù)據(jù)、醫(yī)學管理、經(jīng)濟數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫信息容量不斷膨脹的同時,也對疾病及病人的管理、控制和醫(yī)療研究起到了積極的作用,價值不菲。
但是,發(fā)展了那么多年的傳統(tǒng)醫(yī)療行業(yè),現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個初具規(guī)模的醫(yī)院來說,每天需要接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個非常龐大的數(shù)據(jù)。
據(jù)初步統(tǒng)計,上海市區(qū)域醫(yī)療信息平臺(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬人群、1400 TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級醫(yī)院3900萬就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗及影像檢查報告、醫(yī)學影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。
日積月累,這個數(shù)據(jù)量將會持續(xù)快速增長,為醫(yī)院的大數(shù)據(jù)存儲、集成、調(diào)用等應(yīng)用帶來巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲復(fù)雜,并且對傳統(tǒng)的處理方法和技術(shù)帶來巨大挑戰(zhàn)。
三、 醫(yī)療數(shù)據(jù)來源
隨著醫(yī)療衛(wèi)生信息化建設(shè)進程的不斷加快,醫(yī)療數(shù)據(jù)的類型和規(guī)模也在以前所未有的速度迅猛增長,甚至到了在很大程度上無法利用目前主流軟件工具,在合理的時間內(nèi)達到擷取、管理并整合成為能夠幫助醫(yī)院進行更積極目的經(jīng)營決策的有用信息的地步。而且,如此具有特殊性、復(fù)雜性的龐大的醫(yī)療大數(shù)據(jù),其搜集如果僅靠個人甚至個別機構(gòu),那基本是不可能完成的任務(wù)。那么,這些數(shù)據(jù)到底是怎么產(chǎn)生的,又都來自于哪里呢?經(jīng)過簡單的梳理,我們大致可以把他們歸檔在以下4個框架里:
(1)病人就醫(yī)過程中產(chǎn)生的信息。 從患者進入醫(yī)院開始,掛號環(huán)節(jié)便將個人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫;看病結(jié)束以后,患者買單結(jié)算的過程中,又將有費用信息、報銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實驗室大數(shù)據(jù)。 臨床和實驗室大數(shù)據(jù)整合在一起,使得醫(yī)療機構(gòu)面臨的大數(shù)據(jù)增長非???,一張普通CT圖像含有大約150 MB的數(shù)據(jù),一個標準的病理圖則接近5 GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達數(shù)萬億字節(jié)甚至數(shù)千萬億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學。 藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當密集的,對于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學領(lǐng)域,隨著計算能力和基因測序能力逐步增加,美國哈佛醫(yī)學院個人基因組項目負責人詹森·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來的健康管理。 隨著移動設(shè)備和移動互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實現(xiàn)對個人健康數(shù)據(jù)隨時隨地的采集,而帶來的數(shù)據(jù)信息量將更是不可估量的。
四、醫(yī)療大數(shù)據(jù)特性
如此規(guī)模巨大的臨床實驗數(shù)據(jù)、疾病診斷數(shù)據(jù)以及居民行為健康數(shù)據(jù)等匯聚在一起所形成的醫(yī)療大數(shù)據(jù),已然呈現(xiàn)出其作為大數(shù)據(jù)的特性,即:
(1)數(shù)據(jù)規(guī)模大(volume)。例如一個CT圖像含有大約150MB的數(shù)據(jù),而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5GB。
(2)數(shù)據(jù)結(jié)構(gòu)多樣(variety)。醫(yī)療大數(shù)據(jù)通常會包含各種結(jié)構(gòu)化表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述文本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲形式。
(3)數(shù)據(jù)增長快速(velocity)。一方面,醫(yī)療信息服務(wù)中包含大量在線或?qū)崟r數(shù)據(jù)分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報表生成、健康指標預(yù)警等;另一方面,得益于信息技術(shù)的發(fā)展,越來越多的醫(yī)療信息被數(shù)字化,因此在很長一段時間里,醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)的增長速度將依然會很快。
(4)數(shù)據(jù)價值巨大(value)。毋庸置疑,數(shù)據(jù)是石油,是資源,是資產(chǎn),醫(yī)療大數(shù)據(jù)不僅與每個人的個人生活息息相關(guān),對這些數(shù)據(jù)的有效利用更關(guān)系到國家乃至全球的疾病防控、新藥品研發(fā)和頑疾攻克的能力。
互聯(lián)網(wǎng)加與醫(yī)相結(jié)合就會產(chǎn)生很大的作用,最重要的是對每天產(chǎn)生的大量醫(yī)療業(yè)務(wù)數(shù)據(jù)的支持。醫(yī)療數(shù)據(jù)包括醫(yī)院機器的和人為的,有文本數(shù)據(jù)也有影像數(shù)據(jù),所以就需要有效存儲、分析數(shù)據(jù),清除無用信息、留下有用的信息,掌握規(guī)律和知識。醫(yī)院可以獲得患者的行為規(guī)律信息,從而提供更高效的服務(wù);同時可以探索更多新的醫(yī)療知識來促進醫(yī)療的研究和發(fā)展。