人类活动的过程,就是不断产生数据的过程。据估计,人类社会从出现文明到2003年,总共创造出5EB(1EB=1018字节,即109GB)的数据,现在仅用2d就能创造出相同的数据量[1]。
2010年,全球数据量跨入了ZB(1ZB=103EB)时代。为处理这些海量数据,大数据技术应运而生。所谓大数据技术,就是对海量的数字、文本、图像、音频和视频等数据进行采集、分析、加工和利用的技术集合,其目的在于从庞大的数据集合中找寻有价值的数据和知识,通过分析挖掘为各行业提供有用的数据和知识[2]。
目前对大数据还没有形成统一的权威定义,但是,大数据具有公认的“4V”特征:数据体量巨大(Volume)、数据种类繁多(Variety)、流动速度快(Velocity)和价值密度低(Value)[3]。
在宠物疾病诊疗的各个环节中可以产生大量的数据,应用大数据技术可以在宠物医疗领域产生出巨大的价值。
1 宠物医疗大数据的来源与类型
宠物诊疗机构在工作过程的各个环节都会产生大量的数据,如临床检查、化验、治疗,以及宠物用品、药品进出及库存等数据,这些数据可分为以下几种类型。
(1)以自然语言描述的文本
如临床病历中的症状描述、宠物主人的陈述等。这类数据对储存空间要求低但处理过程比较复杂。一份典型的病历文件中,这种描述性文本一般只需要几KB到几十KB的存储空间,但在处理这种文本数据时,需要用到智能分词、数据清洗、语义分析等技术。现在多数宠物医院已经开始使用电子病历,采集这些病历数据几乎无需增加成本。
(2)格式化数据
如各种化验产生的数据。现代的很多化验仪器都能与计算机互联并通讯,这些数据的采集便捷,而且处理格式化数字数据比处理文本数据要便捷的多。
处方数据、药品用品进出及库存等数据虽然混合了文本与数字等,但也可以看成是格式化数据,经过简单的预处理,就能很好地被计算机所识别并分析,为后续的大数据处理奠定基础。
(3)图片音频和视频数据
如影像诊断产生的X线片、透视影像、B超声像图、内窥镜影像,以及临床拍摄的症状、病理照片等。这类数据保存时要占据大量的存储空间,以一张X线片为例,未经压缩的图片可能达到几百MB甚至几个GB,压缩之后也在10MB左右,而动态的录像数据占据的存储空间还要高1~2个数量级。这类数据处理复杂,虽然目前照片识别几分析技术已在超声、X线诊断等专门领域内开始使用,但局限性仍然较大。
除临床诊疗过程为宠物医疗大数据提供来源外,用户使用搜索引擎而产生的关键词搜索记录、社交网络中关于宠物疾病的消息也为宠物医疗大数据提供了丰富的来源。
2 宠物医疗大数据的特点
宠物医疗大数据具有大数据一般意义上的“4V“特征。
第一,数据体量大,一份典型的电子病历,其中的图片和影像数据压缩后包含的数据也可能达到是100MB,一个大型宠物医院如果每天接诊200个病例,则一天可产生大约20GB的数据,一年则高达7.2TB,这为大数据的存储提出了比较高的要求。
第二,数据种类繁多,涵盖了自然语言文本、数字、格式化文本和数字、图片、视频、音频等多种类型。
第三,流动速度快,宠物医疗大数据每天都在不停地产生,数据不断更新,新的检查手段和诊疗技术的使用,这些都使得宠物医疗大数据来源多变。同时由于疾病的动态性,同一病例在新的时间点会产生新的数据;由于检测仪器之间的差异,宠物医疗大数据也表现出且具有较大的异质性,比如同一检测项目,不同仪器存在不同的误差,或者对检测结果的显示方式也不统一。
第四,价值密度低,大数据需要足够大的数据量,最好是“全数据”,只有“大而全”,才能有效地发掘出其中的规律。单个的或孤立的数据,其价值较低,难以从中发现潜在的规律。
宠物医疗大数据也具有其自身的一些特性。由于样本来源、样本测定方法及数据处理、数据存储格式的多样化,导致在使用宠物医疗大数据时存在诸多不确定性。其次,由于临床疾病的影响因素多,环境、遗传、食物、药物、管理等因素都可能会和某些疾病产生相关性,因此宠物医疗大数据具有显著的高维度特点,因此在大数据分析的时候需要对多维数据进行叠加、索引和学习。
与传统的逻辑推理研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等归纳,进行相关性分析。大数据研究的一个重要发展趋势就是研究方法由假设驱动向数据驱动的转变[4]。
3 宠物医疗大数据的典型应用
3.1 疾病诊疗
传统的疾病诊断,其正确率受宠物医生个人知识、经验的制约,即使采用联合会诊的方式,也只用到了若干位医师的知识和经验,疾病诊断的准确性和治疗方案的合理性会受到一定的影响。而且,仅仅依据个人或团队有限的疾病诊治案例,难以发现其中的某些规律,或者只能得出错误的因果关联。
大数据技术可以从根本上改变这种现状,通过数据共享,一个宠物医师可以便捷地提取和筛选各地宠物医院累积的病历资料,更易发现其中的规律。宠物医师可以通过调取该宠物的既往病历数据来辅助疾病诊疗,甚至可以通过宠物的身份数据来了解该宠物的家族病史,实现个性化医疗。
在人医领域,国外已开始出现利用大数据辅助医疗决策的尝试,如纪念斯隆-凯特琳癌症中心与沃森超级计算机合作研发的治疗决策工具,利用了60万份医疗证据,150万条患者记录,42种医疗杂志,和大约200万页临床试验的文本数据[5]。
3.2 药物研发
目前我国宠物药品产业市场前景广阔,但与发达国家相比,在宠物药品生产能力及发展水平存在较大差距。我国正积极调整优化兽药产业结构,宠物药品研发、生产及推广将得到极大的发展[6]。
按照传统的药物研发流程,一种新药从研发到推向市场的时间大约需要13年。对于药品研发机构而言,最迫切的需求有两个方面:正确的决策、及时的反馈。
医药研发部门或公司在新药研发阶段,可以通过大数据分析来自互联网上的各种药品需求趋势,确定更为有效的投入产出比,合理配置研发资源[7]。
另一方面,传统的药物副作用分析主要采用临床试验法、药物副作用报告分析法等,这些方法受到样本数小、采样分布有限等因素影响,难以全面反映药物副作用造成的影响。可以预见,如果应用医疗大数据系统,从海量病历数据中挖掘到与某种药物相关的不良反应,就可以克服传统方式的不足,所获得的结果更具有说服力[8]。
3.3 疫病防控
在宠物领域,威胁最大的疫病是犬瘟热、犬细小病毒病,以及狂犬病等。动物疫病,尤其是人兽共患病的防控,传统方法主要是病例监测,通过养殖企业、诊疗机构上报病例数据,并逐级上报,如此到最终进行分析汇总,会产生1~2周的时间延迟[9]。但是大数据分析技术可以颠覆传统的疫病监测手段,典型案例就是谷歌公司通过分析用户搜索关键词预测流感疫情趋势。
根据目前的条件,应用大数据进行疫病监测可以通过3种途径:
一是基于用户使用搜索引擎搜索特定关键词集合的搜索记录,如谷歌公司的流感监测,它定期发布的全球流感趋势,已成为许多国家流感监测的重要参考[9]。
其二是基于社交网络。与基于搜索引擎只能获得用户输入的若干关键词相比,社交网络如国内的微博,国外的twitter、facebook上,有用户更完整的语义描述和个人信息。
其三是基于诊疗机构、养殖企业的联网数据采集终端,如联网并参与数据共享的宠物医院管理信息系统。
基于搜索引擎的疫病监测目前虽存在一些技术缺陷,譬如由于媒体对于流感季节严重性的报道导致用户对流感关键词搜索频率升高而引发2013年谷歌流感趋势预测出现偏差,但大数据预测仍然具有广阔的发展前景,至少在时间延迟方面,谷歌的流感预测将时间延迟从传统的1~2周缩短至1d,随着预测算法的改进,预测的准确性势必也会得到提升。
3.4行业监管
宠物诊疗行业在我国正在走向规范化,但仍存在许多问题,最突出的问题主要有:部分生物制品无产品批准文号和产品批号、处方不规范,以及人药兽用等[10]。
传统的监管主要采取人工抽查,效率低,执法成本高。使用大数据分析,通过监控宠物医院药品采购数据、处方中的药物使用情况,并追溯药品经销、生产环节,通过比对合法生产、销售的药品,与宠物诊疗机构采购、使用的药品数据,能快速便捷地发现其中的违规行为。通过采集并分析宠物诊疗机构的医疗废弃物数据,还可以进一步提高监管效率,并及时发现医疗废弃物处理过程中的违规行为。
4 对宠物医疗大数据应用发展策略的思考
大数据技术不是全新的技术,也不是孤立的技术,而是在新的时代背景下在原有数据分析技术的基础上发展起来的一整套技术集合,这需要一系列的其他技术支撑。
4.1宠物医院管理信息化是大数据分析的基础
大、中型宠物医院普遍使用了各类宠物医院管理信息系统,但是在小型宠物医院以及宠物诊所,仍然只是部分地使用或者完全没有使用这类系统。病历、处方没有完全实现信息化,医疗大数据分析将无从开始。因此,全面推广使用宠物医院管理信息系统将十分必要。
传统的宠物医院管理信息系统多为单机版软件,以收费为中心将宠物医疗各个环节组织起来。为充分利用大数据的价值,宠物医院管理系统必须实现联网运行、以电子病历为中心的转变。
4.2数据共享是发挥大数据优势的必备条件
与发达国家相比,我国宠物医疗行业兴起的时间不长,规模化的宠物医院起步较晚,同时牵涉到用户隐私、商业机密等问题,宠物医疗数据仅限于宠物医院内部使用。但是单个宠物医院所累积的医疗数据并不能体现大数据“大而全”的特点,只能成为价值较低的“数据孤岛”。联网和共享势在必行,不仅是在宠物医院之间,还应囊括宠物主人、宠物、监管部门。
在国内,2015年10月中爱科技发布了“联宠6.0”互联网智能宠物医疗管理软件,该软件在数据互联和共享方面做出了积极的努力:通过微信及客户端将宠物主人联接起来,实现了远程智能预约;通过院长定制版APP,实现了宠物医院的远程智能化管理;通过知识分享,搭建了宠物医师自我学习及同行交流平台[11]。该软件是迈向宠物医疗大数据应用的一个里程碑。
4.3 云计算是大数据分析的最佳方式
桌面计算可以完全胜任传统的“小数据”的处理、统计和分析,但对于具有“4V”特征的宠物医疗大数据分析,需要性能更为强大的云计算环境。
云计算也不是全新的技术,也是对现有技术的综合利用。“云”可以认为是以虚拟化、面向服务的计算和网格计算等成熟技术为基础,以大规模资源共享为目标,采用共享资源池的模式进行构建的大型服务集群。与传统的桌面计算相比,云计算提倡效用计算(Utility Computing),并采用多重租赁的方式提供计算服务[12]。
近几年来云计算发展迅速,涌现了一批代表性的商业云计算平台,提供IaaS(Infrastructure as a Service,基础设施即服务)、PaaS(Platform as a Service,平台即服务)和SaaS(Software as a Service,软件即服务)三种典型的服务模式。
在云计算平台上,以MapReduce和Hadoop为代表的非关系数据分析技术,凭借其适合非结构处理、大规模并行处理和简单易用等优势,成为大数据分析领域的主流技术。
云计算与大数据两种技术深度融合,大数据为云计算提供了广阔的应用空间,云计算也正在进入以“分析即服务(AaaS)”为主要标志的Cloud 2.0时代[3]。
4.4 物联网技术为宠物医疗大数据提供了广泛的来源
物联网是依托多种信息获取技术,包括传感器、传感器网络、RFID(射频识别)、条形码、二维码、多媒体采集技术等,采集各种信息,通过网络设施实现信息传输、协同和处理,实现广域或大范围的人与物、物与物之间信息交换需求的互联、互通和互操作[13]。
通过扫描条形码、二维码及RFID标签,可以实现宠物药品、用品、医疗废弃物等信息的快速录入。RFID、NFC(Near Field Communication,近场通信)以及低功耗蓝牙等技术还可以应用在宠物身份识别上,通过增加内置传感器,可以让宠物主人、宠物医师迅速获取宠物的身份信息、生命体征数值等。
目前智能手环等智能可穿戴设备已在人类生活中广泛应用,这些设备通常使用低功耗蓝牙等技术实现与智能手机的通信,通过手机内的APP获取各类数据,经过特定算法可以计算出每日能量消耗、营养需求以及健康状态。这些可穿戴设备中的传感器及通信技术,有望在短期内迁移到动物领域。
4.5 隐私及权利保护等方面的立法需要跟进
在大数据的采集、传输、清洗、存储及分析过程中,用户隐私及商业机密问题是亟需解决的问题。
除了使用技术手段,通过程序自动化地将用户隐私信息从原始医疗记录数据中过滤掉之外,更重要的措施应该是通过加强立法。后者尤其适用于宠物医院经营管理方面的商业机密数据。
必须规定,只有宠物医师、宠物医院才能使用宠物诊疗数据;必须是提供医疗服务的宠物医师和宠物医院才能接触和使用被服务的宠物主人的个人信息;必须有明确授权才能接触宠物医院的商业数据。
5 结语
综上所述,大数据技术虽然还不能完全取代传统的基于小样本抽样统计和分析,但是大数据技术已经显示出其独特的优势。通过大数据分析能更快速、更简单地发现宠物医疗过程中的相关性,为宠物疾病诊疗、药物研发等提供方向性和策略上的参考,有助于提高动物疫病防控能力和行业监管效率。
互联网尤其是移动互联网,以及物联网、云计算与大数据的结合,未来会有更多的宠物主人、宠物医院及宠物被联接起来,实现更大程度的信息共享,推动整个行业的进一步发展。同时,加强数据分析专业人才的培养,改进分析技术和方法,完善信息管理机制,加强隐私及权利保护,也是伴随大数据而来的迫切需求。
本文参考文献 |
[1] 孙忠富.大数据在智慧农业中研究与应用展望[J].中国农业科技导报,2013,15(6):63-71. [2] 马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013.34(2):10-17. [3] 陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,Vol 25,增刊,2013年8月:142-146. [4] 宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,60(5~6):534-546. [5] Ward JC. Oncology Reimbursement in the Era of Personalized Medicine and Big Data[J]. Journal of Oncology Pratice,2014,10(2):83-86. [6] 游锡火.我国宠物药品产业发展战略[J].中国兽医杂志,2014,50(6):102-104. [7] 周光华,辛英,张雅洁.等.医疗卫生领域大数据应用探讨[J].中国卫生信息管理杂志,2013,10(4):296-304. [8] 邹北骥.大数据分析及其在医疗领域中的应用[J].计算机教育,2014(7):24-29. [9] 徐展凯,刘列,祖正虎.等.基于互联网的大数据与生物监测[J].军事医学,2014,38(2):152-155. [10] 李进,张瑞,王美仙.宠物医院的临床用药情况调查与思考[J].中国畜牧兽医文摘,2013,29(8):191-192. [11] “联宠6.0”宠物医疗软件上市,开启“互联网+”智能管理时代[EB/OL].http://www.cnsoftnews.com/news/201510/30787.html,2015-10-22. [12] 鲍亮,陈荣.深入浅出云计算[M].北京:清华大学出版社,2012. [13] 徐勇军,刘禹,王峰.物联网关键技术[M].北京:电子工业出版社,2012. |