医疗行业是数据密集型产业,数据积累亘古存在。
然而,在数据的应用水平上,医疗行业远远落后于网络、金融和电信等信息化程度更好的行业。
峰瑞资本生物医疗技术团队从数据产生、数据处置、数据消费的角度剖析了医疗数据产业链。
剖析显示,医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的非常重要来源,来自手机 App 和可穿着打扮设施的数据开始提高数据的完整性、连续性和准确性;数据处置是个系统工程,包含清洗、整理、剖析等标准环节,对数据结构化提出了更高需要;截至现在,为医疗数据买单的是 B 端的医疗机构、药企和保险公司,让 C 端的患者和大夫为数据付费现在还不现实。
美国的医疗体制相对市场化,对医疗体系的投入巨大,使其在技术、服务和步骤等支柱产业,都可以成为中国医疗产业进步的远景参照物。
近几年,医疗数据产业在美国飞速发展。
峰瑞资本生物医疗技术团队挑选了4 家有代表性的美国医疗云数据公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例剖析。
假如你在医疗健康范围有创业点子,可以与本文作者、峰瑞资本医疗组早期项目负责人王蕾(lei@freesvc)和谭验(yantan@freesvc)联系。
加入峰瑞资本前,王蕾曾任职于美国最大的医药咨询和市场调查公司IMSHealth,负责为国际和中国当地医药企业提供策略和战术咨询。
谭验曾是Tamr早期职员,云数据整理平台公司Tamr由2014年图灵奖获得者、美国数据库专家MichaelStonebraker创办。
云数据产业的出现和医疗数据投资方案剖析文 / 谭验(yantan@freesvc)王蕾(lei@freesvc)/ 01 /IBM 用 3V 概念云数据IBM 最早提出了云数据的 3V 概念。
3V 是 Volume,Variety,Velocity。
Volume 最好理解,由于云数据本身的 大 代表了数据数目的巨大。
数据量愈加大是什么原因不少,其中一个是目前机器和互联网天天都在生成很多的数据。
据统计,大家目前每两天产生的数据量约等于自人类文明开始到 2013 年的数据量的总和。
第二个特点是 Variety,多元化。
多元化主要指不一样的数据来源和类型。
传统意义上的数据主要来自类似 excel 的表格和数据库。
目前人类可以剖析各种形式和种类的数据,譬如邮件、图片、视频、音频、监控仪器,等等。
第三个特点是 Velocity,即数据生成的速度。
譬如,网络上数据的生成是以秒甚至毫秒来计算的。
再譬如,基因测序仪、互联网监控的录像,都在随时随地产生很多数据。
以上 3 个 V 是公认的云数据概念。
在 2013 年波士顿的云数据峰会上,Express scripts 的首席数据科学家 Inderpal Bhandar 提出了 Veracity 的定义。
Veracity 主如果指数据是不是有偏差、数据噪声有多大,与是不是有异常值。
当业界很多积累各种来源的数据时,数据是不是准确变成一个很重大的问题,不然最后就是 Garbage in,Garbage out。
峰瑞看法(freesvc)从以上对云数据的描述可以发现,云数据对数据存储、数据传输和数据处置这 3 方面的能力提出了挑战。
企业在数据产生和处置端也渐渐出现了一些变化。
企业开始存储大量数据,数据传输并分布式地存储到数据中心,数据在云端进行处置和剖析,通过互联网端进行数据的呈现并指导商业决策。
/ 02 /云数据的产业链剖析得益于计算能力的迅速增长、数据传输能力的增长和本钱的降低,与数据储存本钱的降低,云数据获得了很大的进步。
▌上游数据的产生云数据产业的最上游是数据的产生,这包含了数据的概念和数据的搜集。
数据的概念顾名思义就是概念什么是数据。
比如在搜索广告出现之前,用户点击链接本身并不产生任何价值,也就不被概念为数据。
数据概念产生之后,就开始迅速、准确、有效地采集数据。
▌中游数据的处置云数据产业的中游是数据处置,其中包含了数据的筹备,比如数据清洗和整理,与数据剖析,比如数据建模、可视化呈现,等等。
▌下游数据的消费云数据产业的最下游是数据消费,比如借助数据指导商业决策,指导商业决策之后产生的结果本身又成为了新的数据,因此数据的消费和数据的产生形成了一个闭环。
在整个云数据产业的所有环节中都存在数据存储和数据管理,这两个技术贯穿了整个云数据的周期。
/ 03 /数据驱动型企业结构的剖析在一个通过数据驱动的商业环境中,企业组织或者技术组织结构一般分为以下 3 个逻辑板块。
从底层到上层分别是 Data engineering(数据工程),Data sciences(数据科学)和 Decision sciences(决策科学)。
▌下层数据平台:通用性平台为主,完整解决方法,开源解决方法最底层是工程性的工作,主要指对于数据底层的工程性技术解决方法,比如对原始数据进行清洗、验证和纠正,数据储存和调取。
在这一层有不少的开源解决方法和系统集成服务商。
这一步的目的是采集和整理很多数据,把它变成便于数据科学家用的方法。
大多数企业或者工程师把 80% 的时间花在了这一步 。
美国财富杂志不久前公布的数据显示,美国企业每年在云数据服务上的花费是 40 亿美金左右,其中 40% 花在了数据整理和清洗上。
可以说,整个数据工程在时间和花费上都占据了非常重要的地方。
▌中层算法和数据呈现:通用性算法接口,行业专业常识,开源解决方法处于中间层的是数据科学,这可能是大伙最常听到的一个范围。
目前非常热的AI、深度学习,都是这一层。
这一层有哪些用途是通过数据打造起对某个问题的模型。
譬如说,通过历史数据打造起天气预报模型,或者通过很多病理数据打造起疾病的预测或者诊断模型。
开源社区的进步让不少很复杂的算法模型变得很容易用,很大地促进了数据科学的进步。
数据科学家可以非常快地验证预测模型,并用到实质的商业项目中。
现在的解决方法主如果开源策略,一些商业 API 与企业内部的私有数据计算框架等等。
▌上层商业决策:深入的行业专业常识,商业洞察,内部决策和外部咨询第三层是决策科学,它是数据的最顶层,也是实质产生商业价值的。
譬如大家预测明天要下雨,这个预测的价值在于,得到这个信息的企业第二天可以把伞放到更明显的地方,以增加购买量。
如此就产生了商业价值。
这只不过一个简单的例子,实质状况要复杂不少。
譬如,不少游戏中,机器可以参考玩家打游戏的时间、模式,来预测用户是不是对游戏有兴趣,一旦发现玩家对游戏的兴趣正在减弱,就会自动进行一些奖励手段,譬如奖励装备、奖励点数来留住玩家,都是商业决策的范畴。
▲云数据的产生和借助,天生就和商业决策联系紧密。
/ 04 /云数据企业的商业模式:在咨询和软件服务中徘徊云数据的价值总是通过商业价值来体现,而不同企业的商业逻辑总是有非常大有什么区别。
因此,云数据公司总是在咨询模式和软件模式之间徘徊。
这两种商业模式不难理解,咨询有非常强的可定制性,可以准确有效地解决企业的商业需要,但需要很多和长期的人力支持,花费高,困难规模化。
软件服务则具备边际本钱低、人力支持少、容易规模化的特征,但它缺少可定制性。
有时候企业并不可以直接解决问题,所以面临很难销售的问题。
/ 05 /企业数据化的演化经历:传统信息化,在线化,云化,数据化企业数据化的演化经历:传统信息化,在线化,云化,数据化。
每个行业的数据化进步程度,因其行业特征而不同。
相较于传统零售、农业和制造业,医疗行业在数据积累上有领先优势,但在数据的应用水平上,医疗行业远远落后于网络、金融和电信等信息化程度更好的行业。
峰瑞看法(freesvc)通过剖析每个行业数据化的程度看到:网络化程度越高的企业数据化水平越高数据变现越容易的企业数据化程度越高个性化需要越高的企业数据化程度越明显数据储备量越大的企业数据化趋势越快行业的数据化遭到商业变现能力和模式的驱动依靠于底层基础设施的进步依靠于行业数据的积累/ 06 /医疗数据产业链下面大家从数据产生、数据处置、数据消费的角度来剖析医疗数据产业链。
现在,医疗数据的产生最大的来源是医院、诊所等专业医疗机构与保险机构。
这类数据包括了病理、临床、诊疗和理赔数据。
伴随移动医疗和智能硬件行业的进步,愈加多的数据开始来自手机 App 记录与可穿着打扮设施,这类数据主要包括了人体的生命体征和行为数据,等等。
这类数据能够帮助提高数据的完整性、连续性和准确性,并开始得到看重。
峰瑞资本投资的 Haalthy 已经在采集肺癌用户院外数据方面获得进展。
医疗数据的处置不只包括清洗、整理和剖析等标准环节,它还有其特殊性。
比如,临床数据总是源于电子病历等以自然语言描述的文本文件,且不同医疗机构或者大夫对临床症状的描述总是存在一些细微差别,这对数据结构化提出了较高的需要。
医疗数据的消费端比较明确,在 C 端主如果患者和大夫,B 端包含了医疗机构、药企和保险公司等。
从现在的状况来看,通过 C 端来收费和变现比较困难,主要的商业模式还是围绕着 B 端开发。
/ 07 /美国 Top 医疗云数据公司商品剖析近几年,医疗数据产业在美国飞速发展。
这归功于电子病历在过去 10 年的逐步普及,与包含医院、药厂和保险等机构对数据剖析价值的高度认同。
除去传统的数据巨头 IMS Health,一些新型数据公司和数据剖析公司纷纷涌现。
大家挑出 4 家有代表性的公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)来剖析。
它们分别代表了目前医疗数据范围进步的大方向:基于肿瘤临床数据的事实;肿瘤AI辅助决策;肿瘤全景数据;医疗公众资源数据。
大家把重点放到肿瘤数据上。
这个范围的诊疗过程复杂、不确定性高、治愈率低,市场价值巨大,因而,数据在这个范围有哪些用途和价值也得以突显和被看重。
其它疾病范围数据的办法论其实很相似。
▌以 Flatiron 为例创立于 2012 年的 Flatiron 是一家基于肿瘤病患的医疗数据剖析公司。
它接连获得顶级投资机构和药厂的筹资,抗癌药巨头 Roche/Genetech 的参与充分说明机构方认同癌症临床数据对药品研发和市场指导有哪些用途。
Flatiron 平台由行业领先的肿瘤学家、大夫和工程师一同塑造,在这个平台上大夫可以记录、整理、追踪和剖析自己患者的状况。
▲FLATIRON 的网站首页上写着:肿瘤治疗技术的新标准。
基于平台上采集到的信息, Flatiron 塑造了几款主要商品。
FLATIRON- onCOEMR 是一个癌症患者电子病历,它的主要用方是医院和大夫,药厂也会购买它后台的数据,然后自己做数据剖析,或者通过第三方协议的形式由 IMS Health 帮助与其他数据进行整理。
其它医疗数据剖析和AI公司也是 FLATIRON- onCOEMR 后台数据的用法者。
FLATIRON-onCOANALYTICS 主要基于数据做整理,并形成优质的剖析和总结。
譬如,某类型型的患者的增长、正在治疗的患者的增长、存活率的跟进,这种商品能对医院与大夫管理诊疗工作和患者提供商业和运营上的见解,遭到医疗机构的欢迎。
FLATIRON-onCOBILLING 在医疗保险、商保发达的美国作用与功效广泛。
在医院和大夫端,FLATIRON-onCOBILLING 明确地知道治疗的付费状况、患者的保险组合,对各项治疗、各类患者的本钱和收入,使用更合理有效的治疗步骤和方法,以更好的控费;保险公司对这种商品的关注度更是毋庸置疑,很多数据能为控费和更好的理赔设计提供支持。
和 Flatiron 一样,也有一些平台基于电子病历的数据积累,打造起过往没的诊疗过程的数据挖掘。
尽管它们是基于样本医院的病历, 但已经足够大到提供统计学上有意义的 如何做 和 为何 的见解。
▌IBM Watson Oncology最大的私家癌症中心 MSKCC 与 IBM 合作,将临床专业常识、分子和染色体数据、与很多癌症案例数据整理到一项循证解决方法中, 剖析很多数据并从中提取要紧信息,以拟定出重点决策。
肿瘤学专家培训 Watson,将病人的医学信息与很多的治疗方针、已发表的研究结果和其他洞察力信息相对比,为医师提供个性化的、基于置信度的建议。
Watson 的自然语言处置能力允许系统借助非结构化数据,比如杂志文章、医师的笔记、与来自 National Comprehensive Cancer Network (NCCN) 的指导方针和最好实践信息。
▌IMS Health oncology Analyzer凭着庞大的用药和大夫数据基础,结合丰富的医药咨询经验,医疗数据界的巨头 IMS Health 多年来一直在塑造医药医疗全景数据图。
没任何一个数据源头能提供足够全方位的信息,IMS 除去拥有巨大的数据量,在数据拼接和整理上也有丰富的经验,伴随电子病历数据的引入和增长,IMS 致力于把药厂销售量、销售到医疗机构的量、医疗机构用药治疗状况与患者保险付费状况全部串联到一块。
并购了 Quintile 将来,IMS 还能整理临床实验的数据。
其咨询业务基于 IMS 自己汇拢的数据产生的见解,可以对数据业务带来好正反馈。
合并后近 200 亿美金的估值体现了市场对医疗数据价值的认同。
IMS 在世界范围内不断复制其美国模式,逐步形成我们的垄断地位。
Palantir 的模式在中国比较难于复制, 先不赘述。
峰瑞看法(freesvc)知道了以上几家美国著名医疗数据公司后, 大家回顾下之前的报告(大家过去对比过中美医疗数据市场阶段的差距),并结合中国现有医疗数据项目的重点, 大家总结出中国医疗数据创业投资项目的 4 大方向:
1. 基于肿瘤临床数据的事实。
很多创业投资项目从这个方向切入;2. 肿瘤AI辅助决策。
目前相对较难,由于是打造在 1 的基础上;3. 肿瘤全景数据。
和 1 类似,创业投资项目能获得到的其他数据比较少;4. 医疗公众资源数据。
中国的数据基础弱,这个方向可能需要国家和上层推进。