为什么中国人谈癌色变，欧美却习以为常？

内容来源：2019年6月13日，在科学大讲堂——GMIC广州2019系列活动上，中山大学数据科学与计算机学院教授、数据科学研究所所长陆遥进行了以“当医疗大数据遇上人工智能”为主题的精彩分享。笔记侠作为合作方，经主办方和讲者审阅授权发布。

全网首发·完整笔记·人工智能·大数据

笔记君说：

人工智能，自从普遍进入人们的视野之后，热度一直居高不下。现在，它已被应用于服务业替代部分人力。如果医疗大数据遇上人工智能，会释放什么样的能量呢？

接下来，和笔记君一起走进今天的文章看看吧。

以下，尽情享用~

今天，主要和大家聊聊医疗大数据和人工智能。它作为一个工具，似乎和大家没有什么关系。接下来，我给大家举个实实在在的例子，大家就不这么认为了。

今天早晨我家人在中山大学眼科中心做手术，得了晚期青光眼和白内障，而青光眼是眼科中癌症，是不可逆的，到晚期是很糟糕的，因此早发现早治疗很重要。下面我和大家谈谈癌症的早期检查。

我在医疗影像这个领域工作十多年，发现肿瘤这个东西在中国是“谈癌色变”。如果我们身边有谁得了癌症，我们第一反映都是：他还可以活多久？

但在欧美国家或者发达国家，很多肿瘤已经归入重大慢病的范畴，大家不会因为癌症就立刻想到死亡。

这是为什么呢？原因是中国的疾病早期筛查做得特别差。

拿肝癌举例：

如果肝癌可以在早期发现，5年的存活率接近90%；中期发现，5年存活率是百分之十几；如果晚期发现，5年存活率基本就是个位数了。

不幸的是，中国肝癌患者被发现时大部分都到了中晚期，所以中国人一旦得了肝癌，死亡可能性就非常大。

在这种情况下，我们就特别希望生活里能有一个像“大白”一样的机器人出现。电影中的“大白”是一个融合人工智能、医疗救护、战斗能力为一体的机器人，最大的任务就是守护。

从医疗救护角度来说，“大白”可以通过摄像头等设备，感知用户体征、健康数据和情绪等，然后采取措施进行健康护理。

它身上既有技术设备，又有人工智能成分，也包含大量的技术。

一、医疗大数据

1.技术角度看数据

技术上，经过之前多年信息化建设的努力与发展，现在的大数据几乎无所不在。

比如小米手环，它可以24小时监控携带者身体的相关数据。

比如大家去做体检、心电、拍CT，也是依据影像学数据来得出的结果；验血也是依据于血液检验方面的数据。包括基因方面的数据。

▲ 长按图片分享给需要的人

现在越来越多的研究表明，疾病最终能不能救活，要看我们的基因。

早期数据量很小，一个硬盘就够用，现在数据量越来越大，大到仅仅我们中山医一年的数据就有10个PB，大约相当于1000万部蓝光电影。

全世界每年的数据量就更不用说了。其中包括行为数据、24小时穿戴式设备的数据、基因数据等等，这些都是和健康相关的海量数据，对我们而言是很重要的。

目前的大数据，通常使用的是统计学方法，基于群体建立的模型，对群体绝大部分人是成立的，但在个体的时候可能就会有例外。

▲ 长按图片分享给需要的人

个体化数据实际上是反映的是一个个体从不同角度、不同维度得到的综合数据。

比如CT，基本反映的是身体的解剖结构信息，核磁共振也有解剖结构和功能性的信息，PET可能会反映身体代谢、功能性信息。

2.临床角度看数据

在过去20年，我们一直做循症医学。什么是循症医学？即假如你得了病，循症医学干的第一件事情就是寻找确诊你得这个病的依据。

所以我们才会拍CT、核磁等，根据你身体发生的病变从影像上找依据。但最终病症发生变化、决定你死活的是基因。

这是我们近十年一直在做的精准医学或者个体化医学，从DNA、RNA（一种病毒）一直上升到细胞组织的角度，实际上是把多维度、多尺度的数据综合在一起，针对个体进行精准判断。

▲ 长按图片分享给需要的人

从DNA、RNA层面一直到从细胞、组织层面，数据量非常大，同时历史沉淀的数据也非常大。所以，做医学大数据分析，面临着几大挑战：

① 数据量大

② 速度要快

很多外地过来的患者，他希望第一天就诊、第二天复诊、第三天就可以回去了。但那么大的数据量处理下来，如果算法不好，需要一个星期。

你不能说这个人过来看一下病，一个星期后再过来拿结果，这不现实，所以我们对算法的速度要求很高。

③ 数据结构很复杂

我们数据来源非常复杂，有来自影像科的，有来自检验科的，有来自实验室，这是做医学大数据所遇到的非常大的挑战。

3.医疗大数据现状（致命问题）

① 被割裂的数据流

经常去看病的人就会发现，你在一家医院做了CT、MR（生物磁自旋成像技术）之后，下次换别的医院后还要再做一次，因为医院之间的数据是不流通的，这就形成了信息孤岛。

② 看病难

无论得了什么病，基本上是在基层医院筛查发现问题，最后绝大部分还是会跑到顶级三甲医院来看病。

然而，顶级三甲医院不提前两天预约是看不到医生的。因为目前患者对基层医院的诊断治疗水平缺乏信心。

那么，如何解决这个问题呢？人工智能。

▲ 长按图片分享给需要的人

人工智能可以帮助基层医生提高自身能力，同时也能帮助顶级三甲医院的医生提高工作效率，这样医疗看病难的问题就能有效得到解决。

二、人工智能的历史

1.从提出到被认知

人工智能不是一个新概念，大概在17世纪时，就有人提出类似人工智能的概念，当时只是一些基础性的研究。

20世纪中期，正式提出人工智能概念，是因为一些原始的神经网络会遇到具体的问题，需要人工智能去解决，主要是模式识别。

当时美国的人工费用比较贵，他们喜欢用机器来进行手写体识别，非常成功。大家都觉得人工智能时代来了。但它很快进入了寒冬，主要原因是计算力太差。

当时计算机还是卡片式，整个阿罗波登月计划所拥有的计算能力可能还不如我们现在一个手机。所以，当时没有办法把人工智能继续往下推进。

大约在20世纪80年代，有一个很大的飞跃，美国拍了很多科幻片，大家都觉得人工智能很快就要取代人类了。

那时候DARPA（美国国防高级研究计划局）打算做人工智能计算机，并且希望计算机具有人工智能的思维，但失败了，至今也没有完成。

但90年代时，一个著名的事件是IBM的深蓝战胜国际象棋冠军，主要原因是它计算力的提升，深蓝使用的算法并不是很复杂，但深蓝本身就是超级计算机，计算力非常出色，用计算力战胜了当时的国际象棋世界冠军。

最近人工智能又有小高潮，2006年加拿大多伦多大学教授Geoffrey Hinton提出深度学习概念，但当时并没有引起大家的广泛关注。

直到2012年，在非常著名的imagenet图象识别挑战赛上，使用Hinton的深度学习模型比当时传统方法做出来的最好结果至少高十几个百分点。

要知道这个比赛已经做几十年了，哪怕提高一个百分点都很难，但Hinton这套算法让其提高了百分之十几。自此，深度学习在研究界就非常火了。

但普通民众还不知道深度学习这个革命，直到阿尔法狗（AlphaGo）出现并战胜人类获得围棋冠军。

一直以来，大家都认为围棋是特别复杂的游戏，当时认为机器在几十年内是不会超过人类的，但是深度学习在当时击溃人类的自信，起到了很好的科普作用。

目前，人工智能确实很牛，但也确实很“弱”。这要从业内公认的人工智能三个阶段谈起。

2.人工智能三个阶段

① 弱人工智能

弱人工智能通常是基于机器学习去专注于完成某个特定、简单、重复性的任务，比如象棋、扫地等，这是现在人工智能干的事情。

我的观点是弱人工智能其实就是数据的拟合。我们现在用的算法，利用训练集的知识，通过拟合的方法，告诉算法或人工智能哪些是错的哪些是对的，然后机器去进行学习。

▲ 长按图片分享给需要的人

在这个阶段，弱人工智能更像是工具，在某一些特定的任务上会取代人，但跟人之间会有一个本质性的区别。

② 强人工智能

这是我们目前一直想要去做的，之前业界预计在2050年左右强人工智能会到来。

首先，什么是强人工智能？它就和一个小孩一样，有自我学习的能力。强人工智能一诞生就能够自己学习、有自己的语言，有认知、有创造力。

▲ 长按图片分享给需要的人

强人工智能与人之间已没有太大的区别了，而且它具有人的逻辑和思维，某种意义上等于具有人格。

因此，等到2050年左右，人工智能机器可能就和人一样，会有族群。除了外型上不一样，其他地方和人没有差别。

③ 超人工智能

超人工智能是很超越的事物，它能够完全超过世界上所有的人的智能，而且具有非常强大的计算力和数据量，人类已无法理解它的思维方式。

从个人角度来讲，到超人工智能阶段，它会具有无穷的能力，但不会有感情，几乎相当于一个神存在于世界。

在我的理念里，神可能就是人创造的并不断进化的，却超越人而存在的。对于这个阶段的人工智能，人已经无法预知它的样子。

三、人工智能应用于医疗场景

为什么人工智能这一块可以比较好应用到医疗场景？

▲ 长按图片分享给需要的人

因为人工智能有三个最重要的、也非常好落地的应用场景：图像、文本、语音。

通俗来比喻，这三个场景在任何一个手机场景里都会出现，任何一个手机都应用到大量的人工智能。

1.图像

图像的人工智能，大家最熟悉的可能就是美图秀秀，这是最简单的人工智能。简单来说，图像有图像识别、图像检测、图像分割三个最简单的功能。

① 图像识别

大概在2015年的时候，当时微软开发了一个深度网络，对图像进行了物体的识别，发现它的识别准确度达到约百分之九十六，超越了人类的识别率。

对于测试的两类植物，没有专业知识的人基本上区分不出来，但人工智能可以非常准确地把这两类植物给识别出来。

② 图像检测

现在开车到处都是摄像头，并且识别率非常高，你是否违章，可以立刻识别出来，这是图像检测干的事情。

③ 图像分割

图像分割之标准的语义分割，针对图像中的不同的物体它会给你单独分割出来。

2.文本

文本包括文本分类和机器翻译两部分。

① 文本分类

文本分类一个广泛的应用就是大家所熟知的今日头条，它之所以很快就可以知道你喜欢什么东西，然后不断给你推送类似的内容，就是因为后台技术的存在——文本分类。

文本分析会将其分得非常清楚，有时你自己都不知道自己喜欢哪一类内容，但它知道，还能准确为你推送。

② 机器翻译

机器翻译大家常见的大概是谷歌翻译和百度翻译了。现在如果上百度翻译进行中英互译，会发现，它翻译得真的很好。

3.语音

① 语音识别

语音识别这几年发展非常火，大概在2016年时，当时微软设计了一个网络进行语音翻译，当时翻译有5.9的错误率，达到专业的速记员的水平。

现在稍微好一点的语音软件，都可以进行语音输入，而且准确率非常高。

② 语音合成

在语音合成方面，以前可能是别人讲话，你去对唇形发现很难对上，一眼就能看出来。

但现在可以做到唇形与说话的节奏是完全一致的，你可以在里面加上林志玲的娃娃音，也可以把我们的视频转换成林志玲的娃娃音。这是现在语音合成做得非常好的地方。

▲ 长按图片分享给需要的人

人工智能在图像、文字、语音方面的处理能力可以直接应用于医疗场景。

四、人工智能遇上医疗大数据

人工智能这一块如何与医学大数据结合在一起？这个问题与我们每个人都息息相关。

譬如现在苹果现在的手环可以检测心率，可以进行心血管疾病方面的检测，这是非常典型的大数据医疗跟人工智能结合的工具。

1.医疗影像分析

▲ 长按图片分享给需要的人

对于人工智能，目前为止在医疗影像分析方面的应用最大，因为医改导致药不挣钱，但医院要生存，于是开始拼命拍片，现在的拍片量很大，每年增长30%左右。

然而影像科医生增长才4%，这就造成非常大的影像科医生的缺口，而且现在基层医院的医生，其准确率还是比较低的，这使得人工智能在医学影像方面的应用更加广泛。

① 分类

病人得了肿瘤，最喜欢听的一句话就是“这个肿瘤是良性的。”肿瘤最简单分类是良性还是恶性，这件事情人工智能可以干。

② 分割

打个比方，有人做手术，做手术之前医生需要把你的病灶区域分割出来，先研究你的病灶的性质，才知道手术怎么做，怎么进行手术规划。

③ 检测

现在最常见的应用就是肺小结节的筛查，我们每年做体验都会做CT等检查，这在临床上的数据量是非常大的，医生在繁重的工作中可能会漏检。

现在人工智能在这一块做得非常好，按照之前公开数据的来看，最高的精准度可达95%。

在乳腺癌方面，根据最近公开的乳腺癌人工智能算法的实验数据，检测准确率可达85%左右。它不仅能把肿瘤给检测出来，还能告知肿瘤恶性率大概是多少。

如今，公开数据显示，糖尿病视网膜病变（糖网）的识别准确度可达到97%，糖网有早中晚期，分期的准确率可达到85%左右，这基本上和医生差不多。

目前的人工智能，特别是弱人工智能只是一个医生的辅助工具，但它就好像医生的手术刀一样，可以非常好地辅助到医生。

2.数据智能诊断

数据智能诊断方面最有名的就是IBM沃森，它提供一整套的肿瘤诊断治疗方案，这个项目目前已经失败。

但从我个人角度来看，50年后医院里所有的系统都将是类似IBM沃森这样的智能系统的。

因为它分析了24万多篇的相关论文，还分析了非常多的临床报告，拥有很多实验数据和专业知识，把人类的医学知识总结成了一个专家系统。如果我们的输入值是对的，那输出值是有指导意义的。

IBM沃森为失败的主要原因是，现在医院信息系统较差，对于一个专家系统，如果输入是错的，那么输出的东西就一定是错的。IBM沃森这个东西很好，唯一遗憾的就是出现太早了。

我们学院的一个教授非常厉害，学的是计算机专业，还考了个中医博士，将计算机和中医结合发明了AI诊脉仪，只要把它往手上一搭，基本就知道这个病人是什么问题了。

3.人工智能在微创手术上的应用

做传统手术，创口很大，需要把整个肚子划开，但微创手术只需要在肚子打三个洞，通过洞把手术刀、探头放进去，医生只需要看视频进行实时控制就可以了。

医生做微创手术最怕的就是切破大血管，一旦切破大血管病人就会立马进入紧急状态。但现在我们可以比较好地应用人工智能的方法进行视频质量的提高，检测大血管，降低手术危险系数。

4.传统药物研究应用

传统的药物研发是非常昂贵的，据美国统计，正常的、比较好的药物研发时间平均需要10年，花费25亿美元。

他们要找到靶点，进行药物设计、进行临床试验，然后再审批上市，通常需要10年左右的时间。

现在通过AI技术进行药物的研发，先在计算机上针对这个疾病模拟出大量的药物分子结构，这是全新的药物研发流程。包括靶向药物的设计也可以用AI来做，这样可以节省大量的时间。

▲ 长按图片分享给需要的人

只有研发费用下来了，药价才会下来。

最近FBA批准的一个靶向药，100多万美元一支，这个药非常有效，但因为研发时间非常长，费用非常高。

未来，我们将进一步研究不同模态的数据融合，在重大疾病的研究和临床辅助治疗上会很有意义。

并且AI对我们的中医非常有用，我们希望通过人工智能的方法，科研结合临床，把中西医融合在一起，进行二型糖尿病的临床研究。

我们研究的最终目的是希望人工智能可以跟与医疗大数据结合在一起，更多地服务于患者和医生。谢谢大家！

*文章为作者独立观点，不代表笔记侠立场。

GMIC介绍——

全球移动互联网大会（简称GMIC）从2009年首届举办至今，已成功举办十届，覆盖全球三大洲九个国家和地区，吸引来自世界70多个国家的创新者，累计百万人次参与，成为具有全球影响力的科技创新盛会，被誉为科技创新领域的风向标。

2019年，GMIC移师广州，创新性打造科学、科技、科幻、科创、科考五大板块，实现五星连“珠”、五子登“科”，让科学家与来自科技、电影、音乐、时尚潮流等不同领域的企业家、艺术家等进行跨界交流。期间大会将实现全城联动，科学闪耀羊城，让科学成为一种生活方式。