“当AI遇见生物健康大数据,我们可以期待一个精准医疗的时代。”3月21日,在“‘深企V力量’中国商事主体发展高峰论坛”上,中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长、讲席教授潘毅分析了生物健康领域的未来发展,并分享了他目前正在进行的儿童自闭症早筛“三部曲”研究。
潘毅表示,在生物医学领域,目前已产生了海量的临床、遗传和行为学数据,具有数据规模大、价值巨大、结构多样和增长快速的特点。“比如管理深圳国家基因库内的庞大数据,需要千万级的样本存储能力,691万亿次/秒的计算能力和数十种分析工具。”潘毅举例说,合理利用大数据,就能为生物医学打开全新局面。
医疗大数据应用广泛,目前最主要的是用于推动疾病诊断和生物制药的发展。
潘毅团队目前的主要研究之一是多模态数据融合。“就像一盘菜,要通过色香味美来判断是否可口。我们的研究就是利用多种信息,综合判断一个人的身体状况。”潘毅分享道。
团队瞄准了儿童自闭症早期筛查领域。数据显示,一名自闭症患者总共会给一个家庭带来150万元人民币的花费,在美国是250万美元,而这种疾病在4岁以前很难诊断。
“我们目前开发了自闭症早筛三部曲。首先是行为学,家长通过视频或录音,判断儿童行为是否有异常,这一步在家就可完成;第二步是分子遗传学,通过血液采集,分析患者是否携带自闭症基因;第三步是磁共振影像,拍片后通过人工智能来分析症状,这一步由医疗机构完成。”潘毅介绍道。
这一逐级筛查的方案还可用于癫痫疾病的预测。疾病预测是精准医疗的一种。潘毅表示,未来通过大数据,还可根据每个人的具体情况,将用药精准控制到毫克。
演讲中,潘毅分享了一个独特观点:人工智能本身其实很“笨”,其智慧可称之为“数据驱动”。
比如谷歌让人工智能区分猫和狗的实验,提供了几百万张图片让其不断学习。“未来我们团队想尝试一种注入先验知识的方法,在提供大量图片之余,同时给AI一些方向,比如告诉它们狗的特征有耳朵和鼻子大,猫则是耳朵和鼻子比较小,能让人工智能学得更快。”潘毅说,“当然这一方法还有待验证。”