◆ 闫凯锋每天5点起床跑步。
文| 铅笔道 记者 邵毛毛
无论剧情差异有多大,中外刑侦剧可能都有类似的情节:费时费力地找寻犯罪嫌疑人踪迹。
身为正义的一方,主角和队友往往要挨个检查监控系统,先筛选出可能有嫌疑人出没的监控录像,然后将每个视频逐一播放排查。最后,在人困马乏之际,他们终于从一段视频中发现蛛丝马迹,如画面中出现嫌疑人与他乘坐车辆的信息而获得重要破案线索。
而在全悉科技推出的人工智能安全产品“洞悉”中,警方只需输入所要找寻的目标信息(如黑色宝马SUV),系统将自动显示视频中出现该目标的画面和时间点,供后续验证核实。
去年年底,闫凯锋成立人工智能行为安全服务商全悉科技,欲针对协助刑侦破案、预防犯罪、反恐及预防机密信息泄露、监控资金动向等场景,为政府和企业提供服务。
注: 闫凯锋承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。
看过《疑犯追踪》吗?
美剧《疑犯追踪》中,软件天才芬奇(Finch)发明了人工智能“The Machine”,该机器通过获得并关联大量数据,可分析出即将发生的犯罪事件并发出预警。
“The Machine”所给出的预警信息直接对应到人,可能是潜在嫌疑犯亦或潜在受害者,因它强大的能力,剧中人称之为“上帝”。
这部一共有5季的美剧,闫凯锋前后看了不下10遍。因此,当一位朋友提议设计一款公共安全产品时,他的脑海里便立刻出现了“The Machine”的形象。
那是在去年10月,闫凯锋刚结束上一个无人机项目,他一边调整休息,一边寻找新的创业方向。当时,朋友们给他提了不少建议,如从事互联网方向,做人工智能或开发公共安全系统。
诸多方向中,他显然对后者更感兴趣。闫凯锋解释道,相比世界发达国家在同等发展阶段甚至现阶段,国内犯罪率一直维持在较低水平,这需要投入大量人力、物力、财力。因此,国家每年维护社会稳定的成本居高不下。
身为资深硬科幻迷的他恰好有适合的解决方案。在他看来,目前市面上的安全产品多为防御木马或病毒等代码类威胁,但所有威胁安全的行为背后都是人在操作。所以,他认为对人的行为进行预判将更有价值。
而从电视剧《疑犯追踪》和电影《鹰眼》中获得启发,他打算在获得大量数据前提下,设计人工智能处理系统,以分析人们公开活动的行为数据,预测可能出现的犯罪行为。“造不出The Machine那样的上帝,但至少可以开发一个辅助性产品。”
在他的规划中,产品主要分为三部分,分别是数据收集系统、数据分析系统和数据展示平台。数据收集包括文本、视频和音频三个模块,涉及图像分析技术、自然语言识别技术、语音识别技术等。在分析环节,系统则需要机器学习、深度学习等技术。
当时,产品虽有了大概方向,但那毕竟还只是科幻电影中出现的应用,他也未在国内找到从事同方向产品研发的公司,因此,项目是否可以落地,技术出身且曾在国企从事机器人开发的他也没太大把握。
此外,闫凯锋擅长SLAM等计算机视觉技术,与朋友交流时,他了解到目前声纹识别和自然语言识别技术还并不成熟,可能成为研发难点。
但是,数据挖掘、机器学习等算法目前均已较为成熟。同时,美国大数据分析公司“Palantir”在国家安全领域的成功应用,也为他带来了极大的自信。“技术是相通的,有成功的先例后我们就确信这个产品是一定能被开发出来。”
此前,他曾把设计思路说给此前提议的朋友,获得了他的认可和资金支持。去年12月,闫凯锋成立全悉科技,面向政府层面开发安全产品“洞悉”。
不涉及个人隐私的行为数据
按照闫凯锋的设计思路,“洞悉”若想实现准确的分析预判,需要接入大量的个体行为数据。
如文本层面须有互联网、电信、金融、交通、海关等模块信息,视频层面则依托布局于城市各处的天网系统(摄像头监控系统),虽然有些信息可使用爬虫技术从网上抓取,但大部分信息均需特定信息源提供。
为此,他与政府某部门建立合作。“数据源在对方处,我们仅提供服务方案和处理系统,不接触任何数据。”
闫凯锋强调道,所有分析信息均为个体在公共场合下活动产生的行为数据,如乘车出行刷卡记录、外出聚餐消费记录等,不涉及个人隐私,并不触及法律。
团队首先与合作方明确产品功能,即预防犯罪、防恐、防间谍等,因此,“我们要先把数据清洗,然后进行关联分析后给出个体评估分数,由对方判断采取何种处理方式”。
这其中不仅包含技术问题,还囊括社会行为分析、犯罪心理学知识。为此,闫凯锋不仅查阅了“Palantir”内斯坦福大学社会行为学教授的相关论文,还向犯罪心理学专家请教以明确系统设计思路。例如,要设计适合的预警阈值,最终判断分数超过该值即为危险人物。
今年年初,“洞悉”产品开发从闫凯锋擅长的计算机视觉部分开始,如人脸识别、车辆识别、跟踪等。在此期间,数据分析引擎“安全大脑”和数据展示平台也在同步开发。其中,为方便客户查看,团队没有采用传统报表形式展示数据结果,而是利用主要用于游戏开发的Unity3D引擎进行可视化开发。
考虑到仅有视频数据收集部分将极大影响分析模块的准确度,随后,闫凯锋陆续补充文本和音频模块开发人员。今年4月,“洞悉”项目已基本具备完善的开发团队。
目前,“洞悉”已基本开发完成。经过清洗、结构化的近千维度个人数据(文本、视频、音频)将进入“安全大脑”中,经分析后形成个人标签画像(如喜好、性格特点等)、行为动态、社会关系这3个数据模块,然后系统根据应用场景(如恐怖活动)判定分数。
今年5月,团队将“洞悉”应用于企业层面。已部署系统的湖南某上市公司中,“洞悉”通过调取门禁系统、ERP系统、人事系统、公司内部车辆识别系统等数据,可预防机密信息泄露、判断员工工作积极性、监控资金动向等。
他以判断员工工作积极性为例,介绍了“洞悉”的工作原理:企业流程管理系统中产生一派遣工单,员工接单后到现场工作,“洞悉”调取该工单完成时间与平均完成时间进行对比,并根据现场监控视频判断员工是否消极怠工,“系统可以识别出他是一直在工作还是玩手机后再工作”。
总的来说,“洞悉”是根据个人已发生的行为所产生的数据,分析判断其性质并给予预测。
据闫凯锋介绍,目前“洞悉”在该企业的应用中,判断准确率可在90%左右。
近期,闫凯锋正和政府部门协商部署事宜,以进入“洞悉”的内部测试阶段。他表示,在此过程中,相关的设置要进行重新调整已适应实际场景,内测阶段预计将一直持续至今年年底。
现阶段,如何招纳更多技术人才,是闫凯锋最头痛的问题。“各个开发模块都要用人,特别是计算机视觉和语音部分,以后数据量肯定会越来越多,数据挖掘也要更多人加入。”