7月14日,由《中国保险报》主办的第三期“保险业大数据应用系列沙龙”在北京举行。本期沙龙主题为“打开数据价值之门”,与会者走进泰康人寿,探寻泰康挖潜大数据的经验,助力全行业打开数据价值之门,推进大数据应用。
“保险业大数据应用系列沙龙”旨在汇聚多方力量,拆解标本案例,解决现实难题,探讨保险业如何深度挖掘使用大数据,促进全行业大数据化。沙龙已成功举办两期,相关报道详见3月31日和6月8日。
致辞

泰康人寿助理总裁兼首席信息官 刘大为
大数据应用必须形成一个数据闭环
其实我们保险业自从“野蛮人”出现在门口以后,曾经一度处在非常焦虑的状态。我们到底将会怎样被颠覆,或者会不会被颠覆,一直是萦绕在我们头脑中非常令人焦虑的危机感。大数据其实也一直是我们在思考是不是能够应对这个威胁的重要工具,2012年的时候谈大数据还是谈四个V还是五个V,那时候是非常技术的一些探讨。经过这几年整个行业的实践,一些理论的探索已经真正从概念落到了实处,我们可以看到其实大数据已经慢慢在整个保险业起到越来越重要的驱动和引领的作用。
此外,从IT的角度或业务的角度,大数据已经逐渐从一个辅助和支持的功能,变成了一个主导,成为一个主线和核心的重要角色。我们最近做的很多大数据的实践和尝试,也证明了数据能够驱动我们业务的发展,实现更精准、更聚焦客户的支持。
在这个过程中,我们的感受是大数据必须结合业务场景,结合移动互联,结合云计算等技术手段,要形成一个完整的数据闭环,才能真正使大数据有生命力,真正长久地支持业务发展。
同业各家公司都在大数据上投入了很多精力,也都有很多各种各样的尝试,所以非常感谢《中国保险报》搭建的这个平台,希望大家通过今天的交流,能够让我们保险业大数据的应用,有一次真正的互相的交流和融合,能够在今后我们的业务发展上起到更大的更真实的推动作用。
主题演讲
数据融合创造价值
泰康把对大数据的框架理解,总结为四字箴言,叫“采存析用”。采的话过去通过大量信息系统建设,录入的各种保单、交易等业务数据。随着移动互联网,云计算的发展,我们有更多的人的行为数据,这些数据来源于我们新技术,我们都用智能手机,手机里面记着你在什么地方活动,你会经常打开哪些APP,这些行为数据不是你主动输入的,而是由设备自动采集的,这是新时代“采”的新变化。同时大数据时代也强调除了内部数据采集之外,还怎么样把外部的数据和内部的数据融合起来,这也是采这方面新的变化。
在“存”这一方面,过去建设有传统数据仓库,数据集市。随着互联网的发展,现在海量数据的存储,大家更多使用分布式的计算机集群的技术如Hadoop技术,来存储海量的结构化和非结构化数据。
“析”就是数据分析,传统的数据分析以OLAP多维分析,高深一点用商业软件做做数据挖掘。互联网公司怎么做分析呢?用hadoop/spark的各种开源软件做关联预测和分析。并且现在越来越强调敏捷BI,让我们业务人具备更多数据分析灵活使用能力,这也是一些新的变化。
大数据“采存析用”的四字箴言,核心重点在于应“用”,不管是保险还是其他行业,其实都在强调数据应用的几个方面,首先是怎么样帮助我们促进销售,因为数据的价值体现,首先体现在销售业绩上,怎么样能够利用大数据帮助我们提高销售;另一方面是怎样利用大数据帮助我们更好地控制风险,金融行业特别强调风险控制;此外,就是运营优化,怎么样帮助我们改善工作效率。
经过这几年建设,泰康大数据框架落地形成了前中后台三层体系,后台是我们的“采”和“存”,构成了我们数据平台,包括我们传统的数据仓库,数据集市,结合我们的hadoop平台,形成整个泰康的数据基础设施,就是我们数据整合平台。在数据整合平台基础之上,我们去构建我们各种各样的数据能力中台,包括分析展现能力,各种机器学习、数据挖掘能力,以及新兴的语音、人脸,图像文字等方面的人工智能处理分析能力。在这个数据能力中台之上,我们与业务部门紧密结合,形成各种各样的数据应用,覆盖销售、风险、运营等各个方面,通过数据驱动业务变革,实现数据的价值。
大数据融合应用闭环创造商业价值
大数据的融合应用会为企业创造价值。那么,什么是数据融合的核心元素?是不同的数据来源,还是数据挖掘技术,或者是用户本身?我们认为,缺少以上任何一方面都是不完整的,让这三者充分的融合,相互促进,才能产生更好的效果。
通过过去几年万丈金数的实践,在数据融合的基础上也产生很多有价值的应用。比如潜客识别,可以帮助保险企业判断用户价值水平;也能够围绕人群,围绕保险产品本身的知识图谱进行个性化产品推荐;另外,也能够通过用户细分,提供个性化的内容推荐,培养用户。
这些应用其实都是基于万丈金数打造的“数据+技术+服务”的大数据融合应用闭环实现的。这套闭环系统解决的就是企业历史数据与现实数据、内部数据与外部数据、PC端数据与移动端数据、线下数据与线上数据的融合。
我们为保险企业搭建企业级大数据管理平台(E-DMP),融合保险企业通过不同触点所采集的数据,比如银保、电网销平台、官网、APP等不同渠道的数据。在数据融合的基础上,围绕着用户会产生大量标签,这些标签会不断丰富保险企业对于用户的了解,有助于建立完善的用户画像体系。万丈金数的“数据+技术+服务”大数据融合闭环的一项核心能力,在于连接用户,通过对不同用户群进行个性化内容连接,实现动态的数据采集,并且能够使用户加深对保险企业品牌、产品的了解,这个过程中也会沉淀更多的用户数据,这些数据通过挖掘,能够为接入业务场景,进行精准营销提供支撑。最终,在动态采集、融合分析、连接应用场景三大方面实现了闭环。
以万丈金数服务A保险企业电销平台为例,通过引入万丈服务,A保险企业实现了用户网络行为数据与业务行为数据融合。基于这套闭环系统,经过1年多的时间,万丈金数帮助A保险企业将500万条的基础记录数扩展为2.2亿条,平均每个用户新增18个标签,为该险企大数据应用提供坚实基础。过去A保险企业电销潜客名单的整体转化率为0.5-1%,引入万丈的服务后,月平均转化率提升到2.3%,最佳月份转化率达到3.3%。
目前,为了推进保险大数据应用,我们也在加快对于大数据分析应用的四大核心课题的研究,包括可视化分析、数据挖掘算法、预测性分析能力和语义引擎,并且紧跟语音数据分析、视频数据分析、深度学习等技术的发展趋势,从而提供更强大的数据分析能力,对保险企业包括营销、产品精算与定制、核保核赔等全业务流程形成支持。
大数据在互联网保险方面的应用
基于泰康大数据平台,泰康在线也搭建了一些典型的应用,如基于海量用户的“泰健康”评分系统,通过这样一个评分系统,将客户的健康价值评估数字化。
前期根据评分模型,将客户的健康信息分为几大维度:
一是健康保障度,客户的健康保障、累计保额、保单数量也成为一个重要维度;
二是身心健康度,如何确定客户的健康状况,一方面是靠外部的体检数据,另外通过搜集他在泰康既往的经历,包括核保有没有问题,体质测试的结果是正还是负、测试频率等,这些是影响评估结果的重要因素。
三是人际关系健康度,因为互联网保险是在网上购买,良好的社交关系和人际交流也能反应这个人的健康状况。我们在网上推出微互助产品,大家互动起来,也能为健康状况加分。
我们现在是以内部数据为主,将来我们可以接入更多外部数据,评分的客户再挖掘,进行信息的完善,这样分值会更明确。
泰康在线大数据下一步的发展思路,要利用好现在的大数据平台,同时丰富外部数据,丰富客户维度,能够深挖销售线索,建立营销及服务的闭环,应用大数据真正为互联网保险创造价值。
沙龙环节
不能为了大数据而做大数据
我们已经在金融服务上面非常清晰的看到大数据威力,将来怎么样去影响我们保险行业,我们将来要想清楚怎么样把大数据运用融入到保险业务中去,更好地提升客户体验及行业价值。泰康已经在做个人健康的征信体系,这是非常重要的,因为中国现在是没有办法去做征信评价,因此无法支持精准定价。但是在西方国家,比如我们外方股东安盛集团是一家法国的保险公司,他在欧洲的业务当中,已经是用到了精准定价,我们也就此进行过调研,发觉目前在国内很难实现,原因是我们很多底层东西没有,包括个人的信息及健康情况,我们其实都不全,现在在中国保险行业做精准定价都可能是比较早的事情。我在想可能是我们将来发展的一个方向,怎么样把我们的产品,我们的服务和我们的运营效率,通过大数据来做好,从而来体现保险价值,提升我们保险企业的利润率,可能是我们将来要往这方面去走,而不是说为了做大数据而做大数据,可能不是这么一个概念。
下一步要保证数据的准确性
实际上人保寿险是刚起步或者说起步也就十年的公司,但是现在数据的收集,数据的完整性,还有准确性,都在应用过程中发现存在着很多的欠缺,或者说下一步需要完善补充的地方。在这要让我来谈这个方面的经验真的没有,我需要的是如何去找这样能够解决的方案。这个方面我个人觉得大数据,首先我们要讲大数据应用,最前端的数据收集,数据融合这一块是基础,没有这个基础后面的东西都无从去谈,我们在应用过程中确实发现了这方面的问题,比如说我们的数据的准确性上面,存在着欠缺,不光是从银行保险过来的数据,从个险销售代理过来的数据,也都存在着数据不准确、不完整的问题。但是我们要怎么样保证这个准确性和完整性,是我们下一步切实要去做的,需要寻找到更完善的解决方案。
数据融合要关注用户动态数据
保险企业所积累的用户数据不是很完整,而且基本上都是积累的历史数据,实时性较差。所以,保险企业所知道的用户需求都还停留在购买保险产品之前,用户现在的需求是什么,需要什么样的产品,保险企业是很难知道的。所以我们现在要做的,首先要跟业务部门建立连接,把线下数据转到线上去,将用户激活,然后再通过内容连接获取用户动态数据,了解用户当下的真实需求,再推荐合适的保险产品。
大数据在运营风控方面的应用
我们最初对风控项目的规划是利用公司多年来积累的数据,包括保单数据、理赔数据、客户数据、业务员数据、运营数据等,识别运营中的一些风险点,如保险欺诈、业务员销售误导、客户违约等,输出相关的风险标签,建立事前事中事后的甄别规则,为管理提供参考。最初设想的分析方向是关联挖掘和信用模型。
关联挖掘指的是通过对业务员或者客户的行为进行归纳和分析,在大量行为数据中寻找相关性,关联分析比较多的应用方向是交叉销售和关联推荐。但在运营方面,我们希望能从一连串投保或保全动作中识别出频繁行为或异常行为,从而将一些欺诈或者违规识别出来。比如业务员通过一连串保全变更,冒充客户进行保单贷款,我们可以设定一个时间窗口,统计时间窗口内的频繁集合,然后用关联分析把我们认为异常的行为识别出来,及时去进行验证和阻止。
信用模型主要是通过建模进行概率预测,判断风险的发生概率,比如欺诈和退保风险,另外就是防范风险的规则是否有效,比如两核规则是否有效。
基于以上的工作,我们还是取得了一些成果的。我这里列举两个,一个是我们发现诸如“销售误导”这样的“坏”行为集中在少数机构身上,提示我们可能和地方机构的销售策略或者经营策略高度相关;二是我们发现业务员行为和业务员业务量(或者说入职时长)有明显的关联关系,业务员保全行为的发生率随其承保保单数呈指数下降,所以我们对不同司龄的业务员采取不同的管理策略,去识别那些我们认为存在风险的保全行为。
但是,我们在推进这项工作的过程当中也逐渐意识到一些问题。
第一是我前面说到的数据的存储结构和形态,我们公司有十年的运营积累,可是有质量有价值的数据能有多少。我们在客户和业务员面前其实都面临信息不对称的问题。比如客户年收入这个字段,首先这是一个稀疏数据,其次很多客户不会真实报告自己的收入情况,有客户一年收入880亿,这样的数据怎么用?这就要求我们用更多的技巧去准备数据特征;
第二是我们的数据是以保单为中心,对客户只记录一些基本的人口统计学资料,比如身高体重婚否。这样的数据其实是特征不足的,很多想到的分析点都没法做,就是因为没有相应的数据。所以这也促使我们去思考如何去采集更有价值的数据;
第三就是我们要分析的问题,我们到底要得到什么样的目标?这直接决定我们如何去使用数据,如何划分数据集。但很多时候问题的定义是不够清晰的。比如要分析销售误导,可是如何定义销售误导呢?投诉分类中的“销售误导”有多少件是真的销售误导?有多少是出于方便选的销售误导?但如果这个指标不好,如何寻找更好的替代指标?这也是我们在思考的。
最后一个是非均衡的问题,“坏”数据只占总体数据的一小部分。这种特点的数据集要求更复杂的建模技巧,如加权采样、交叉验证等,是机器学习范畴。机器学习用的比较多的是互联网领域,但要用在保险业,特别是要用于实际业务的话,需要更全面地了解机器学习的假设才能谨慎应用。
大数据在运营风控方面的应用对我们来说也是个全新的尝试,一般来说完成这样的工作需要配备至少两类人员,一端负责业务理解另一端负责数据分析,但实际上我们后来发现需要的资源远不止如此,一方面是我们数据库中的数据结构和数据形态,基于此的数据提取和数据输出,另一方面是我们的成果转化为规则,都需要包括IT部门在内的许多部门的支持。
大数据改变互联网保险营销模式
保险公司积累了上亿的客户,然而在实践过程中却发现这些数据都长期沉淀在数据库里,没有得到有效挖掘和利用,这样数据都是“死”的。关于如何通过技术手段“盘活”用户数据,泰康在线也做了很多尝试。大家经常谈数据补全,我们接触的时候谈得更多的是用户的接触和活跃。
我们以前每一次新客访问才会收集线索,现在不管新老用户,只要有访问行为我们就知道是谁,根据用户信息和泰康在线的会员系统做匹配,增加一次访问,积累的数据信息就会越来越大。我们根据用户访问频率及浏览轨迹,很容易分析到用户行为,根据用户需求我们进行精准营销、主动回访。用户访问网站的数据比短信营销收集到的信息更直观全面,更能挖掘意向用户。
把用户行为和我们业务部的数据库连接起来,才能实现数据运用的价值。我们现在正在做更多的数据收集及挖掘,泰康在线新版APP会调整的更细,包括用户他有没有登录网站,有没有服务,数据系统都一清二楚。
我们发现传统营销很难达到营销效果的持续提升,必须通过新的技术方式来操作。
与互联网公司合作是条捷径
大数据可以说是现今最炙手可热的话题,任何一家关注新兴技术、关注互联网的公司都会想参与进来。天安人寿也在思考我们这种体量的公司能够做的事情。保险公司的核心还是去解决客户的风险问题,而采集大数据是互联网公司天生具有的优势。可以把专业的事情交给专业的公司去做,通过合作产生共赢。
我们其实更多的不是在去考虑自己怎么样挖掘大数据的问题,更多的可能是愿意和已经有成熟经验或者有成熟数据模型的公司去合作。由于业务模式和发展方向不同,我们更愿意在产品设计、营销方式和客户服务方面下功夫。修炼内功,是我们选择更务实的发展方向。
目前,阿里已经尝试开放他的大数据实验室,把他的大数据共享出来和保险公司共同合作计算数据模型。通过这样的合作,保险公司可以使用这些更具真实性、更全面的数据模型设计出更有性价比、更实用同时也更低风险的产品。
在国内,保险在人们日常生活中,并不是强需求。很难像BAT这样的公司一样,通过实时连接来了解客户的动态数据。如果我们连客户真正想要什么保险都不了解,那目前谈到的所谓保险大数据还为时尚早。毕竟保险公司所能收集的数据是很有限、很片面的。
基于这样的思考,天安人寿选择的是一条与专业的互联网公司合作发展之路。
数据融合对业务部门非常有价值
数据融合确实对于我们业务部门来说,有着很高的价值。对于电话销售来说生命线就是成功率,就是营销成功率,在人力规模一定的情况下,营销成功率决定了我们业务平台。这几年,应该说外部环境并不是很好,在电话骚扰、电话诈骗越来越多的情况下,越来越多的人其实并不信任电话销售渠道,实际上也就倒逼我们必须要用大数据的手段提高成功率,我们不再通过海量赠险、 海量拨打形式,这样已经让业务越来越难了。但是我们遇到的一个很大的问题,保险公司的数据量还是有限的或者说是很静态的,并没有一些很新鲜的,跟客户互动的数据,这其实是非常缺乏的,这会促使我们一定要从外部进行数据融合,会扩充我们对客户的了解,丰富客户画像,这是一个方面,我觉得大数据融合对业务部门是非常有价值的。(编辑/李忠献 摄影/刘书勇)
