证券客户数据挖掘应用分析报告

证券客户数据挖掘应用分析报告

一、      前言

证券行业是中国计算机应用高度密集的行业之一,较高的信息化水平使其积累了大量的数据,既有企业内部的数据,如财务状况、经营状况等,又有来自外部的客户账户信息、客户交易数据、股票市场信息、上市公司信息等。其中,客户相关数据挖掘利用是券商摆脱低层次的同质化竞争,走出差异化服务优势的重要途径。本文将重点分析证券行业在客户数据分析方面的应用情况,并尝试提出初步建设方案。

二、      行业应用现状

互联网企业为什么能介入金融?靠的不是它的技术,更是它的数据。互联网企业充分利用其平台积累的大数据资源,将海量交易数据转化为金融商机,通过对大数据的深度挖掘实现了精准的金融服务。互联网金融风生水起的背后,大数据功不可没。大数据现在不仅仅是IT行业的一个炒作的概念,更像是一场IT界的全民运动。国内证券公司也已经在大数据领域进行了一些探索。

20##年,海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”(简称“行为特征分析技术”)问世。这项技术主要应用在两方面——根据客户历史交易行为,为每一位客户打上交易行为特点的标签;根据客户流失概率的预测。海通证券通过对100多万样本客户、半年交易记录的数据进行分析,建立了客户分类、客户偏好、客户流失概率的模型。据此为海通证券400多万位客户打上了行为偏好的标签。该项技术开发时的最大初衷,是希望通过客户行为的量化分析,测算客户将来可能流失的概率,为客户维系与挽留工作提供有力的支持。

此前,券商挽留客户的做法无非是降低其佣金,但最终得到的往往是一个无效客户。通过这样一个模型,可确定客户类型和特点,为他们提供特定服务,比如,已经发现了购买某一商品的客户特征,就可以向那些具有同样特征但还没购买该商品的客户进行推销;又比如找到流失客户的特征,然后对那些还未流失、但具有同样特征的客户进行针对性弥补。

海通证券称,“行为特征分析技术”从20##年开始已投入运行近一年,累计使用人数278248人,日均1030人;累计使用功能次数100多万次。经20##年客户交易数据的验证,上述模型较为准确反映了客户行为。

也是在20##年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数)。3I与海通的行为特征分析技术,数据样本同样是来自券商真实客户的真实交易行为数据。3I指数采集的客户行为样本包括账户活动率、账户持仓比例、追加资金比例、流出资金比例、浮盈率、实盈率等。通过3I指数可了解到交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息。

毫无疑问,这些基于真实行为产生的庞大数据资产是电子化对金融行业的一个极大馈赠,但国内券商如今要做的事是如何开发运用好这些数据来降低成本、提高回报率。

这种理论框架早些年就已在国内学术、证券业内搭建,也已开始了研究。但因客户构成复杂、证券市场变化节奏太快及利润模式不断变换,再加上缺乏适合证券行业特点的数据挖掘效果评价指标体系,始终未能出现有效应用并进行普及。

三、      建设方案

1.        人员要求

数据挖掘项目不仅仅是一个技术项目,必须由技术人员和最终用户紧密合作才能确保成功的项目。技术人员和最终用户在项目建设过程中必须分工明确、职责分明:

Ø  最终用户的职责包括:确定业务目标、确定用户需求、设计业务逻辑、审核数据、验证结果等;

Ø  技术人员的职责包括:确定技术方案、完成系统搭建、识别数据源、收集数据、转换数据、挖掘数据等。

下图为数据挖掘的一般流程:

数据挖掘流程(图片来源:上交所数据挖掘培训)

2.        数据挖掘的典型应用

数据挖掘的应用有很明显的行业特性,企业也会根据自身的业务情况进行调整,但在初期先上线一些典型应用,随着应用经验的增加再逐步添加个性化的需求是通用的方法。

数据挖掘的典型应用主要包括:

Ø  交叉销售

Ø  账户分析(如资产贡献、忠诚度、盈利率、持仓比率等)

Ø  购物篮分析

Ø  市场分割

Ø  个性化服务

Ø  欺诈行为检测

Ø  风险评级

Ø  信用评级

Ø  客户流失预测

   

3.        建设步骤

数据挖掘是一门交叉学科,是多种计算机技术的综合应用。数据挖掘项目的大致步骤为(不涉及具体技术细节):

1)        定义商业问题

数据挖掘项目能否成功,并不取决于选择某种工具和算法,而在于能否将数据挖掘与企业所在的商业环境进行结合。这也是上文所强调的需要技术人员和能够深刻理解企业业务的最终用户紧密合作的原因。

2)        建立数据仓库

建立数据仓库是一项耗时耗力的工作(占整个数据挖掘项目一半以上的工作量),但它又是项目的关键环节,进行数据挖掘的基础。建立数据仓库的目的包括:

Ø  提高数据质量

Ø  减少非一致性报表

Ø  提取和提供Metadata

Ø  提供数据共享

Ø  提供更好的数据访问能力

Ø  在多数据源中任意传递信息

Ø  及时提供信息

Ø  实现数据的一致性

Ø  减少新报表特别是非常规报表的需求

Ø  减少非一致性报表之间协调的工作量

Ø  对多数据源进行整合

Ø  将历史数据和现有数据整理在与一起

3)        分析数据

目的是找到对预测输出结果影响最大的字段,并决定是否需要增加到处字段。

4)        准备数据

从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集,主要包括数据选择、数据清洗、数据集成、数据约简、数据转换等几个方面。

5)        建立模型

建立模型是一个需要不断反复的过程,通过考察不同模型找出对解决商业问题最有用的模型。

6)        评价模型

模型建立好之后对其结果进行评价,解释模型的含义和价值,达到条件后方可应用到商业环境中。评价方法有:混淆矩阵、收益表等。

7)        具体实施

即应用模型。实施之后还需要不断监控,当模型失效或效果变差时甚至可能要重新建立模型。

四、      典型应用场景

根据证券行业的典型业务需求,数据仓库一般可以分为面向业务分析、面向行情分析和面向资讯分析三种类型。其中,在面向业务分析数据仓库的构建过程中,客户账户数据分析和历史交易数据分析是最重要的业务分析项目。

(一)        三种典型的数据仓库模型

客户分析多维数据仓库模型

历史交易多维数据仓库模型

行情分析数据仓库模型

(二)        典型应用场景

1.        客户账户分析

对证券客户进行聚类分析,界定客户特征的条件一般包括但不限于:客户号、盈利率、平均总资产、交易频率、盈利股票平均持有时间、亏损股票平均持有时间、客户持有个股收益率、委托方式成交量比率等等。

2.        客户需求关联分析

利用大数据分析获取客户信息并且分析客户的下一步需求,分析这位客户所需要的金融产品,进而向客户营销相关金融产品,满足客户各方面的潜在需求。

3.        客户流失分析

借助大数据平台搜集到客户行为记录,通过对已流失客户的行为进行分析,找到客户流失发生时的关键路径,进而能够利用流失客户的行为模式有效定位有流失倾向的客户,以便服务人员能够在客户流失前进行挽回工作。

4.        客户全生命周期关键时刻标准服务(MOT)

1)        潜在阶段、成长阶段:

客户全生命周期标准服务(一)

 

2)        成熟阶段、衰退阶段

客户全生命周期标准服务(二)

 

5.        服务绩效考核管理指标

分析条件一般包括但不限于:客户满意度、客户资产周转率变化、客户资产增值率、客户服务流水数、客户跟随度、荐股收益率、客户佣金贡献变化、客户下调佣金数量、客户下调佣金幅度、服务客户流失数量、客户服务覆盖率等等。

五、      附录:行业应用实例

(三)        海通证券

(基于数据挖掘算法的证券客户行为特征分析技术及其应用)

1.        背景

随着证券经纪业务转型和创新业务的发展,客户对证券公司的服务要求越发提高,券商仅仅靠低廉的佣金率是很难留住客户的。全面地了解客户,尤其是客户的特征、偏好,充分了解客户的个性化需求,令客户获得更大的价值,才能稳固客户的忠诚度。正是出于这样的考虑,海通证券开创“基于数据挖掘算法的证券客户行为特征分析技术”。该项技术开发时的最大初衷,是希望通过客户行为的量化分析,来测算客户将来可能流失的概率;同时可确定客户类型和特点,为客户提供特定服务。

2.        介绍

该应用针对证券业务转型、创新业务发展、客户适当性管理等提出的新要求,通过对客户历史交易数据挖掘、分析、建立客户动态行为特征分析模型,为精细化的客户服务、业务及产品的推广提供技术支持。其应用主要体现在两方面:

Ø  根据客户历史交易行为为每一位客户打上交易行为特点的标签。

说明:通过对样本客户半年交易记录的海量信息分析,建立客户分类、客户偏好、客户流失概率的模型。基于模型验证结果,为客户打上行为偏好的标签。

Ø  根据客户流失概率的预测。

说明:通过对客户行为特征数据进行量化分析,得出客户将来可能流失的概率。最大限度地挽留到那些真正有意向流失的客户,以此降低客户的平均流失率。

3.        效果

通过这样一个模型,可确定客户类型和特点,为他们提供特定服务,在适当的时候推荐适当的产品和服务,比如,已经发现了购买某一商品的客户特征,那么就可以向那些具有同样特征但还没购买该商品的客户推销;又比如找到流失客户的特征,然后对那些还未流失、但具有同样特征的客户进行针对性弥补。

至20##年1月数据官方显示(系统已运行近一年),累计使用人数278248人,日均1030人;累计使用功能次数100多万次。从运行阶段来看,在客户差异化服务模式、服务成本控制、产品销售、创新业务推广、客户流失率降低等方面取得了较好的应用效果。

4.          20##年度“上海金融创新成果奖”(二等奖)介绍资料

该项目针对证券业务转型、创新业务发展、客户适当性管理等提出的新要求,通过对客户历史交易数据挖掘、分析、建立客户动态行为特征分析模型,为精细化的客户服务、业务及产品的推广提供技术支持。

该项目改变了传统的以静态属性对客户分类的方法,采用聚类算法根据客户交易数据进行动态分析,反映客户(群)的行为变化特点;通过对客户流失原因挖掘,建立量化的客户流失预警模型,预测客户流失概率;采用数据仓库和数据挖掘技术,建立业务之间、新业务客户特征等方面的关联性分析。

在此基础上,公司可改进客户管理与客户服务模式,根据客户行为特征制定针对性的服务策略;可将产品风险和客户风险相匹配,完善客户适当性管理、减少合规风险;可根据客户行为偏好适时推进创新业务、进行产品营销,降低营销成本,提高营销速度。

该项目在客户行为特征分析、流失倾向模型、业务相关性分析等方面做出了有益的探索与示范。自20##年运行以来,在客户差异化服务模式、服务成本控制、产品销售、创新业务推广、客户流失率降低等方面取得了较好的经济和社会效益。

(四)        国泰君安

(个人投资者投资景气指数)

1.        背景

20##年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数),通过一个独特的视角传递个人投资者对市场的预期、当期的风险偏好等信息。

2.        简介

个人投资者投资景气指数(3I指数)是国泰君安研究所对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后得到的综合性投资景气指数。3I指数通过对海量个人投资者真实投资交易信息的深入挖掘分析,了解交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息。

作为月度指数,该指数每月上旬由国泰君安研究所发布一次。3I指数全部采用经由交易系统录得的真实交易数据进行编制,通过平均账户活动率、平均账户持仓比例、追加资金比例、流出资金比例、浮盈率、实盈率等系列反映投资活跃程度和投资收益水平的指标,建立一个逐项加权汇总的量化模型并统计样本库的整体投资景气度。

3.        规则

1)        在样本选择上,选择资金100万元以下、投资年限5年以上的中小投资者,样本规模高达10万,覆盖全国不同地区,所以,这个指数非常有代表性。

2)        在参数方面,主要根据中小投资者持仓率的高低、是否追加资金、是否盈利这几个指标,来看投资者对市场是乐观还是悲观。

3)         “3I指数”每月发布一次,以100为中间值,100—120属于正常区间,120以上表示趋热,100以下则是趋冷。从实验数据看,从20##年至今,“3I指数”的涨跌波动与上证指数走势拟合度相当高。

4.        实例

下图是20##年1月到20##年2月的3I指数(虚线)和上证综指运行(实线)走势图,注:3I指标在80以下表明个人投资者的投资景气度“低迷”,100以下表明“趋冷”。

5.        效果

1)        从历史拟合效果看,3I指数较好地反映了中小投资人的投资景气水平,对中长期波段有一定的提示性,具有较高的参考借鉴价值。

2)        该指数具有较强的独创性和代表性,为国内资本市场系列指数提供了重要的补充。

 

第二篇:数据挖掘总结

数据挖掘总结(职业篇)

数据分析微信公众号datadw——关注你想了解的,分享你需要的。

前面对数据挖掘相关资源等等进行了总结。但是,很多人不明白学习数据挖掘以后干什么,这个问题也经常被问到。记得刚学数据挖掘的时候,有一个老师说学数据挖掘有什么用,你以后咋找工作。当时听了,觉得很诧异,不知道他为何有此一问。数据挖掘在国外是一份很不错的工作。我喜欢数据挖掘,因为它很有趣。很高兴以后就从事这方面的工作啦。写论文之余,也考虑一下数据挖掘工程师的职业规划。以下是从网上找的一些相关资料介绍,和即将走上数据挖掘岗位或是想想这方面发展的朋友共享:

BI职业发展方向:数据分析师---商业分析师--管理者

但是在每个公司,可能有不同的发展方向,但是大致上是从数据挖掘工程师起步。

DMFighter:

数据挖掘从业人员工作分析

1.数据挖掘从业人员的愿景:

数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。

A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)

B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)

C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)

2.数据挖掘从业人员切入点:

根据上面的从业方向倒序并延伸来说说需要掌握的技能。

C,数据分析师:需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践 》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《中文版 数据挖掘原理》 等书籍那就更好了。

B,程序设计开发:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》(韩家炜著)、《人工智能及其应用》。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。

A.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。

--------------------------------------------------------------------------------------------------------

数据挖掘人员需具备以下基本条件,才可以完成数据挖掘项目中的相关任务。

  

  一、专业技能

  

  硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验

  

  熟练掌握常用的数据挖掘算法

  

  具备数理统计理论基础,并熟悉常用的统计工具软件

  

  二、行业知识

  

  具有相关的行业知识,或者能够很快熟悉相关的行业知识

  

  三、合作精神

  

  具有良好的团队合作精神,能够主动和项目中其他成员紧密合作

  

  四、客户关系能力

  

  具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望

  

  具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力

  

  进阶能力要求

  

   数据挖掘人员具备如下条件,可以提高数据挖掘项目的实施效率,缩短项目周期。

  

   具有数据仓库项目实施经验,熟悉数据仓库技术及方法论

  

   熟练掌握SQL语言,包括复杂查询、性能调优

  

   熟练掌握ETL开发工具和技术

  

   熟练掌握Microsoft Office软件,包括Excel和PowerPoint中的各种统计图形技术

  

   善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案

  

   五、应用及就业领域

  

  当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。当前它能解决的问题典型在于:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation &Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等,在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(www.amazon.com),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book alsobought”,这背后就是数据挖掘技术在发挥作用。

  

  数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, techniquesecond”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。

  

  数据采集分析专员

  

  职位介绍:数据采集分析专员的主要职责是把公司运营的数据收集起来,再从中挖掘出规律性的信息来指导公司的战略方向。这个职位常被忽略,但相当重要。由于数据库技术最先出现于计算机领域,同时计算机数据库具有海量存储、查找迅速、分析半自动化等特点,数据采集分析专员最先出现于计算机行业,后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分析能力的人。有计算机特长的统计专业人员,或学过数据挖掘的计算机专业人员都可以胜任此工作,不过最好能够对所在行业的市场情况具有一定的了解。

  

  求职建议:由于很多公司追求短期利益而不注重长期战略的现状,目前国内很多企业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高,随着时间的推移该职位会有升温的趋势。另外,数据采集分析专员很容易获得行业经验,他们在分析过程中能够很轻易地把握该行业的市场情况、客户习惯、渠道分布等关键情况,因此如果想在某行创业,从数据采集分析专员干起是一个不错的选择。

  

  市场/数据分析师

  

  1. 市场数据分析是现代市场营销科学必不可少的关键环节: Marketing/Data Analyst从业最多的行业: Direct Marketing (直接面向客户的市场营销) 吧,自90年代以来,Direct Marketing越来越成为公司推销其产品的主要手段。根据加拿大市场营销组织(Canadian MarketingAssociation)的统计数据: 仅1999年一年 Direct Marketing就创造了470000 个工作机会。从1999至2000,工作职位又增加了30000个。为什么Direct Marketing需要这么多Analyst呢? 举个例子, 随着商业竞争日益加剧,公司希望能最大限度的从广告中得到销售回报, 他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量的市场分析工作。例如,根据自己的产品结合目标市场顾客的家庭收入,教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告,购买自己的产品或成为客户,从而广告只针对这些特定的客户群。这样有的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这些分析都是基于数据库,通过数据处理,挖掘,建模得出的,其间,市场分析师的工作是必不可少的。

  

  2. 行业适应性强: 几乎所有的行业都会应用到数据, 所以作为一名数据/市场分析师不仅仅可以在华人传统的IT行业就业,也可以在政府,银行,零售,医药业,制造业和交通传输等领域服务。

  

  现状与前景

  

  数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。在中国各重点院校中都已经开了数据挖掘的课程或研究课题。比较著名的有中科院计算所、复旦大学、清华大学等。另外,政府机构和大型企业也开始重视这个领域。

  

  据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。

  

  根据IDC(International DataCorporation)预测说2004年估计BI行业市场在140亿美元。现在,随着我国加入WTO,我国在许多领域,如金融、保险等领域将逐步对外开放,这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在未来的3年中,各个应用领域对该技术的采纳水平都将提高约50%。

  

  现在,许多企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告,但是国内数据挖掘在各个行业都有一定的研究。据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。

  

  众所周知,IT就业市场竞争已经相当激烈,而数据处理的核心技术---数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个企业IT-业务构架的金字塔塔尖,目前国内数据挖掘专业的人才培养体系尚不健全,人才市场上精通数据挖掘技术、商业智能的供应量极小,而另一方面企业、政府机构和和科研单位对此类人才的潜在需求量极大,供需缺口极大。如果能将数据挖掘技术与个人已有专业知识相结合,您必将开辟职业生涯的新天地!

  

  职业薪酬

  

  就目前来看,和大多IT业的职位一样,数据仓库和数据挖掘方面的人才在国内的需求工作也是低端饱和,高端紧缺,在二线成熟,高端数据仓库和数据挖掘方面的人才尤其稀少。高端数据仓库和数据挖掘人才需要熟悉多个行业,至少有3年以上大型DWH和BI经验,英语读写流利,具有项目推动能力,这样的人才年薪能达到20万以上。

相关推荐