邮件数据分析工作总结-0104

邮件数据分析工作总结

1. 问题背景分析

  公司内部人员交流主要有电话、邮件以及面对面等三种方式,邮件系统作为三种沟通方式中唯一进行交互数据存储的平台,其大量的数据信息是可以进行分析和挖掘的,并且可以从中获取有价值的信息与发现。

  在大数据技术快速发展的今天,通过对公司邮件系统中的交互数据进行科学的分析和挖掘,可以发现公司各部门之间潜在的关联关系,如部门间业务关联度;公司一些员工之间潜在的工作关系,如员工的沟通关系网等。

    本项工作主要依据公司现有邮件系统的历史数据,采用一些合适的数据处理、分析与数据可视化方法,力求从邮件历史数据中挖掘出公司各部门之间业务的关联程度、沟通的主题以及一些员工之间的工作关系等信息,以对公司的组织架构调整或员工的工作岗位调动提供一些有价值的决策建议。

2. 数据源

数据源由信息中心邮件系统相关负责人提供,数据信息的基本情况如下:

   (1)邮件主要信息数据,包括字段:发件人、收件人、主题、开始时间、完成时间、状态、结果信息、发件人摘要、收件人摘要、邮件大小、IP地址。每月的邮件信息数据导出为一个csv格式文件。

  邮件主要信息数据存在的问题:数据信息表中存在很多Null值,如主题(有的邮件没有主题)等;垃圾邮件;邮箱、邮件主题中存在非法字符,这些可能导致数据文件读写时出现问题。

   (2)邮件联系人主组信息,包括字段:父组(公司编号)、组(部门编号)、显示名(部门名称)。

  邮件联系人数据存在的问题:数据信息表中有废弃的组;有的组没有父组等;这些也可能导致数据文件读取时出现问题。

   (3)邮件联系人子组信息,包括字段:组(部门编号)、用户(个人邮箱)。

3. 数据处理过程

数据处理过程主要包括数据的预处理、数据的读取、数据的存储等三个操作。

   (1)数据预处理:数据主要信息中包括很多字段、但真正有用的信息就3个,发件人、收件人、以及主题,其它信息主要是一些系统信息,没有实际的分析意义和价值,需预处理掉这部分数据。同样,邮件联系人主组信息数据中也包括一些废弃和无效的数据,也需要预先处理。

   (2)数据读取:经过验证,处理后的数据文件很多数据分析软件都不能正常读取(包括Matlab、SPSS),究其原因是数据文件中有非法字符和很多Null空格,最后只能采用.NET编程读取数据文件。

   (3)数据存储:应用VS.NET编程读取所有数据文件后,将数据表插入设计好的数据库中,应用WinForm编程将数据处理过程中的重要信息显示出来。

图1-1:发件人-收件人所属部门分析

图1-2:部门间收发邮件详细信息、部门名称(按查询顺序)、部门收发邮件总和信息

数据处理阶段需要得到的数据信息:

   (1)收件人所属部门、发件人所属部门,可能有的发件地址找不着所属的部门(如系统垃圾邮件等),有的收件地址找不着所属的部门。

   (2)部门间收发邮件的详细数据信息。

   (3)部门名称(按查询顺序排序)。

   (4)部门的收发邮件的数量总和。

  

4. 分析方法

   (1)数据分析工具:VS2010+SQL Server2008,用于读取数据文件以及分析基本的邮件数据信息;Matlab2008,用于读取VS2010输出的数据信息文件以及进一步的统计分析和数据结果可视化。

  

   (2)数据分析步骤:

  Step1:计算各部门的发件正交数据表:47*47维矩阵,元素为目标部门发给其它部门的邮件总数。

  Step2:计算各部门的收件正交数据表:47*47维矩阵,元素为目标部门收到其它部门的邮件总数。

  Step3:计算排序后的各部门发件数据矩阵:47*47,元素为目标部门发给其它部门邮件从小到大排序后的下标。

  Step4:计算排序后的各部门收件数据矩阵:47*47,元素为目标部门收到其它部门邮件从小到大排序后的下标。

  Step5:计算各部门收发邮件的数据矩阵:47*2,元素为各部门收发邮件的总和。

   (3)数据分析方法

  分析1:以发件数量为研究对象,取发件数量排名前N的部门,分析部门间相互发件的数量之和,部门间相互发件的数量之和越大,说明两部门的关联程度越紧密。

  分析2:以收件数量为研究对象,取收件数量排名前N的部门,分析部门间相互收件的数量之和,部门间相互收件的数量之和越大,说明两部门的关联程度越紧密。

    分析3:分析所有部门对其它部门发件排名前N的部门,形成部门间发件活动的网络关系图,部门连接的节点越多,说明该部门主动与其它多个部门的关联越紧密,该部门对外的信息需求量越多。

  分析4:分析所有部门收到其它部门发送邮件排名前N的部门,形成部门间收件活动的网络关系图,部门连接的节点越多,说明该部门被其它部门关注的程度越高。

  

   (4)其它分析思路

  上面的分析过程只是根据数据处理过程中得到的一些重要数据信息而采取的一些分析方法,可能在实际应用的过程中还有很多其它的分析思路,这需要进一步去思考这方面的问题。

5. 分析结果与可视化

图1-3 发件总数排名前十的部门之间相互发件的网络关系图

  说明:(1)部门之间有连线的说明部门之间有过联系(可能是部门间相互给对方发过邮件,也有可能是一个部门给另一个部门发过邮件),部门之间没有连线的说明部门之间没有联系。(2)部门之间的连线越粗,说明部门之间相互发件的数量之和越大。

图1-4 收件总数排名前十的部门之间相互收件的网络关系图

  说明:(1)部门之间有连线,说明两部门之间有过联系(可能是部门相互收到对象的邮件,也有可能是一个部门收到另一个部门的邮件)。(2)部门之间的连线越粗,说明部门之间相互收到的邮件数量之和越大。

图1-5 各部门对其它部门发件排名前三的网络关系图

  说明:本图用于描述各部门对其它所有部门发件排名前三的部门网络关系图,从此图可以得到两层信息:(1)每个部门给其它部门发件数量排名前三的部门是谁。(2)部门连接的节点越多,说明该部门与其它有业务关联的部门越多。

图1-6 部门收到其它部门发送邮件排名前三的网络关系图

  说明:本图用于描述各部门收到其它所有部门发送邮件排名前三的部门网络关系图,从此图可以得到以下信息:(1)各部门收到其它部门发送邮件数量排名前三的部门是谁。(2)部门连接的节点越多,说明该部门被其它部门关注的程度越高。

6. 后续工作与改进方向

  本次探索工作在实现的过程中可能存在着各种不足,如网络关系图的可视化方面,在实际应用过程有一些现成的软件可以使用如:pajek、gephi,只需要将数据结果整理成软件要求的格式文件,就可采用这类软件来绘制各种网络管理图,下去可以了解一些这类软件的使用方法。另一方面,在邮件数据的分析目标和分析方法方面,需要进一步去思考怎么去实现,才能真正从数据中得到有价值的信息,这也是以后工作的改进和提升方向。

 

第二篇:工作总结 - 数据分析室的故事

彩虹,从这里升起

尊敬的各位领导、同事:

大家好!

很高兴有机会来讲讲我们检测人的故事。

今天我演讲的题目是《彩虹,从这里升起》。

和煦的暖风送来了春的问候, 也为我们数据分析室注入了新的活力。数据分析室在内检测作业处是一个大室,现有成员11人,主要负责检测作业的数据分析工作,和数据分析系统的维护工作。

我们是一个年轻、团结、充满生机和活力的集体,领导们以身作则和每位同志的敬业精神是我们取得胜利的关键,在这奋斗的日日夜夜中,我们牺牲了数不清的节假日,不知度过了多少个不眠之夜,工作中我们遇到过无数的困难,正是凭着集体的智慧和力量,才度过了一个个难关,走向“柳暗花明又一村”的境地。用八个字概括我们的工作。即:团结、拼搏、高效、辉煌。

数据分析室的工作并不仅仅是进行数据分析,还有其它许多工作要由我们去做,包括到现场指导开挖验证,还有处理的许多文件的起草、录入、编排,以及其它的一些事务性工作的完成等等。如多媒体、各种宣传材料的制作,各个施工方案的编制等. 数据分析的工作是单调而繁杂的,需要耐心和细心,在外人看来似乎只不过是看看图形,敲敲键盘,实际上并非如此,分析数据责任重,周期长,单调的图形容易使人产生厌烦情绪,然而我们必须时刻全身贯注地注视着“动态的、随机的”检测信号。一天下来,眼睛流泪,视力下降,再看其它东西时,每件东西也变得会走动了,不停地移动。并且还要接受射线的侵害,我们没有丝毫怨言,始终以集体利益为重,无私奉献,任劳任怨,一切本着以工作为重,从内检测处的利益出发为原则,认真细心地完成领导交给我们的各项任务,以自己身为一名数据分析员为荣。

金虹同志身为内检测处处长,平时处里有很多事情需要她来处理,而且她的孩子很小,爱人也不在家,她不顾家庭和孩子,依然全身心投入到数据分析的第一线,此次又参加了利比亚检测项目组,成为内检测作业公司“技术带头人”。

内检测处数据分析室主任贾会英同志,负责所有漏磁检测工程的数据分析工作,同

时还参加漏磁腐蚀检测器的研制工作。她对待本职工作认真负责,以党员的标准严格要求自己,积极参加公司组织的各项活动,团结同志,助人为乐。给我印象最深的是20xx年x月份“陕京线”的腐蚀检测及20xx年x月底一直持续到现在的东北“铁抚线”腐蚀检测。

在“陕京线”的数据分析过程中遇到了许多未曾遇到过的问题。就加焊缝而言,检测数据最终被分成几十份,加完后再将这几十个库和在一起,同时要避免在此期间出现的错误。由于我是去年新分到数据分析室而且又是第一次做这项工作,任务量大,所以很容易出错,错了一条焊缝,所有的焊缝编号都会错,这样就给贾会英主任的申查带来了很多麻烦,另外甲方报告中要提供壁厚变化点的要求也有很多困难,壁厚变化点不好辨认,参照已有的穿跨越资料,发现很多地方对不上,还有很多站丢了里程,由于“陕京线”线管内杂物的影响,导致其某些段管道检测出现里程轮打滑现象,这就给数据分析工作带来了很大的难度,数据报告的准确性关键就在于“校对里程”。经研究,决定采用“数螺旋焊缝”的方法解决里程问题,而这一方法说起来简单,却需要做大量繁杂、细致工作,一个细微的疏忽,都会降低检测结为了能按时提交检测报告,她牺牲休息时间,加班加点的工作,当时她已经有了两个月的身孕,却不顾及自己沉重的身体及电脑的辐射,依然每天与计算机为伴.争分夺秒,常常在计算机前一坐就是十几个小时,连水也顾不上喝一口,晚上经常加班到8、9点钟也吃不上饭,每天都是在满天星斗的陪伴下结束一天的工作。为了提高工作效率,她采取交叉作业的方式分析数据,采用多种方法校正里程,最后圆满地将所缺的焊缝补上了,还总结出腐蚀数据壁厚变化特征,编制出壁厚变化报告。在她心中始终有这样一个坚定信念:就是再苦再累,也要按时、保质地提交检测数据报告。

“陕京线”的数据分析工作如火如荼开展的同时,我们又接到了东北“铁抚线”的检测任务,而且距检测数据报告完成的期限也是越来越近了。

东北?720管道运行了近xx年,腐蚀情况非常严重,一根12米的管段上,经常分布着十几个腐蚀,这无形当中增大了我们的工作量。因为腐蚀点要一个一个的加,数据要一米一米的分析,有时加注了上百个腐蚀点,但里程却没有很大的跨度。

不同的管道、不同的工况条件,检测信号也是千差万别的,由于这次甲方提供的管

线资料极少,管道设计施工不规范,这给数据分析工作增添了一定的麻烦。有一些检测信号是我们以前从未见过的,这不仅需要细心和耐心,更要有丰富的经验,加上我们新到人员的经验不足成了一大难题。金虹奔忙于利比亚,董琳苏丹未归,贾会英和李芳两名同志毅然承担起了这项任务,为了保证准确性做到万无一失,耐心的给我们讲解一些腐蚀点的信号。李芳连孩子生病也顾不得照顾;贾会英的产期一天天的逼近,可是由于数据分析任务量大,她一而再的推托自己的产假期,坚守在数据分析的岗位,每天清晨我们可以看到一个身着红色羽绒服迈着沉重步子的身影,有多少次我流泪了,那一刻自己是多么的渺小,多想猛得有一种超人的智慧,一下子把那些现在要学和将来要学的腐蚀信号全部记下来,给这位可亲可敬的同志能分担一点压力,很多次听到她叹气的声音,工作太累了,她正是需要一杯温茶,一被温床的时候,可她放不下手中的工作,就这样持续着,坚持着……她身体里的那个小生命似乎懂得他母亲的使命,也没有抱怨地配合着母亲一起坚守于工作,永远也不会忘记她的那句话——今年是数据分析任务最繁重的一年,他却偏偏在这个时候来了。平时她是那么喜欢孩子,她应该盼望这一刻到来的。自xx年到现在,她为技术公司奋斗了整整7个年头,没有考虑过家庭,她的爱人从苏丹回国休假,可是为了工作,她没有在家陪爱人呆过一天……直到那个小生命既将出生了,她还不肯放下工作,一直到3月底,把所有的工作安排好才在同事们的劝说下回家了。在此期间,她还多次打电话询问我们的工作进度,心还停留在那一张张检测报告上。4月8号是不寻常的一天,我们记下了那个日子,那个陪伴母亲工作了十个月的小生命出生的日子,听到那个6斤4两的婴儿降生的消息,数据分析室的几个同志竟相互拥抱在了一起。在贾会英的身上,我看到了一个检测人的伟大。她不仅在工作中认真负责,在生活中像姐姐一样关心我们,以至于在数据分析室中永远都有一个大家庭的温暖。

还有李芳、孟霞、何涛等很多好同志,为了能如期完成这两次的数据分析工作,一直坚守在自己的工作岗位上,自始至终都精神饱满,百倍热情地从事工作,没有提要求、没有报埋怨、互相帮助、不分你我,为了集体的利益不知牺牲了多少的休息时间.大家同甘共苦、团结协作的精神让人感动。

“人心齐,泰山移”,正是全室数据分析人员上下一心的团结协作,正是依靠了这种“万众一心”的凝聚力,在这种原动力的驱使下,才使我们战胜了一个又一个困难,

攻克了一个又一个难关,拥有这样一支团结向上、敢于拼搏的队伍,是我们一笔巨大的宝贵财富。

“路漫漫其修远兮,吾将上下而求索”,在今后的工作中,内检测处的数据分析人员有信心、有能力会在新的世纪里奋斗出自己的风采来, 会继续发扬团结拼搏、艰苦创业的优良传统和作风,不断寻求新的改革思路,锐意进取,以更加饱满的热情,认真负责的精神,为管道技术公司美好的明天贡献我们的力量。

20xx-4-21

数据分析室

相关推荐