数据分析实习总结(精选8篇)

数据分析实习总结 第1篇

[关键词] Excel; SQL;数据透视表;管理;教学

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 16. 083

[中图分类号] G64 [文献标识码] A [文章编号] 1673 - 0194(2014)16- 0140- 06

教学管理中,经常要对大量的数据进行分析、汇总,由此也产生了大量的管理软件,但是,软件再多,毕竟无法解决层出不穷的新问题。因此,管理人员掌握常用的数据库软件的使用,可以及时、较好地解决实际工作中的各种问题,提升工作效率。在众多的数据库软件中,Excel作为普及度最高的软件,拥有着强大的数据管理分析功能,而且随着软件的升级,加入了更多、更强大的功能,掌握好Excel的使用、充分运用其功能,将成为解决实际问题的“利刃”。本文以多次考试成绩的汇总、分析为例,提出应用Excel解决类似问题的思路,并详细讲解实际操作方法。还要指出,本问题的解决,还可应用于公司销售业绩、进出货物管理等多种情形,因此具有相当的普适性。

1 提出问题

大量来自不同地区的人员参加考试,每次组织综合科目和不同的专业科目考试,同时通过综合科目和某一专业科目才能取得该专业执业证书,没通过相关科目的人员可能再参加后面批次的考试,要求汇总分析每一次考试和几次考试的人员通过情况和地区通过情况,整理出几次考试后可取得执业注册证书的人员名单,分析每一考试科目的总体通过情况。

2 思路分析

解决该问题的难点在于整理执业证书人员名单时,必须通过综合和专业考试科目,而这两个科目不一定是在一次考试通过,而且考试的专业比较多。

在分析问题时,也应当看到,结果并不要求对每次考试的具体成绩进行层次分析,这样即可简化我们解题思路,即将通过、不通过定义为1、0即可,而不需要分析具体的考试分数(当然也可通过其他办法来进行考试成绩的定量分析)。

基于以上两个主要方面的分析,我们可以得出,利用Excel的数据透视表来解决这一问题是一个比较适当的方法。因为数据透视表是用来从Excel数据列表、关系数据库文件或OLAP多维数据集等数据源的特定字段中总比信息的分析工具。它是一种交互性报表,可以快速分类汇总比较大量的数据,并可以随时选择其中页、行和列中的不同元素,以达到快速查看数据源的不同统计结果,同时还可以随意显示和打印出用户感兴趣的区域和明细数据。数据透视表有机地综合了数据排序、筛选和分类汇总等数据分析方法的优点,可以方便地调整分类汇总的方式,灵活地以多种不同方式展示数据的特征。

3 实际操作

在本节中,以分析解决问题为主线,穿插了Excel数据处理中的常用方法。考虑到Excel 2010在数据透视表方面显著的功能升级和强化,本文以Excel 2010版本为平台进行操作。

整理数据源

准确、规范的数据源是高效分析、正确结果的基础,因此,这项基础工作应当引起足够重视。根据实际问题,将每一次考试数据放在一个Excel文件(工作簿)中,其中的多个工作表分别容纳这次考试中某一考试科目的数据,然后将几次考试的数据(几个Excel文件)放在同一个文件夹内。为方便操作和表达,这里几个文件放在“D:\成绩分析”文件夹中。

数据分析实习总结 第2篇

关键词:《国家学生体质健康标准》;统计与分析方法;准确;高效

实施《国家学生体质健康标准》(以下简称《标准》),是学校体育工作的重要组成部分,为确保实施工作的质量,各级教育行政部门按要求建立了严格的检查督导制度,每年一次的检查验收便是一项重要的措施。

在实施《标准》中,本市、县(区)教育局都是严格要求各学校在《标准》测试工作结束后,及时、准确地上报测试结果,并对测试结果进行认真地统计、分析、评价和总结,并建立畅通的反馈渠道,让学校、教师、学生和家长都知道测试的结果,使测试工作发挥其应有的激励作用。为强化督导作用,在一级自检中要求各学校百分之百地完成测试、上报工作;在二级抽检中各县(区)每年完成一、二次抽检工作;在三级抽检中,每年12月进行一次全市范围的抽检工作。

笔者近年来全程参与了本市的抽检工作,并负责对每年的测试结果进行统计、分析工作。经过几年的摸索,总结了一套了测试、统计和分析方法,现呈现出来与大家共同分享。

一、准备工作

通过教师信息工作平台或“体育教师QQ群”了“被抽检学校需要做的准备工作”,内容主要包括以下几项。

1.抽检记录表

2011年本市抽检的三个项目是耐力类项目1000米跑(男)/800米跑(女);柔韧、力量类项目仰卧起坐(女)/引体向上(男);速度、灵巧类项目篮球运球。

各学校在抽检老师确定了抽检班级后,及时将这张表的“学校、班级、日期、姓名、原检”几项内容填写完整,交给来抽检的老师。三项 “抽检” 数据为空白,留作现场抽检时填。抽检结束后,将填完的“抽检记录表”复印一份,留作填写“抽检导入模板”。

2.学籍卡

学校教务处准备好被测班级的学籍卡,抽检时核对学生;体育组做好场地、器材准备工作。

3.电子稿材料

(1)原测导出成绩表(Excel表)

形成方法:将被抽测班级的本校体育老师测的六项成绩(原测成绩)填入“原测导入模板”中打开“国家学生体质健康标准数据管理系统”,点“数据导入”,将被抽测班级的原测成绩导入点“自动评分”,形成分数、等级数据点工具栏中的“数据”,在下拉菜单点“数据导出”在对话窗中填文件名,文件名为“学校+班级+原测导出成绩”,如“XX中学204班原测导出成绩”,形成“原测成绩导出表”。

(2)抽检导出成绩表(Excel表)

形成方法:在“原测导入模板”中将抽检的三个项目中的成绩全部删除,重新填上现场抽检的三项成绩,形成“抽检导入模板”,下一步再按形成“原测成绩导出表”的程序,形成“抽检成绩导出表”, 文件名为“学校+班级+抽检导出成绩”,如“XX中学204班抽检导出成绩”。

注意:如实填写抽检成绩,一定不要有虚报,请仔细校对。将这两份电子稿材料及时发往指定邮箱。

二、数据的整理与统计

Excel是运用比较广泛,教师比较熟悉的软件,“抽检成绩导出表”也是Excel表,所以用它统计数据比较合适。通常按以下步骤进行。

1.整理数据

将“抽检导出成绩表(Excel表)”中的姓名(F列)、性别(G列)、耐力类项目分数(U列)、耐力类项目等级(V列)、柔韧、力量类项目分数(Y列)、柔韧、力量类项目等级(Z列)、速度、灵巧类项目分数(AC列)、速度、灵巧类项目等级(AD列)等8组数据复制、粘贴到Excel表的空白处(如:第F60—M112单元格,如表2)。

在所有抽检的学校中,选其中一所抽检班级学生人数最多的学校最先做统计工作(如:八中204班人数最多,52人),并以此班作为模板设定统计函数,其他学校的统计只需按同样方法将设定的统计函数复制、粘贴到Excel表的相同单元格内,就可以直接统计出结果,提高了工作效率。如:八中的统计数据设在E114—S125的单元格内,则统计另一所学校(如:九中)数据时也必须将统计数据复制、粘贴至E114—S125的单元格内,这样,所有九中的统计结果便直接出来了。所有数据设置单元格格式时,选“数值”,取2位小数(表3)。

2.统计数据

以八中204班52人的数据为例,每位学生测试了3个项目,总测试52×3=156人次。

(1)单项平均分:先算耐力项目分数(H列),鼠标单击H116单元格,在函数工具栏点fx插入参数 ,在“选择函数”中,点“AVERAGE”,再点“确定”,在“Number1”选择“H61:H112”,再点“确定”,得耐力项目平均分,再单击H116单元格,可以看到右下角的小正方形,鼠标指向它时,会变成小十字,然后向右拖动,便会在J116单元格出现柔韧、力量类项目平均分(),在L11出现速度、灵巧类项目平均分(),I116和K116的数据不需要,直接删除(表4)。

(2)总平均分:鼠标单击G117单元格,在函数工具栏输入“=(H116+J116+L116)/3”,按回车键,得(表5)。

(3)优秀人数:鼠标单击I118单元格,在函数工具栏点fx插入参数,在“选择类别”中点“统计”,在“选择函数”中,点“COUNTIF”,再点 “确定”,在“Rang”中选定范围“I61:I112”,在“Criteria”中输入定义条件“优秀”,再点“确定”,即在I118单元格中出现“37”(表6)。

同样方法,在I120单元格统计出“良好人数”,在I122单元格统计出“及格人数”,在I124单元格统计出“不及格人数。”

(4)优秀人数比例:鼠标单击

I119单元格,在函数工具栏输入“=I118/52*100”,按回车键,得(表7)。同样方法,在I121单元格统计出“良好人数比例”,在I123单元格统计出“及格人数比例”,在I125单元格统计出“不及格人数比例”。

(5)总优秀人数比例:鼠标单击O118单元格,在函数工具栏输入“=(I118+K118+M118)/156*100”,按回车键,得,即三个单项的优秀人数总和除以总测试人次数(表8)。

同样方法,在P118单元格统计出“总良好人数比例”,在Q118单元格统计出“总及格人数比例”,在R118单元格统计出“总不及格人数比例”,总合格率(总达标率)=100-总不及格人数比例。

(6)三个测试项目总体等级分布、平均分、合格率、排名对照表(表9)。

根据前面统计结果,将各校的数据填入对照表中,并统计出总体情况,依据平均分和合格率分别给予排名。

三、撰写分析报告

1.抽检情况概述

主要包括抽检的目的、项目、时间及人员安排、总体抽检人数等。

2.抽检结果分析

主要进行分数分析(平均分)和等级分析(优秀、良好、及格、不及格、达标率),以及各抽检学校的比较分析。

3.存在问题及对策研究

对抽检时成绩比较好或比较差的学校,进行深入的分析,可以结合深入访谈与实地考察等方法,寻找其中成功的经验或问题,比如,学校对学生体质健康的重视程度,结合体育课、阳光体育活动、学校运动会等提高学生测试成绩的措施等,学校测试成绩的形式与方法等。

参考文献:

数据分析实习总结 第3篇

20xx年度员工关系模块工作总结及数据分析

当时间不经意从指间划过, 20xx年也将离我们远去,一年的尾声开始想念很多东西,想念这一年来在不同工作岗位工作带来的喜悦,想念一次又一次在工作岗位上圆满的解答员工的各种疑问,想念每一次为新员工入职流程的第一个微笑,想念每一个离职面谈时的真诚沟通和深深祝福。

回顾这一年来的工作历程,我在领导及各位同事的支持与帮助下,严格要求自己,较好地完成了自己的本职工作。在20xx年我经历了学习、改变、磨练、提高,沟通和工作方式有了较大的改变,现将20xx年员工关系模块工作汇报如下:

一、公司现有人员情况分析

(一)全集团现有人数统计表

(二)XX、XX、XX公司入职、离职、转岗人员统计表

单位:人

入职人数合计

离职人数合计

转正人数合计

调岗人数合计

年末在职人数合计

月平均在职人数

1、入职人员情况分析:

从全年入职情况看,财务中心和市场部是录用人员最多的两大部门,分别录用8人和7人,其次为人事行政中心,录用4人,由于组织架构调整,部门整合和业务量增大是造成以上部门大量用人的原因。销售录取5人,同样,由于销售人员业务区域调整,造成X区人员缺口严重,同时,为了实现销售人员本地化招聘,故在销售X区入职率较高。其他个别部门录取人员或因为部门人员离职或调岗造成的岗位空缺而形成的人员录用。

图表 SEQ 图表 \* ARABIC 1:入职人员分布图

2、离职人员情况分析:

XX的销售部人员离职较多,共计16人,其中一线销售人员离职为14人,占到销售部离职总人数的。在办理离职手续的时候,发现普遍存在一个问题,离职的手续办理不完整,通过人力资源部按正常顺序办理的离职流程较少,一般都是最后反馈到人资部,造成离职面谈、离职要件等都没有完整保留。全年完成离职人员面谈13人,仅占离职人数的。同样由于组织架构调整,年初中心市场部的离职人数也较多,共7人。

全年主动离职25人,占到总离职率81%,公司解聘6人,占19%。大部分员工选择主动离职居多,根据离职面谈反馈,员工离职原因5人因个人发展选择, 2人因为身体原因不能继续从事本职工作,2人因不适应公司制度及管理离职,2人因为工作业务调整离职,2人因家庭等其他原因离职。其中因个人发展离职占主动离职比例最多为,所以,20xx年公司应该多注重员工个人发展来降低离职率。

图表 2:离职人员分布图

3、转正人员情况分析:

从全年各部门转正人数,市场部和财务中心人数最多,均为8人,其次分销部4人,储运部3人,销售、客服部、人事行政中心均为2人,总经办1人。

本年度公司对试用期员工加强了考核管理,增设《试用期满工作表现评核表》,其中有主管领导或是部门经理作为评价人,对员工试用期表现进行评分并给出评语,指明工作中的不足和今后努力方向。员工需要转正时,提交个人转正申请,对工作进行总结,并通过领导的评价,对自己工作再一次进行审视,并在《试用期满工作表现评核表》中留下自己对工作的看法和领导评语的意见。通过此环节,使试用期员工与部门经理之间进行工作上的良性沟通,也增进了员工与领导之间的感情。

数据分析实习总结 第4篇

一、虚心学习

二、踏实工作

努力完成领导交办的各项工作任务三个月来,在领导和同事们的支持和配合下,自己主要做了一下几方面的工作

1、汇总公司的产品信息日报表,并完成信息日报表的每日更新,为产品追单提供可靠依据。

2、协同仓库工作人员盘点库存,汇总库存报表,每天不定时清查入库货品,为各部门的同事提供最可靠的库存数据。

3、完成店铺经营月报表、店铺经营日报表。 4、完成每日客服接待顾客量的统计、客服工作效果及工作转化率的查询。

5、每日两次对店铺里出售的宝贝进行逐个排查,保证每款宝贝的架上数的及时更新,防止出售中的宝贝无故下架。

6、配合领导和其他岗位的同事做好各种数据的查询、统计、分析、汇总等工作。做好数据的核实和上报工作,并确保数据的准确性和及时性。

7、完成领导交代的其它各项工作,认真对待、及时办理、不拖延、不误事、不敷衍,尽量做到让领导放心和满意。

三、存在的不足及今后努力的方向

三个月来,在公司领导和同事们的指导和配合下,自己虽然做了一些力所能及的工作,但还存在很多的不足,主要是阅历浅,经验少,有时遇到相对棘手的问题考虑欠周密,视角不够灵活,缺乏应变能力;理论和专业知识不够丰富,导致工作有时处于被动等等。另外,由于语言不通的问题,在与周围的同事沟通时,存在一定的障碍。

数据分析实习总结 第5篇

在现代商业中,大数据分析已成为企业决策的重要工具,有能力理解并利用海量数据的分析人员,在这里是非常有市场竞争力的。以下是我的商业数据分析工作总结,作为一个数据分析师,很愿意和读者分享我的工作体验。

第一步:收集数据

要进行数据分析,首先需要收集数据。我们收集的数据种类非常丰富,包括顾客销售数据、市场研究数据、社交媒体数据等等。数据的采集可以通过许多各种各样的方式进行——包括在线调查、数据挖掘工具、Web爬虫、定向广告和营销活动等方式。

第二步:准备数据

在收集到数据后,需要进行数据清理和数据规范化,以便于更好地分析数据。因为海量数据可能存在各种各样的问题(如丢失值、非数值数据类型等),因此需要使用数据清理工具对数据进行清洗和转换。数据清理的过程通常包括数据去重、缺失值处理、数据类型转换、异常值检测等等。

第三步:分析数据

在准备好数据之后,需要使用分析工具进行数据分析。分析可以主要分为描述性统计分析和推断性统计分析。

描述性统计分析主要包括数据聚合、分组和排序等操作,从中可以发现数据的一些潜在规律。推断性统计分析则目的是根据样本数据得出总体数据的差异性,包括假设检验和回归分析等工具。一些常见的统计分析工具包括SPSS、SAS和R语言等。

第四步:解释数据

分析数据之后,需要解释它们,让数据结果变得有意义,帮助我们相关的决策者更好地理解数据。这就需要分析数据的背景知识,作为数据分析师,必须了解研究背景、统计学知识、行业知识、社会科学知识等,以便能够更好地理解分析出来的数据结果。

第五步:制定决策

最后一步则是将数据分析结果转化为实际的商业决策。这一步并不是由数据分析师来完成,而是由企业领导和相关利益相关者来做出更好的决策。数据分析师应该对数据结果进行概述,并提出可能的解决方案,使企业领导更好地理解数据分析结果,从而更准确地做出商业决策。

总结起来,商业数据分析是一项非常有前途和有意义的工作,它能为决策者提供实际决策支持,并帮助企业实现业务目标。作为一名数据分析师,需要具备丰富的行业知识和统计学知识,以便更好地分析数据。同时,我们需要处理海量数据并大量使用数据分析工具进行数据建模和决策分析,最终转化为实际的商业决策。尽管数据分析的过程可能会有些困难,但这是非常有成就感的工作。

数据分析实习总结 第6篇

一、主要工作情况

1、强化理论和业务的学习。我重视加强理论和业务知识学习,在工作中,坚持一边工作一边学习,不断提高自身综合业务素质水平,认真学习工作业务知识,并结合自己在实际工作中存在的不足有针对性地进行学习,并且参加统计职业资格考试,明确了统计员的工作职责。

2、在工作以来,我始终坚持严格要求自己,勤奋努力,时刻牢记在自己平凡而普通的工作岗位上,努力做好本职工作。在具体工作中,我努力做好领导交给的每一个工作,分清轻重缓急,科学安排时间,按时、按质、按量完成任务。

3、每天及时、准确按销售合同或出入库单的明细填写统计台帐,并及时作好数据的备份。

4、每月底根据本月实际发生情况向总部报送营业收入快报;产值指标月报;劳动工资及保障情况月报;主要产品产、销、存情况月报;能源消费月报表,并存档。

5、年底将部分数据用表格的形式进行汇总与分析。主要有《产成品交库情况统计表》、《公司人员统计表》、《劳动工资及保障情况统计表》、《年度经济活动分析》。

6、参加汇报了《关于做好特色产业中小企业发展资金项目》《XX省工业结构调整项目》的申报工作。

7、每周五向省工信委汇报项目建设完成情况,每月底向省科工局汇报项目进展情况及项目建设存在的问题,每月初向港区经发局、招商局汇报项目完成投资情况和建设完成情况。

二、存在不足

1、在工作中,虽然我不断加强理论知识的学习,努力使自己在各方面走向熟练,但由于自身学识、能力、思想、心理素质等的局限,导致在平时的工作中比较死板、心态放不开,工作起来束手束脚,对工作中的一些问题没有全面的理解与把握。同时由于个人不爱说话,与同事们的沟通和交流很少,工作目标不明确,并且遇到问题请教不多,没有做到虚心学习。

2、身为新时代的大学生,却没有青年人应有的朝气,学习新知识、掌握新东西不够。领导交办的事基本都能完成,但自己不会主动牵着工作走,很被动,而且缺乏工作经验,独立工作能力不足。在工作中不够大胆,总是在不断学习的过程中改变工作方法,而不能在创新中去实践,去推广。

三、工作计划

1、努力完成本职工作之余,学习更多有关财务、统计方面的知识,以提升自己专业学识。

2、积极参加一些和专业有关的.培训,有效提高对统计数据的准确性,并做好数据的登记、上报与分析。

3、在原有的各种统计报表基础上,对一些没有实际意义的表格进行改进,并对统计数字的准确性进行加强。

今后工作中我将努力奋斗,无论自己手头的工作有多忙,都服从公司领导的工作安排,遇到工作困难,及时与领导联系汇报,并寻找更好解决问题的办法,继续巩固现有成绩,针对自身的不足加以改进,争取做的更好。

数据分析实习总结 第7篇

本人在公司各级领导的正确领导下,在同事们的团结合作和关心帮助下,较好地完成了20xx年的各项工作任务,在工作能力和思想政治方面都有了更进一步的提高。现将20xx年取得的成绩和存在的不足总结如下:

一、思想政治表现、品德修养及职业道德方面

20xx年以来,本人认真遵守劳动纪律,按时出勤,有效利用工作时间;坚守岗位,需要加班完成工作按时加班加点,保证工作能按时完成。爱岗敬业,具有强烈的责任感和事业心。积极主动学习专业知识,工作态度端正,认真负责地对待每一项工作。

二、工作能力和其它方面

我的工作岗位是数据与产品支持,准确和效率一直都是我的工作宗旨。工作内容大体分为四块:

1. 在月初xxx期间,要保证各地提报的非派费用和仓租、外包工、叉车租金分摊的准确性与及时性,同时不仅需要审查数据内容填写的规范性,还需要确认各地是否已经提报。汇总完数据后要进行初步分析,将不符合提报要求的费用提取出来并联系提报人进行确认,并判断是否应该提报。将数据提交给结算部门后,结算在核销的时候会有疑问,这些疑问也需要我来进行跟进与反馈。

2. xxx结束后要进行合同外议价的分析,这部分分析分为同一线路同一承运商派车次数大于3次的分析和有合同但走合同外议价的分析两部分,前者分析的目的是为了考虑是否要与此线路签合同,而后者的分析目的是更新完善合同的报价。

3. 结束合同外议价的分析工作,则需要进行单个TOxxx的分析,该分析数据主要来源于工盘,包括收入明细,成本明细,派车分摊和租车分摊。分析完成需要将结果发给对应的运输经理,查明产生亏损的原因,并提出合理的建议。

4. 在以上三部分工作内容如期进行的时候,全月不定时穿插项目初步分析,此部分内容主要使用者为项目经理、客户经理等。

三、存在的不足

总结20xx来的工作,虽然取得了一定的成绩,自身也有了很大的进步,但是还存在着以下不足:

一是工作方式上还只是按部就班,虽然融入了一些自己的看法和改进,但还未提高到更高的层面,没有从管理层的角度去看待问题。

二是由于工作性质,与区域的负责人和调度员会有频繁的联系,但还不能很好的沉着面对,所以沟通交流能力还需要进一步的加强。

三是知识储备还不够,还需要更广泛的学习与增长经验,成为多方面的人才。 四、20xx年的工作打算

20xx年我将进一步发扬优点,改进不足,拓宽思路,求真务实,全力做好本职工作。打算从以下几个方面开展工作:

一是加强工作统筹。根据公司领导的年度工作要求,对全年的工作进行具体谋划,明确内容、时限和需要达到的目标,把各项工作有机地结合起来,理清工作思路,提高办事效率,增强工作实效。

二是加强工作作风培养。始终保持良好的精神状态,发扬吃苦耐劳、知难而进、精益求精、严谨细致、积极进取的工作作风。

三是作为运输总部与区域对接人员之一,xxx一行都代表着公司的形象。不仅在工作上必须做到精确、严谨,而且在行为品德上要严格要求自己,树立良好的个人形象。所以我要加倍努力的工作为了公司的发展做出自己的贡献。

数据分析实习总结 第8篇

近期主要完成了某产品用户画像分析,从9月底拿到数据,到上周输出第三稿,中间历时一个半月,如果从收到需求,到三稿输出,那就超过两个月,在这次整个分析过程中,遇到了不少问题,尝试了使用不同方法,现在是时候做一个复盘、总结、反思。

在开始阶段,遇到的主要问题是客户的要求是分析产品用户画像报告,因为没有直接跟客户沟通,而需求只有简单的一句话,我只能根据经验列出要分析的要点,确定需要的数据维度。在我确定分析框架后,我发现如果按照我方的想法最后输出的结果却不是客户想到的,那就白做了,所以确定分析框架后还需要客户确认,思路是否可行,分析方向有无异议。这个问题还算比较好解决,客户同意了分析思路即可。

经过与客户沟通后,到了第二阶段,发起提数需求。这个过程总体算比较顺利,客户方数据库工程师首先反馈了一份样本数据,让我方确认数据是否正确,如正确,则提供全量样本。数据验证的过程,主要是由我来完成,对样本数据,我提出了一些疑问,对方也一一解答。当然还有个别字段逻辑问题,我没有发现,对后续的分析带来了一些影响,造成最后能使用的维度减少,是一个遗憾。

拿到全量数据后,对数据进行清洗。在这个过程中发现数据质量非常不理想,很多字段的.缺失值占比很大,个别字段也有异常值,总体样本中能使用的记录锐减。一开始我的处理方法比较简单,对缺失值占比达的字段直接不使用,带来的后果就是输出的第一版分析报告过于简单。

重新回到数据,再次对数据进行摸底,而且也调整分析方法,尝试使用聚类分析方法,按用户活跃渠道,对用进行分群,分群后,再结合其他维度,对用户进行描述。这一次输出的报告还是存在一些问题,最大问题就是用户群之间区别不明显,只能继续修改。中间因为要做另一个分析,用户画像分析就暂时先放一边。

完成另一个分析后,继续回到产品用户画像分析,这次同事提出了一些建议,在没有更好的思路前,我按照同事的建议第三次修改分析报告。当然还是要先处理数据,这次我对异常值、缺失值就行了处理,异常值使用的是盖帽法,对缺失值,在一些字段中用0填补,这样增加了可使用的维度。数据清洗完后,对连续变量进行分箱处理,这一次还是先使用聚类分析,对几个字段进行聚类,这样增加了两个大的维度,接着基于两个大的维度,使用对应分析方法,结合其他维度观察变量间的关系,最后的结果显示有部分变量之间是存在明显的关系,有些几乎没有区别。数据处理完后,再次输出分析报告。

完成第三次分析后,我回过头来看看分析中存在的问题,尤其是使用对应分析,查阅了一些资料,发现在对应分析中,应该先进行预分析。聚类分析,两次我都是使用k—means聚类,其实还可以使用二阶聚类,二阶聚类适用于分类变量,这是快速聚类不适用的,我尝试在清洗后的数据中使用二阶聚类,效果尚可。

最近恰好又在看xxx老师的讲课视频,讲到聚类分析,再结合我在工作中的应用,对聚类分析方法有了新的认识。聚类方法在刚兴起的时候,是不被传统的统计学家们接受,因为这个方法太简单,没有使用到过多的统计学知识。在实际的工作中,聚类使用的频率还是很高的,尤其是在用户分群方面,用户特征的描述。对应分析是第一次用到,为什么会想到使用对应分析,主要是根据变量类型,几个分类型变量,探究变量间的关系,除了相关分析外,对应分析也使用,而且它的结果更直观。

最后能完成第三稿也要感谢同事的建议,一个人的力量是有限的,群策群力、集思广益才能做得更好。