本文主要针对京东数据分析师面试题,阿里数据分析面试经验和数据分析面试题及答案等几个问题进行详细讲解,大家可以通过阅读这篇文章对京东数据分析师面试题有一个初步认识,对于今...
试题试卷
(1)项目标数据量多大,多少维,数据都是咋预处理的。
(2)你应用过什么数据挖掘算法,针对简历上的算法或者模型,你看过源码或者模型中细节你清楚多少,还是仅仅调用API用用罢了
(3)项目中,你碰见过的最大的困难时什么,怎么处理的,从中学到什么。
(4)项目中hadoop搜索引擎你是咋设计的,这当中的分词是什么。
(5)数据是存在HDFS中还是Redis中的。
(6)spark和Hadoop的基本架构,尽可能说。
题库你可在牛客网或者拉勾网或者boss求职里面查找。
一、异常值是指什么?请列举1种识别连续型变量异常值的方式?
异常值(Outlier) 是指样本中的很小一部分值,其数值明显偏离所属样本的其余观测值。在数理统计里大多数情况下是指一组观测值中与平均值的偏差超越两倍标准差的测定值。
Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的整体。
未知整体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
点评:考察的主要内容是统计学基础功底。
二、什么是聚类分析?聚类算法有哪几种?请选择一种具体描述其计算原理和步骤。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不一样在于,聚类想求划分的类是未知的。
聚类分析计算方式主要有: 层次的方式(hierarchical method)、划分方式(partitioning method)、根据密度的方式(density-based method)、根据网格的方式(grid-based method)、根据模型的方式(model-based method)等。这当中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明请看下方具体内容:第一从n个数据对象任意选择 k 个对象作为初始聚类中心;而针对所剩下其它对象,则按照它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中全部对象的均值);持续性重复这一过程直到标准测度函数启动收敛为止。大多数情况下都采取均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽量的紧凑,而各聚类当中尽量的分开。
其流程请看下方具体内容:
(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;
(2)按照每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并按照最小距离重新对对应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环(2)、(3)直到每个聚类不可以再出现变化为止(标准测量函数收敛)。
优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类当中区别明显时,效果很好。针对处理大数据信息内容服务平台集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),这当中N是数据对象的数目,t是迭代的次数。大多数情况下来说,KN,tN 。
缺点:1. K 是事先给定的,但很很难选定;2. 初始聚类中心的选择对聚类结果有很大的影响。
点评:考察的主要内容是经常会用到数据分析方式,做数据分析一定要理解数据分析算法、应用场景、使用过程、还有优缺点。
三、按照要求写出SQL
表A结构请看下方具体内容:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(唯有一天的数据))
URL(访问的页面地点位置,字符型)
要求:提取出每个用户访问的第一个URL(及时间最早),形成一个新表(新表名为B,表结构和表A完全一样)
createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;
点评:SQL语句,简单的数据获取能力,涵盖表查询、关联、汇总、函数等。
此外这个答案实际上是不对的,达到有不少方式,任由各位考生去发挥吧。
四、销售数据分析
下面这些内容就是一家B2C电子商务官方网站的一周销售数据,该官方网站主要用户群是办公室女性,销售额大部分都集中在5种产品上,假设你是这家公司的分析师,
a) 从数据中,你看到了什么问题?你认为背后的原因是什么?
b) 假设你的老板要求你提出一个运营改进计划,你会怎么做?
表请看下方具体内容:一组每天某官方网站的销售数据
a) 从这一周的数据可以看得出来,星期六和星期天的销售额明显偏低。这里面的原因,可以从两个的视角来看:站在消费者的的视角,星期六和星期天可能不需要上班,因而也没有购买该产品的想法;站在产品的的视角来看,该产品不可以在星期六和星期天时导致消费者足够的注意力。
b) 针对这个问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者星期六和星期天没有购买想法的心理,进行引导提醒消费者星期六和星期天就应该备好该产品;二是,通过该产品的一部分类似于打折促销等活动来提高该产品在星期六和星期天的人气和购买力。
点评:数据解读能力,获取数据是基本功,仅仅仅只有数据获取能力是不够的,其次是对数据的解读能力。
五、用户大数据细分研究
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提高客户的周消费次数,需你来制定一个事前试验方案,来支持决策,请你思考下方罗列出来的问题:
a) 试验需为决策提供什么样的信息?
c) 根据上面说的目标,请写出你的数据抽样方式、需采集的数据指标项,还有你选择的统计方式。
a) 试验要能证明该改进计划能显著提高A、B、C三类客户的周消费次数。
b) 按照三类客户的数量,采取分层比例抽样;
需采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;
选用统计方式为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。
点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。
上面这些内容就是有关阿里数据分析师的岗位面考试试卷及要求的详细内容的具体介绍,更多阿里数据分析师的岗位面考试试卷及要求具体内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对阿里数据分析师的岗位面考试试卷及要求有更深了解和认识。
确认波动是不是正常:
(1)检查数据来源是不是真实可信;
(2)和自己数据进行同比、环比,判断数据是不是具有周期性
以上就是本文京东数据分析师面试题,阿里数据分析面试经验的全部内容,关注博宇考试网了解更多关于文京东数据分析师面试题,阿里数据分析面试经验和试题试卷的相关信息。
本文链接:https://bbs.china-share.com/news/284820.html
发布于:博宇考试网(https://bbs.china-share.com)>>> 试题试卷栏目
投稿人:网友投稿
说明:因政策和内容的变化,上文内容可供参考,最终以官方公告内容为准!
声明:该文观点仅代表作者本人,博宇考试网系信息发布平台,仅提供信息存储空间服务。对内容有建议或侵权投诉请联系邮箱:ffsad111@foxmail.com
试题试卷
本文主要针对京东数据分析师面试题,阿里数据分析面试经验和数据分析面试题及答案等几个问题进行详细讲解,大家可以通过阅读这篇文章对京东数据分析师面试题有一个初步认识,对于今...
试题试卷
本文主要针对大学生劳动教育理论答案,论述劳动力的再生产和教育理论试题答案等几个问题进行详细讲解,大家可以通过阅读这篇文章对大学生劳动教育理论答案有一个初步认识,对于今年...
试题试卷
本文主要针对麻醉中级考试答题技巧,麻醉中级专业实践能力的答题技巧和方法和麻醉中级试题等几个问题进行详细讲解,大家可以通过阅读这篇文章对麻醉中级考试答题技巧有一个初步认识...
试题试卷
本文主要针对广东2023年高职高考数学试题和答案,全国高职高考的题都是一样的吗知乎和高职高考试题等几个问题进行详细讲解,大家可以通过阅读这篇文章对广东2023年高职高考数学试题和答...
试题试卷
本文主要针对2023年幼升小面试常问的问题,幼升小考试入学考试内容和上海幼升小试题等几个问题进行详细讲解,大家可以通过阅读这篇文章对2023年幼升小面试常问的问题有一个初步认识,对...