• LEARN
      Mastery
    • Big Data Engineer
    • Full Stack Engineer
    • Backend Engineer
    • Artificial Intellige…
    • Data Scientist
    • UI/UX Designer
    • Product Manager
    • Business Analyst
    • Entry
    • Career Express
    • CS Fundamentals
    • Project Class
    • Interview Prep
    • Open Class
    • All Classes
  • RESOURCES
    • Events
    • Videos
    • Blog
  • PARTNERS
    • Partner With Us
    • Mastery Programs
    • Discover Talent
  • ABOUT
    • Overview
    • FAQ
商业分析数据科学求职北美求职故事科技趋势程序员面试访谈录计算机科学 All Blog
  • 商业分析
  • 数据科学
  • 求职北美
  • 求职故事
  • 科技趋势
  • 程序员面试访谈录
  • 计算机科学
  • All Blog

Tag: 数据科学

搞定这四件事,你就能成为数据科学家!

2018.11.25
作者:Yifan

今天我们来解读Airbnb的朱赟写的微信文章《公司里的数据科学家在做些什么》。 首先,大家可以看看关于异常检测的两篇很有名的文章:《Airbnb支付平台如何进行异常检测》,《Breakout detection in the wild》。 看完这两篇文章,我们会觉得数据科学家似乎很高大上,他们做各种图,整理各种idea,梳理各种数据,成为整个公司的灵魂。很久以前我们就听过一句话:“人人都是产品经理”。如今这句话已经开始变成“人人都是数据科学家”了。 数据科学家日常在做些什么? 数据科学家的日常工作总结起来有四个方面: 仪表盘 采清算 调模型 A/B测试 1.仪表盘 其实数据科学家人才最早是用在商业智能(Business Intelligence)上。说起商业智能,大家可以这样想:如果CEO每天早上到办公室,需要用五分钟的时间了解公司的运营情况,你会给CEO呈现什么?这就是CEO仪表盘。为了做这个仪表盘,我们需要找到公司最关键的指标,并发现里面的复杂联系,而且要一目了然。 举个例子,酷我音乐的一个团队有50多人,用户达到千万,收入也超过千万。那么每天早上需要准备什么数据呢?这几个数据比较重要:昨日的用户量,用户的登录比例,用户的付费比例,然后是人均消费。这是从财主的角度来看的。我们也可以从主播的角度看,昨天主播视频的播放量,平均播放时长,哪些留存哪些遗失了,整理出相关的数据。 其次,团队每个月要向CEO汇报整个事业线的运转情况,这时又需要汇报哪些指标呢?除了刚刚我们提到的,还要汇报流失率,以及流量的情况,如流量转化率、单流量价值等。数据科学家需要明确这些指标是如何整合起来的,哪些是关键指标,这是数据科学家要做的第一件事。 2.采清算 虽然已经规划好了整个流程,依旧需要落地实践,实际地做事。首先是埋点采集,比如我想收集所有流量的情况,那么首先要针对每一个流量源进行埋点。随后,对于用户流入之后的登录、注册、付费等各种行为,都需要埋点收集。 收集到这些数据之后,会有很多噪音,怎样清洗这些噪音成为一个非常重要的步骤。比如团队在做音乐推荐功能时,想统计用户喜欢的音乐的比例,收集用户为歌曲点红心的情况,结果发现有些噪音用户会一天点上千次的红心,那这样的用户还要保留吗?如果保留,会极大地影响整个系统的准确性,所以要清洗掉他们。 最后是统计整理。统计整理不仅是要把数据算出来,还要选择合适的指标。比如统计酷我音乐系统的服务等级(SLA)时,我们想看用户访问直播服务时的卡顿情况,如何评估呢?是统计大家的平均卡顿值还是其他指标呢?我们最后选择的是95%的指标,即把大家访问这个网站的卡顿排序,算出排在第95%位置人的卡顿指标,用它来评估整个服务的情况,也以此为依据来选择不同的服务提供商。 3.调模型 第三个任务是调模型。首先是搭建模型,现在模型已经越来越Popular,各种开源包也越来越多,因此找一个模型搭建起来往往不是最难的。 之后要分析模型的结果,因为不同模型跑出来的效果是不一样的,所以往往还要搭配很多测试的程序,来看模型跑的结果好不好,甚至还要在之前准备一些测试集、训练集来调整模型的参数。 最后一步是根据不同的结果调整参数。调整参数往往还包含两部分,一部分是对准确率的调整,即能不能算得更准;另一部分是性能调整,比如以前需要100台机器来做,能不能调成10台机器就能做呢? 举个例子,我们做音乐推荐系统时,模型是基于协同过滤(CF)来建的,当然也用了一些矩阵向量的方法,或一些更高级的机器学习方法。无论用什么方法,都需要分析各种结果,不同方法的性能也不一样,怎么去调整、整理是一个非常耗时的工作。 当这个模型应用了之后,其实还有很多领域知识能够增加你的结果。比如我们发现给用户推荐音乐时,要推荐20%他已经明确表达了喜欢的音乐,即点过红心的音乐,这样可以增加用户的满意度。此外,我们还需要增加多样性,让用户更持久地使用这个产品,所以我们添加了很多多样性的指标,来将整个系统调整得更好。 4.A/B测试 数据科学家最后一个任务是A/B测试。它的核心就是将用户分组,测试收集每组的不同结果,最后进行分析决策。 举一个有趣的例子,当年我们产品上线以后,需要放广告踩流量。我们的市场经理设计了几十种广告,把用户拆成了几十个小盒子。向每个盒子投广告,测出了广告的效果。但我们发现这种做法很慢,不够智能化。 后来我们是这样做的:不断地随机选择一定比例的用户,给他们推送我们排到队表里的一个广告。当用户展示数到达一定范围时,我们就开始认为这个结果有一定的置信度,于是就把这个结果作为我们想要的结果。我们以前做个测试往往需要几个小时,现在只要把广告设计出来,直接放到系统上,可能几分钟就能跑出来一个合适的结果,极大地优化了整个A/B测试的结果。 实际上,计算机之所以能如此快速地发展,背后的核心就是快速的A/B测试。因为能快速地A/B测试,所以能很快地进化。因为有了A/B测试,我们能够得到更精确的结果。 再举个例子,以前我们做广告投放喜欢做线下广告,其实大家根本不知道线下广告的效果如何。后来我们将线上和线下广告相结合,就能成功评估出线下广告的效果,其实大多数线下广告都是没什么用的。这个时候,很多线下广告商就想去线上买广告,结果发现他们根本就买不赢,为什么呢?我们当时做O2O广告定向时,想让那些线下广告商来线上买广告,但最后我们发现这个项目的方向是有问题的,因为线下广告商根本出不了线上广告商那么高的价格,因为他们的转化率和回报率非常低。因此最后我们把O2O广告做成了品牌广告,也就是大批量地一次购买很多广告。 数据科学家来自哪里? 其实现在人人都是数据科学家,学数学、统计、物理、机械、金融的都可以做数据科学家。数据科学家的硕博比例比较大。 这里有一张很有意思的图,名为Modern Data Scientist。我们可以看到,数据科学家拥有数学、统计、编程、数据库、领域知识、软技能、沟通能力和可视化等多方面的技能。但实际上,我们上文有讲数据科学家有四个方向可以做,所以数据科学家本身也是有很多事情做的,这些技能并不需要样样精通,精通一个就行。比如你的数学很好,你就可以做一些建模的事情;你的实战能力强,你可以做一些模型优化的事情。你的数据分析能力强,你就可以专门做数据分析。数据科学家本身就有很多分类,虽然所有的事情都需要完成,但这些往往不是一个人来完成的,往往需要一个团队合作。 数据科学家这个职位到底是从哪儿来的?其实早在五年前,我们就已经在大量地使用数据科学家这个概念了,只是那时还没起这个名字,我们一般称他们为产品经理或者市场经理,担任与现在的数据科学家相同的职责。 优秀的数据科学家具备什么特质? 敏感性。对数据敏感,第一眼看到数据就能知道数据背后的东西。 沟通性。能够把自己的理念很好地传递给别人。 可视性。能够把自己的数据可视化地展示给别人,其实也是沟通性的一个子集。 分析性。能够分析出结果。 这不就是一个合格的产品经理所要求的吗?所以一个合格的产品经理本身往往是一个合格的数据科学家。 数据科学家有多重要? 正确判断的基础是什么?怎样才能做好决策?需要有可信的数据和靠谱的解读。说到这里。也希望大家不要迷信数据科学家,因为有时候即使很多东西全都量化了,最后也可能挂掉。比如Zynga,这个公司当初做游戏的时候提倡的是数据驱动运营,最后公司也还是不行了。 因此,数据解读是很重要的,但大家不要迷信地认为它是成功的唯一标准。对行业的把握、对团队的管理、对人性的理解,以及你跟整个世界的合作关系,都是你成功路上很重要的扶手,不要认为数据就是一切的方法。 总结 仪表盘,采清算,调模型,A/B测试是数据科学家的基本任务。 敏感性,沟通性,可视化,分析性是数据科学家的基本素质。 人人都是数据科学家。

数据科学
Read more

Airbnb Head of Data Science:一文带你看懂数据科学

2018.11.11
作者:Yifan

如果你对新型企业中的数据科学家是做什么的还有疑问,那么这篇翻译的文章一定可以给你答案。本文作者Elena Grewal是现任的Airbnb Head of Data Science,本文于7月24日发表于原作者的LinkedIn主页,原文链接你可以在文章底部看到。 在一家高速增长的企业担任领导工作特别有意思。为什么这么说呢?因为与其他企业不同,你不仅要把握住一个个改变现状的机会,还被赋予了推动企业源源不断推陈出新的使命。而我又从事数据科学,这本就是当下发展最迅速的领域之一,这就对“推陈出新”的速度提出了更上一层的要求。 在Airbnb,我们认为Data不仅仅是数据,而是代表了Airbnb全体用户的一个声音。我们的目标则有两个,一是让Data Scientist(数据科学家,简称DS)将这个声音的影响最大化,二是让我们麾下的这些数据科学家们能够热爱自己的工作。想实现这两个目标,要走的路还很长,但我们正在不断地探索改进的方法。近来,我司针对目标建立了一个定义数据科学角色的框架,在此分享给大家。我们也希望其他公司在寻找数据科学的角色定位时,能够在这个框架的帮助下建立起属于自己的战略模式。 简单来说,这一框架将企业的数据科学工作划分为三个方向:分析方向、推理方向及算法方向。下面,我会向大家讲述Airbnb是如何在数据科学部的发展中这孕育出三个方向的,且听我慢慢道来。 五花八门的title 在Airbnb,数据科学部的源起只是一个做分析工作的小团队。我将这一阶段的团队戏称为“A-team”,这个词在英文中大约是“精英小组”的意思。当公司招募到第一名从事专业分析工作的员工时,“A-team”也就诞生了。2012年的时候,我从事的岗位名称叫做“Data Scientist”。后来公司招了一名“Data Architect”,负责数据质量的相关工作。其后,又招了一个“Data Analytics Specialists”,其主要工作是帮助弥合数据存取及不同工具之间的gap。再后来,随着机器学习研究工作的出现,我们又开始招“Machine Learning Data Scientists”。这些岗位名称的演变不仅反映了不同时期的团队需求,也是市场竞争格局变化的体现。2015年,我司正式成立了数据科学部门,但我们团队依然自称“A-team”,因为这样叫起来更有趣儿,也体现了我们所珍视的那一段团队发展史。 2017年中的时候,我走上了数据科学部的领导岗位,那时我们部大约有80名DS,且按一定人数组成了数个团队。其中有的负责建dashboard,有的负责建NLP,其他人则负责建一些决策及实验设计相关的模型……DS们的工作内容缤纷多样,每个人都各司其职。 一门新兴学科的快速崛起 数据科学的内容之丰富其实是可以想见的。虽然数据科学相对而言是一门较新的学问,但其增长速度却不可小觑。这一点我们通过数据就可以验证。首先,我们可以从Airbnb内部来看。下面这张图表展示了Airbnb从2015年至2018年收到的对数据科学职位的申请数,可以看到这一数字在四年间翻了两番(也即2018年为2015年的四倍)。 (当然,这一数据也受到应聘者对Airbnb公司本身的兴趣以及其他因素的影响) 据GoogleTrends数据显示,datascience的相关搜索次数也有明显增长。 如上图所示,人们对数据科学的兴趣大约于2012年开始增长,六年内同样翻了两番。 除迅速成长为热门行业之外,“数据科学”这个词儿的含义也始终非常丰富。有时它指的是纯粹的机器学习,有时则指一家科技公司的商业智能。尽管“数据科学”本身就是一门新兴的学问,但它却还在不断地演变着、发展着。 数据科学内含的多样性 观察发现,大众对数据科学这门学科的研究目标其实并不太清楚。至于从业者们的工作内容,也就自然不甚了解。 前面说了,数据科学的内含非常丰富,DS的工作内容也是缤纷多样。但这种多样性在公司中会表现为一种负面影响,即组织架构的混乱。由于不了解数据科学,团队中的其他成员不知道DS能承担怎样的工作;而DS们自身也会搞不清自己在团队中的角色定位。有的DS在日常工作中建模做得较多,其同事可能就会认为让他们改做分析工作是一种资源浪费。反之,有的DS平日里分析做得多,其同事可能就会希望让他们多去做建模。 正是这种外界的误解,给DS们的工作带来了挑战:做分析的DS会觉得,虽然自己的工作对企业而言至关重要,但相比负责机器学习的DS而言,他们没有得到足够的尊重。之所以说分析工作重要,是因为企业的决策者们往往最需要的就是分析结果,这些分析结果能让决策者越过技术的门槛,直观地理解各类数据。Airbnb也曾对数据教育做过投资,建立了著名的Data University。但在公司内部,专业数据科学工作人员的数量还远远达不到预期。后来我们才意识到,这可能是我们在招聘启事中的不当表述导致的。在岗位名称上,虽然招募对象是隶属于数据科学部的,但我们却用了“Data Analytics Specialist”,导致这个岗位看起来就不像数据科学岗。但即便岗位名称中写了一个“Analytics”,在具体的工作描述中,我们的某些不当表述似乎反倒暗示了分析工作相比建模工作的不平等地位。 由此可见,数据科学部门在企业中的构建并没有什么一刀切的方法。尽管如此,领导层可以从自己企业的战略及目标出发,定义数据科学工作者的身份以及其提升价值的形式。拿Airbnb来说,我们的目标是“championthe mission”。换句话说,我们要做的,永远是公司最需要的。由此,我们认为我们最需要的数据科学人才,是那些符合当前商业需要的人。但与此同时,我们也会考虑到这个人是否拥有个体独特性、是否对自己有着清晰的未来预期等等。 解决方案:给数据科学设计三种“口味” 经过大量的经验交流和观察研究,我们最终决定打造一个全新的数据科学企业架构,这一架构可细分为三个方向:分析方向、算法方向及推理方向。 – 分析方向:适合那些能提出关键问题、能准确找到数据切入点、能通过dashboard及可视化工具将分析自动化,以及能通过个人建议推动企业变革的人。 – 算法方向:适合拥有机器学习领域的专业知识,能将数据融入产品及服务并创造企业价值的人。 – 推理方向:适合能运用数据改进我们的决策、测度我们工作影响力的统计学、经济学、社会学研究者。 作为我们团队中的DS,你必须至少在以上三个方向中的一个拥有足够的专业知识。此外,我们还要求你能根据企业需要或个人兴趣,“跨方向”掌握多种不同技能。当然了,在具体的每个方向内还会有更深层、更专业的分支。数据科学部的所有成员的岗位称号都是“DataScientist”,而在岗位后的详细描述中,则会进一步阐明其工作方向。 数据科学和其他行业不同,它没有那些描述细分岗位的专业词汇。比如工程师可以分为“前端”和“后端”。加上其中一个词儿,你就会对这个人的技能及研究领域有更清楚的了解。虽然这种简单的划分并非完美,但相比简单的一个“Engineering”而言,至少能更清楚地体现一个人的专业知识。数据科学就没有这种语言上的便利,但也正因如此,我们才更要努力去推动、去创造。 Airbnb数据科学家们的方向选择 新的考评机制 重塑部门架构之后,我们还根据新架构修改了对员工的绩效考评标准,这其中又包含了不同层级的DS及管理人员。总体而言,我们的评判是根据每个人给企业带来的影响做出的。针对技术性员工,我们在以下这些方面对评估框架做出了修改: 技术能力评估 – 分析方向:定义、监测指标,描述数据,设计能够推动决策的工具 – 算法方向:设计、阐释能够支持数据产品的算法 – 推理方向:运用统计学建立因果关系 – […]

数据科学
Read more

毕业难就业?数据科学领域学校与工业界的落差

2018.11.08
作者:Yifan

说到学校教育和实际应用的落差之前,我们先通过几则Data Scientist的Job Posting,来分析一下数据科学家对学位的要求: 先来看一下红框内的内容,在第一则JD中写道求职者要有Master或PhD学位,第二个要求是Bachelor,第三个也要求Bachelor,第四个是更倾向于PhD。看到这样的要求,很多人会有这样的理解: 1. 对于一些DS职位来说,获得本科学位就可以达到入门标准,但对另外一些来说就要Graduate Degree。 2. Phd是一个更Preferred的资历,但不是必需的。 但是,这两个理解其实都存在误差。首先,Bachelor的学历其实并不足够,因为DS的职位会需要做一些Research的工作,但本科生很少有Research的经验,所以99%以上的大公司会要求本科以上的学历,至少是Master,除非你是非常优秀的本科毕业生,或者你有非常丰富的工作经验。 另外,大家经常会看到公司JD中写要求Master,但很少看到要求PhD,但对于一些公司来说,他们会要求PhD。 数据科学家求职的成功率和学位的关系,就如同IQ与成功的关系:只要你的IQ高于某个值,成功就靠除智力以外的其他东西。同理,只要你的学历高于某一水平,其实就已经足够了,你能不能成功要看许多其它的方面。 这里有一个特殊情况就是有些同学可能处于PhD退学的一个状态。而对于这是否是一个负面影响重点取决于你的面试官,对于有些面试官来说,他可能会觉得你因为害怕困难而退出,是一个惧怕困难的人,遇到这种情况,你可以给面试官给出一个合理的解释。 学校教育和实际应用的落差 现在我们来通过一张图看一下学校教育和实际应用之间的落差。 大家可以看上图,上图是一个DS的Lifecycle。在工作中做一个DS的Project 时,首先是Management提出一个问题,然后会有一些Business Understanding,你要把这些Business Understanding拆分出来,要决定用什么模型解决这个问题以及这个模型需要使用哪些Data。 对于这些Data,首先要有Data Collection,然后在一个Environmental中运行这些数据,当你拿到这些运行后的 Data后, 你要去Cleaning这些数据,让它可以用于模型使用。 当你有了Data和Model之后才可以回答那些问题。回答完问题后,你要考虑将这个本来是用Offline分析的Model用在自己的产品上,要做出它,并且要看它的Performance怎么样。 上图中黄色虚线内的部分就是大家在学校里面接触到的内容。传统的School Project重点培养的是学生对Model本身的理解,因为学校的项目给学生的Data一般都是已经处理好的,并且一般学校的Project所用的模型都很小,所以,学生可以在Local Machine上面运行,运行完后,也不需要再Monitor那些Model或将Model自动化作为生产用。 我们来看下面这个例子,用过R的同学应该会对这个例子比较熟悉,这是一个很经典的Boston Housing的Project。 这个Project有一个Boston Housing的Housing Value,Input是从右边这个表中的第二行到最后一行的内容,老师通常会让大家用Data Set去建模,这重点考察了你通过写一些R Code去做Model Selection和等做出Model后,去做模型诊断分析以及用Data Set去做Machine Learning里面的一些基础概念,还有去建立不同的模型。 上面我们讲解了一个很传统的学校Project,但在实际应用中你往往会遇到许多你在学校没有遇到过的问题。 比如,在Boston Housing这个项目中,他的Dataset都是给定的,你只能从有限的Variable中去选择,但是你并不知道为什么需要在这些Data Set中选而不是从其他的里面选择。但在实际应用中,你先是会有一个Business Question,然后你要进行一些头脑风暴。 比如说,你的老板想让你预测一下Housing Price,那么你就要去想哪些Variable可能会对Housing Price有影响,然后再去想如何收集所需数据。这时,你并没有一个已经做好的Dataset可以直接建模。还有你可能会遇到Dataset不在同一个平台上的问题,比如说有些数据在Data Link里面,有些在Server里面,你就要考虑如何从不同的平台收集数据来让模型使用。 大家最经常遇到的问题就是如果Data的质量很差应该怎么办。比如说在一个地区,居民的Income对这个地区的Housing Price有很大影响,但是你没有办法收集到准确的Income,或者虽然收集到了,但误差很大。并且当你做好Model后,你要考虑如何Productional Model。 除了这些技术方面的问题,你也会遇到很多非技术方便的问题。这就比较考察你的软实力,比如说当你做出模型后你需要跟一些没有专业知识的人去卖出你的模型,这些都是在学校中无法学到的。 通过以上了解,我们可以总结出学校教育和实际应用之间的Gap主要存在于以下方面: 1. 数据质量,在实际工作中,你所能用到的数据的质量都是很差的; 2. 数据大小,绝大多数的科技公司所需要处理的数据量是非常大的,这就使得你无法用处理学校项目时用的Local […]

北美求职面试
数据科学
Read more

毕业难就业?数据科学领域学校与工业界的落差

2018.11.05
作者:Yifan

说到学校教育和实际应用的落差之前,我们先通过几则Data Scientist的Job Posting,来分析一下数据科学家对学位的要求: 先来看一下红框内的内容,在第一则JD中写道求职者要有Master或PhD学位,第二个要求是Bachelor,第三个也要求Bachelor,第四个是更倾向于PhD。看到这样的要求,很多人会有这样的理解: 1. 对于一些DS职位来说,获得本科学位就可以达到入门标准,但对另外一些来说就要Graduate Degree。 2. Phd是一个更Preferred的资历,但不是必需的。 但是,这两个理解其实都存在误差。首先,Bachelor的学历其实并不足够,因为DS的职位会需要做一些Research的工作,但本科生很少有Research的经验,所以99%以上的大公司会要求本科以上的学历,至少是Master,除非你是非常优秀的本科毕业生,或者你有非常丰富的工作经验。 另外,大家经常会看到公司JD中写要求Master,但很少看到要求PhD,但对于一些公司来说,他们会要求PhD。 数据科学家求职的成功率和学位的关系,就如同IQ与成功的关系:只要你的IQ高于某个值,成功就靠除智力以外的其他东西。同理,只要你的学历高于某一水平,其实就已经足够了,你能不能成功要看许多其它的方面。 这里有一个特殊情况就是有些同学可能处于PhD退学的一个状态。而对于这是否是一个负面影响重点取决于你的面试官,对于有些面试官来说,他可能会觉得你因为害怕困难而退出,是一个惧怕困难的人,遇到这种情况,你可以给面试官给出一个合理的解释。 学校教育和实际应用的落差 现在我们来通过一张图看一下学校教育和实际应用之间的落差。 大家可以看上图,上图是一个DS的Lifecycle。在工作中做一个DS的Project 时,首先是Management提出一个问题,然后会有一些Business Understanding,你要把这些Business Understanding拆分出来,要决定用什么模型解决这个问题以及这个模型需要使用哪些Data。 对于这些Data,首先要有Data Collection,然后在一个Environmental中运行这些数据,当你拿到这些运行后的 Data后, 你要去Cleaning这些数据,让它可以用于模型使用。 当你有了Data和Model之后才可以回答那些问题。回答完问题后,你要考虑将这个本来是用Offline分析的Model用在自己的产品上,要做出它,并且要看它的Performance怎么样。 上图中黄色虚线内的部分就是大家在学校里面接触到的内容。传统的School Project重点培养的是学生对Model本身的理解,因为学校的项目给学生的Data一般都是已经处理好的,并且一般学校的Project所用的模型都很小,所以,学生可以在Local Machine上面运行,运行完后,也不需要再Monitor那些Model或将Model自动化作为生产用。 我们来看下面这个例子,用过R的同学应该会对这个例子比较熟悉,这是一个很经典的Boston Housing的Project。 这个Project有一个Boston Housing的Housing Value,Input是从右边这个表中的第二行到最后一行的内容,老师通常会让大家用Data Set去建模,这重点考察了你通过写一些R Code去做Model Selection和等做出Model后,去做模型诊断分析以及用Data Set去做Machine Learning里面的一些基础概念,还有去建立不同的模型。 上面我们讲解了一个很传统的学校Project,但在实际应用中你往往会遇到许多你在学校没有遇到过的问题。 比如,在Boston Housing这个项目中,他的Dataset都是给定的,你只能从有限的Variable中去选择,但是你并不知道为什么需要在这些Data Set中选而不是从其他的里面选择。但在实际应用中,你先是会有一个Business Question,然后你要进行一些头脑风暴。 比如说,你的老板想让你预测一下Housing Price,那么你就要去想哪些Variable可能会对Housing Price有影响,然后再去想如何收集所需数据。这时,你并没有一个已经做好的Dataset可以直接建模。还有你可能会遇到Dataset不在同一个平台上的问题,比如说有些数据在Data Link里面,有些在Server里面,你就要考虑如何从不同的平台收集数据来让模型使用。 大家最经常遇到的问题就是如果Data的质量很差应该怎么办。比如说在一个地区,居民的Income对这个地区的Housing Price有很大影响,但是你没有办法收集到准确的Income,或者虽然收集到了,但误差很大。并且当你做好Model后,你要考虑如何Productional Model。 除了这些技术方面的问题,你也会遇到很多非技术方便的问题。这就比较考察你的软实力,比如说当你做出模型后你需要跟一些没有专业知识的人去卖出你的模型,这些都是在学校中无法学到的。 通过以上了解,我们可以总结出学校教育和实际应用之间的Gap主要存在于以下方面: 1. 数据质量,在实际工作中,你所能用到的数据的质量都是很差的; 2. 数据大小,绝大多数的科技公司所需要处理的数据量是非常大的,这就使得你无法用处理学校项目时用的Local […]

数据科学
面试
Read more
Sign up for BitTiger’s blog newsletter!

如何解读Job Description?

2018.11.02
作者:Yifan

大家都知道,在JD中,一般写在前几行的内容要比写在后面的重要。 我们要能做到通过不同的JD知道不同的信息。要明白什么是关键信息,什么是次要信息。 JD隐藏信息 要挖掘出JD中的隐藏信息,判断出符合哪些要求会为自己的简历加分以及自己的简历必须涵盖哪些要求。下面我们来通过几个JD例子来为大家讲解如何进行JD分析。 上面这则JD前两行重点强调了前端技术,比如Angularjs,Coffeescript,D3 和Visual Designers,这就说明了这个职位主要是做一些比较前端的东西。那么你在申请这个职位的时候,就应该重点强调一下自己比较偏Web的经验。同时,你也可以看到有很多JD都在强调一些软实力的东西,你可以通过这些要求看出这个团队的风格,这也代表了整个团队的文化,那么你在面试的时候也就应该体现出自己有那方面的素质。 在这则JD中,可以看到在前面部分并没有出现任何技术名词,这说明此职位对求职者的技术栈熟练使用程度的要求不高,但更在乎求职者的综合素质。这则JD在Requirement里面提到了很多技术名词,说明这个团队强调的是求职者的学习和能从系统的较高Level去思考问题的能力而并非能快速掌握某项技术的能力。 分析上面这则JD,如果一个公司把Move Fast,Build Great Things放在JD前面时,就说明这是一个很有Start Up精神的公司。此时,你应该强调自己独立解决问题的能力。 在这则JD中,可以在Qualifications中明确看出这是一个用Wordpress的网站,运用MySQL和PHP等技术。通过Expert Level Javascript等可以看出他们希望你可以帮忙优化他们前端网页的内容。并且这个职位还有一些集成的工作,因为JD要求求职者会使用Git和Gulp。在JD最后几行我们可以看到出现了Ios,我们在前面已经讲过,没有将Ios放在前面就说明这个团队往往都不做Ios这一块,但是在这里出现Ios就说明此公司的产品一定有一个Ios客户端。此时,如果你有过Ios开发的经历就可以使自己从众多Candidate中脱颖而出。如今,Node.Js与Meteor都是热门技术栈,通过JD我们可以知道尽管这个组不使用这两种技术,但可能隔壁组你需要调用的很多Web Services是用Node.Js和Meteor写的,如果你懂的如何使用就可以在此小组中得到重视。 如何解读DS Job Description Data Scientist定义很宽泛,常见的Title有Data Scientist, Product Analyst, Machine Learning Scientist, Statistician, Business Analyst, Quantitative Analyst, Marketing Analyst, Operation Analyst等等。不同公司对DS Title的定义完全不同,有可能两个公司的DS Title一样,但是工作内容完全不一样。对于DS,就要看Job Description具体的内容,而非Title本身。 对于IT行业来说DS大致可分为三个Track:第一个是Modeling或Machine Learning的Track, 主要做一些建模的工作。第二个Track是Product Analytics;这在湾区的一些大公司,比如Facebook,Google需求量都非常大。第三个Track是Business/Marketing/Operations Analytics,这也包含在DS范畴,他合作的对象不是产品方向,而是Business或Marketing方向。以上是IT行业的三个主要Track。 其他行业还有很多,比如说Finance,银行等有Risk Modeling,在生物统计或医药行业也有很多做Clinical Statistician,在一些零售行业有Supply Chain Optimization的工作。 本部分主要讲解IT行业常见的DS Track,下面我们将通过三个案例进行分析。 第一个是Modeling/Machine Learning Track,具体如下: 首先,大家可以看一下Key Words,也就是上图中标绿色的部分,第一个是说Frame […]

北美求职面试
数据科学
简历书写
面试
Read more

作为一个New Grad,我是这样成为Deloitte数据科学家的

2018.10.26
作者:Yifan

本期主角:Yize Zang 现就职于:Deloitte Data Scientist 相信很多想成为Data Scientist的学生都被这样“劝退”过:数据科学家的岗位偏好PhD或者是有工作经验的人,New Grads就别想了。事实上,很多BitTiger的New Grad学员都顺利的拿到了Data Scientist的offer。今天我们就来看看Yize Zang同学的求职经历,以下内容来自于Yize同学的口述。 我本科在北航念的信息管理与信息系统专业。和很多同龄人一样,研究生我决定出国。因为一直都对数据挖掘很感兴趣,所以我选择了UMich信息学院的Data Science方向。 UMich的学习让我在Data Science这方面打下了牢固的基础。但是找工作时同样科班出身的其他candidate也有着坚实的统计和ML经验。如要要在校招的时候从一众候选人中脱颖而出,那就相对于其他人需要知道更多的东西。从数据科学家的角度来说,除了常规的统计和ML,很多时候你还需要知道大数据工程实践。但是,在我选过的课程中这部分内容涉及到的的并不是非常多。 意识到自己在这方面的不足,也抱着对Data Engineer这个职业的好奇心,我报名参加了BitTiger的课程。在CS项目课程中,老师深入讲解了很多大数据背后的原理。比如Kafka的Push和Pull的各种模式,对于没有什么计算机背景的我来说,大大开拓了思维,帮助我从工程的角度考虑各种实际问题。在我之后的面试中,我也经常利用BitTiger课程中学到的情景分析从工程的角度如何解决数据挖掘问题,这些方法足以应对大部分的面试。 在9月初,我开始准备求职,然后在9月中下旬参加了学校的Career Fair。之前我也是听了一些BitTiger关于秋招的讲座,对Career Fair进行了一些有针对性的准备。所以在过程中也搜刮了不少的面试机会。当然,在投简历之前,Frank老师也很负责的帮我过了一遍我的简历。 10月份差不多一直都在等消息了。期间闲来无聊我也海投了不少公司,到10月下旬基本就是各种准备onsite了。 这里我想特别提一点的就是数据科学家的Communication也是面试考察中的重要因素。很多DS的同学可能没有意识到这一点,但是在很多我的面试中,我都被反复challenge了很多和communication和teamwork相关的问题,大家还是要好好的准备一下。毕竟,如果交流能力不够强的话,进了公司之后也会遇到不少困难。 我通过简历上的项目,顺利拿到了Didi、Apple和其他四家中小型公司的面试。Didi的面试是非常非常technical的,如果大家要面Didi的话一定要做好心理准备。Apple的话那年我参加了On Campus Interview,但是很不幸那个组当时并不招Fulltime,只招Intern,所以我也没有机会继续follow up下去。 最后,我想告诉所有我的学弟学妹们,求职往往都是一个比较漫长的过程,大家千万不要放过任何机会。就像我获得Deloitte的数据科学家offer一样,刚开始我也觉得这个职位好像很难,要不就别投了算了吧,但是最后却真的一路拿到了offer。所以说,如果有机会的话,大家一定要去试一下,讲不定你就是被上帝眷顾的那个人呢?

offer故事
数据科学
面试
Read more

搞定这四件事,你就能成为数据科学家!

2018.01.12
作者:Rong

今天我们来解读Airbnb的朱赟写的微信文章《公司里的数据科学家在做些什么》   首先,大家可以看看关于异常检测的两篇很有名的文章:《Airbnb支付平台如何进行异常检测》,《Breakout detection in the wild》。   看完这两篇文章,我们会觉得数据科学家似乎很高大上,他们做各种图,整理各种idea,梳理各种数据,成为整个公司的灵魂。很久以前我们就听过一句话:“人人都是产品经理”。如今这句话已经开始变成“人人都是数据科学家”了。   数据科学家日常在做些什么?   数据科学家的日常工作总结起来有四个方面: 仪表盘 采清算 调模型 A/B测试   1.仪表盘     其实数据科学家人才最早是用在商业智能(Business Intelligence)上。说起商业智能,大家可以这样想:如果CEO每天早上到办公室,需要用五分钟的时间了解公司的运营情况,你会给CEO呈现什么?这就是CEO仪表盘。为了做这个仪表盘,我们需要找到公司最关键的指标,并发现里面的复杂联系,而且要一目了然。   举个例子,酷我音乐的一个团队有50多人,用户达到千万,收入也超过千万。那么每天早上需要准备什么数据呢?这几个数据比较重要:昨日的用户量,用户的登录比例,用户的付费比例,然后是人均消费。这是从财主的角度来看的。我们也可以从主播的角度看,昨天主播视频的播放量,平均播放时长,哪些留存哪些遗失了,整理出相关的数据。   其次,团队每个月要向CEO汇报整个事业线的运转情况,这时又需要汇报哪些指标呢?除了刚刚我们提到的,还要汇报流失率,以及流量的情况,如流量转化率、单流量价值等。数据科学家需要明确这些指标是如何整合起来的,哪些是关键指标,这是数据科学家要做的第一件事。   2.采清算     虽然已经规划好了整个流程,依旧需要落地实践,实际地做事。首先是埋点采集,比如我想收集所有流量的情况,那么首先要针对每一个流量源进行埋点。随后,对于用户流入之后的登录、注册、付费等各种行为,都需要埋点收集。   收集到这些数据之后,会有很多噪音,怎样清洗这些噪音成为一个非常重要的步骤。比如团队在做音乐推荐功能时,想统计用户喜欢的音乐的比例,收集用户为歌曲点红心的情况,结果发现有些噪音用户会一天点上千次的红心,那这样的用户还要保留吗?如果保留,会极大地影响整个系统的准确性,所以要清洗掉他们。   最后是统计整理。统计整理不仅是要把数据算出来,还要选择合适的指标。比如统计酷我音乐系统的服务等级(SLA)时,我们想看用户访问直播服务时的卡顿情况,如何评估呢?是统计大家的平均卡顿值还是其他指标呢?我们最后选择的是95%的指标,即把大家访问这个网站的卡顿排序,算出排在第95%位置人的卡顿指标,用它来评估整个服务的情况,也以此为依据来选择不同的服务提供商。   3.调模型     第三个任务是调模型。首先是搭建模型,现在模型已经越来越Popular,各种开源包也越来越多,因此找一个模型搭建起来往往不是最难的。   之后要分析模型的结果,因为不同模型跑出来的效果是不一样的,所以往往还要搭配很多测试的程序,来看模型跑的结果好不好,甚至还要在之前准备一些测试集、训练集来调整模型的参数。   最后一步是根据不同的结果调整参数。调整参数往往还包含两部分,一部分是对准确率的调整,即能不能算得更准;另一部分是性能调整,比如以前需要100台机器来做,能不能调成10台机器就能做呢?   举个例子,我们做音乐推荐系统时,模型是基于协同过滤(CF)来建的,当然也用了一些矩阵向量的方法,或一些更高级的机器学习方法。无论用什么方法,都需要分析各种结果,不同方法的性能也不一样,怎么去调整、整理是一个非常耗时的工作。   当这个模型应用了之后,其实还有很多领域知识能够增加你的结果。比如我们发现给用户推荐音乐时,要推荐20%他已经明确表达了喜欢的音乐,即点过红心的音乐,这样可以增加用户的满意度。此外,我们还需要增加多样性,让用户更持久地使用这个产品,所以我们添加了很多多样性的指标,来将整个系统调整得更好。   4.A/B测试     数据科学家最后一个任务是A/B测试。它的核心就是将用户分组,测试收集每组的不同结果,最后进行分析决策。   […]

数据科学
Read more

数据科学家还能火多久?

2017.11.24
作者:Yumi

IT行业的高薪让无数人蜂拥而至,不论是成为码农,网站设计师,只要能与计算机科学搭上边。这两年,热度逐渐减退。尽管薪资依然高于其他行业的平均水平,但已经开始有人提出这样的疑惑,当有一天人人都会写代码,软件工程师该去做什么? 同样的事情也正在发生在数据科学行业。     这是Google Trends上Computer Science(蓝)与Data Science(红)的搜索热度比较。 人才市场上的供不应求自然造成了数据科学家的高薪。那我们来分析一下“供”与“求”。   求   首先来看几个大公司的例子。 Google 说是Google定义了数据科学并不过分。他们所做的一切都是从搜索引擎的数据驱动决策,例如最大化YouTube广告收入。甚至他们的人力资源团队也在使用科学的方法,让员工们在工作中更开心,更高效。Google“员工天堂”这一称号也绝非虚名。     Amazon 每个你得到的产品推荐都来源于Amazon的复杂数据科学算法。事实上,亚马逊已经实现了一个算法,可以预测你是否要购买某种产品。如果这个概率足够高,他们就把该产品运输到离你最近的仓库。当你购买它的时候,你就能够在一天内收到商品。     Facebook Facebook正在疯狂地靠广告获益,因为它拥有所有用户的个人数据。他们知道你在做什么运动,喜欢什么食物,愿意在网上花多少钱。他们可以全方位地精准定位用户,这也是为什么很多公司都喜欢将它作为广告平台。     不仅大公司有数据科学部门,小企业更需要数据科学来满足他们的需求,几行代码就能执行非常复杂的分析,并从中获得巨大收益。 如果你的竞争对手依靠数据驱动的决策,而你不是,他们将超越你,夺取你的市场份额。因此,小公司也必须开始使用数据科学工具和技术。   供   数据科学是由技术变革驱动的,20年前(计算机速度慢,计算能力低,原始的编程语言)它是不可能存在的。 但是,传统教育还没有准备好,所以目前大学里仍然很少有项目能够培养出有非常出色的数据科学家。目前进入数据科学领域的人,主要都是从从其他领域转型,通过自我学习获得必要的技能(包括书籍,研究论文和在线课程等)。也就是说,现在还没有足够的人才能够利用好这个行业的机会,进入这个领域。     结论   无论是从公司的角度还是从员工的角度来看,数据科学家的需求都在不断上升,预计会像CS领域那样 —— 需求长期以来会比供应增长得更快。这使得数据科学成为一个重要领域。 数据科学家会火。但还能火多久?同样的,如果当有一天人人都学会与数据打交道,数据科学家去做什么? 世界正在转变,数据在我们生活的各个方面都变得尤为重要。 5年前,你永远不会想到要拿出手机来打车。而今天,你可能会比较Lyft和Uber的等待时间。 经验丰富的数据科学家将永远存在且解决最复杂的问题,最好的程序员也永远在开发出最好的产品。就像机器学习永远不会让最出色的程序员变得不再重要。Google实现了人工智能和机器学习行业中一些最好的应用,而他们雇用了30,000多个开发人员。 你要担心的不该是这个行业会火多久,而是你自己会火多久。人才市场只要供不应求就会一直火下去。无疑,这是入行数据科学最好的时代。而你要做的是保持不可替代的核心竞争力,不断学习,并学得比别人快。     入门学习路径推荐   我感恩自己处在这个最好的时代。如果你也想要进入这个领域,我想向你推荐入门数据科学最短学习途径: 1. 判断自己是否真的喜欢数据科学行业,是否准备好一头扎进这个行业。 例如: 什么是数据科学家? 数据科学家的市场需求 数据科学行业及职位 […]

数据科学
Read more

About

BitTiger is the lifelong learning platform from Silicon Valley.

  • contact@bittiger.io
BitTiger Careers

Follow Us

Legal

Privacy Policy
Terms of Use
Terms of Service
Code of Conduct
Copyright Policy

All Rights Reserved ©2017 BitTiger, Inc.