火狐体育官方版

加强技术投入,共享技术成果

火狐体育官方版:谷歌数据科学家面试真题


更新日期:2022-08-19 05:30:36 来源:火狐体育官网app下载ios 作者:火狐体育娱乐app下载

  在本文中,我们将研究一个谷歌数据科学家面试问题,用一个简单的解决过程来回答它,你可以将其应用于任何其他数据科学挑战。请继续阅读,了解我们如何构建和执行一个框架,通过有逻辑、可管理和可操作的步骤回答数据科学面试问题。

  谷歌是世界上最大的科技公司之一,成立于1998年,拥有著名的搜索引擎。现在谷歌有超过250项与互联网相关的服务和产品,包括硬件、软件、在线广告和云计算。它与 Facebook、Amazon、Apple和Netflix一起,是美国五大IT公司的一部分,在全球拥有近14万名员工。

  数据是谷歌大部分产品的主要输入和输出。因此,数据科学家在谷歌许多团队中工作,包括财务、运营、工程、销售、支持、营销、战略人员。根据你将与哪个团队合作,承担各种不同的责任。

  数据库语言(如SQL)、机器学习、统计数据分析、数据建模等方面的技能。它们通常还涉及查看大量数据以获得见解、跨功能交互,为谷歌产品提供商业建议。谷歌数据科学家面试问题中的概念测试

  这是一个谷歌数据科学家面试官要求候选人解决的真实问题。它的标题是“Activity Rank”,目标是找出哪些用户发送的电子邮件最多,并根据电子邮件数据对用户进行排名。

  有一个可重复的框架来解决数据科学问题很重要。我们有一个基本步骤,可以解决StrataScratch上所有数据科学面试问题,包括了解数据、制定方法和执行代码。

  了解数据需要查看面试官提供的所有电子邮件数据列并根据它们做出假设。 如果你无法通过数据库理解数据,可以索取一些示例电子邮件数据。通过几行,就能够将值与列匹配并更好地了解表。制定方法需要在问题转换为代码前构建解决问题的逻辑步骤。 分析电子邮件数据所需的所有功能,然后将它们列出来。当构建代码大纲时,和谷歌面试官一起交流,这样他们就能了解你的思维过程,并提供相关反馈。

  首先需要查看谷歌提供给数据,并据此建立假设。请记住,在谷歌面试期间,并不总是能够访问真实数据或执行代码。相反,你必须查看数据库和面试官提供给你的信息,做出假设并制定代码。

  google_gmail_emails表为每个电子邮件交互显示一行。我们可以看到电子邮件来自哪个用户、发送给哪个用户以及他们发送电子邮件的日期。首先,我们可以对这些数据做出两个假设:

  不需要id、day或to_user列。使用from_user作为我们确定用户电子邮件数量的列。

  接下来我们列出一般的、符合逻辑的、基本的步骤,稍后会转化为代码。概述潜在解决方案,以下是针对此问题采取的步骤:

  忽略不相关列查询数据表以获取每个用户的电子邮件数使用ROW_NUMBER之类的排名窗口函数,按用户对电子邮件数排序

  我们必须将这些常规步骤转化为有效的SQL代码。首先查询 google_gmail_emails表,计算每个用户发送的电子邮件数量。假设可以在 SELECT语句中去除id、to_user和day列。作为查询的一部分,我们使用 COUNT 聚合函数来计算电子邮件数量,与任何聚合函数一样,必须GROUP BY一个汇总列,在此表中,该列是from_user。

  关于如何看待排序,这个问题非常具体,必须对每一行应用唯一的排名,并对电子邮件总数降序排名。

  在本文中,我们用一个基本的查询解决了一个谷歌数据科学家面试的问题。虽然还有其他几种方法可以回答这个问题,但我们提供了一种最简单、最有效的解决方案。一个有效的挑战是添加到查询以确定每个电子邮件总数的百分比。我们还建议使用StrataScratch平台,看看你是否可以提出更具创造性、更高效或更简单的替代解决方案。

  2022 北美大厂Layoff及Hire freeze最全汇总逻辑回归问题,你解释到点子上了吗?

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。