楼主: 雨天愁浪
跳转到指定楼层
上一主题 下一主题
收起左侧

数据工程师big data常用知识点总结

   
全局:
koupayio 发表于 2021-05-11 19:42:05. Χ
请教一下
以前是MS SQL DBA
目前想转云Data Engineer
这是一个非常好的问题。我在一家小独角兽做de,最近公司准备上市急需招人,近半年来基本每周都有面试,但一直没有招到我们想要的人。首先我觉得de在各家公司的要求都不太一样。有些公司就只需要处理一些adhoc的报表什么的,或者是大一点的公司都有比较完善的组织结构,de做的事很单纯。但像我们就要求啥都能干。从获取数据,建立pipeline,到维护独立的infrastructure。 我们的某一个clickstream data 每天就 30-50 M rows。 处理这样数据的经验是很难从练习中获得的。一方面我经常看到有很多人想转data 相关的工作,一方面我们又找不到想要的人。作为一个过来人,我必须承认这些经验是需要时间培养的,但公司现在的情况是连培训的精力都没有。


.--
补充内容 (2021-05-12 12:06 +08:00):
感觉自己的上个回复不一定能帮到你,但好像也删除不了。我稍微补充一下,我觉得可以从两个角度思考这个问题 一方面可以加强其他方面的技能比如SQL, 另一方面可以在练习pipeline/或者思考问题的时候想一下如果这个data size 特别大怎么办。举一个在我们的面试中很常见的问题。我们的主要语言是python, 主要的ETL tool 是airflow,我们经常会要求写一个简单的pipeline很多面试者会通过pandas 实现一些data transformation。可是大多数人不会想到pandas可以处理一两百行的数据,但是如果我的dataset是几百万行,pandas还是好的选择吗?

评分

参与人数 1大米 +1 收起 理由
wmjahura + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

🔗
 楼主| 雨天愁浪 2021-5-12 12:38:11 | 只看该作者
全局:
梦想成真eva 发表于 2021-5-11 14:09
楼主您好,非常感谢分享。想问一下日常工作,一般建Pipeline这个事儿是DE主导/Lead吗?还是说是别人提需求 ...

一般都是pm或者ds提需求,然后de做pipeline
回复

使用道具 举报

🔗
低球 2021-5-12 14:15:44 来自APP | 只看该作者
全局:
nn960208 发表于 2021-05-11 20:19:44
这是一个非常好的问题。我在一家小独角兽做de,最近公司准备上市急需招人,近半年来基本每周都有面试,但一直没有招到我们想要的人。首先我觉得de在各家公司的要求都不太一样。有些公司就只需要处理一些adho
好奇30-50M行数据处理有什么具体要求吗?比如实时计算、复杂规则匹配、还是纯粹追加数据仓库?如果批处理按小时分区其实吞吐量要求并没有特别高。
回复

使用道具 举报

🔗
chenwang9527 2021-5-13 01:31:38 | 只看该作者
全局:
qinshimingyue 发表于 2021-5-11 11:23
. 1point3acres感谢分享,之前对de有点朦朦胧胧的兴趣,面试后才大致对这个岗位有了理解,请问楼主觉得de这个岗位如何?ca ...

DE我个人理解来说现在正在处于一个更新的阶段,很多非一线大型科技公司开始慢慢有了更多的data,对data的储存,处理分析需求也更多。原来很多用ssis或者informatic之类软件就能搞定的数据处理分析现在已经无法满足他们的需求了。所以现在其实DE的open很多都是这些非一线科技公司的岗位,对经验要求也不太高,毕竟现在市面上主流的数据处理框架也没出来多久。linkedin上很多DE岗位需求都是Python,spark,airflow,aws,sql,data model。我觉得这个算是de现在比较重要的技能了,有的还希望你会data stream,但是其实并不是很硬性的,去了在学就好了,没什么难的。就从这些技能要求其实也能比较明确的看出来DE现在要求什么,python是general coding, spark是big data process/clean, airflow是data pipeline management, aws是系统框架和简单的design,sql是很重要的data process技能。然后data model主要是设计新的data pipeline怎么和现有的数据相结合和更好的抓捕和设计数据结构。。。。。
个人浅见。

评分

参与人数 4大米 +6 收起 理由
wmjahura + 1 给你点个赞!
雨天愁浪 + 2 给你点个赞!
Lorraineyuan + 1 赞一个
qinshimingyue + 2 给你点个赞!

查看全部评分

回复

使用道具 举报

无效楼层,该帖已经被删除
🔗
qinshimingyue 2021-5-14 08:36:22 | 只看该作者
全局:
chenwang9527 发表于 2021-5-13 01:31
DE我个人理解来说现在正在处于一个更新的阶段,很多非一线大型科技公司开始慢慢有了更多的data,对data的 ...

感谢分享,现在感觉对de有个更清晰的认识了,那请问你了解sde-data infra这一类的岗位吗?是不是类似de的,估计也是要看jd
回复

使用道具 举报

🔗
lillian0303 2021-5-14 09:56:14 | 只看该作者
全局:
太强了 mark 如果哪天考虑转码
回复

使用道具 举报

🔗
chenwang9527 2021-5-14 13:16:20 | 只看该作者
全局:
qinshimingyue 发表于 2021-5-14 08:36
感谢分享,现在感觉对de有个更清晰的认识了,那请问你了解sde-data infra这一类的岗位吗?是不是类似de的 ...

data infra就是sde或者sre,和传统DE要求不一样,一般是做后端和CLOUD结构比较多。相似scala,python,API和NON-SQL这样子,我了解不多。
回复

使用道具 举报

🔗
hrcheungg 2021-5-14 14:07:56 | 只看该作者
全局:
想请教楼主,de对于new grads需求量是不是不高啊?我在国内滴滴和字节做过de intern,但是看us的opening都要求5+工作经验。另外我感觉de的技术栈比较窄,基本是sql和spark/flink…… 您觉得de会是比较好的职业起点吗?
回复

使用道具 举报

全局:
hrcheungg 发表于 2021-05-13 23:07:56
想请教楼主,de对于new grads需求量是不是不高啊?我在国内滴滴和字节做过de intern,但是看us的opening都要求5+工作经验。另外我感觉de的技术栈比较窄,基本是sql和spark
钱的角度来看,sde相对多一些。WLB角度,就我自身看到的例子,如果你是bi组的de很多不用oncall,工作量小一些
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表