硅谷的数据科学家究竟是什么?

我的工作

  • 基于深度学习Neural Network的口语化语音中不流畅语流的检测和修正系统,部署在Office系列语音实时转录服务,提高模型检测准确度26.2%,提升语音识别可读性
  • 基于深度学习Neural Network的N-gram语言模型降噪系统,降低噪音比7%
  • Bing Voice Search的深度神经网络语言模型,提高语音识别准确率16.8%

硅谷DS的需求分类

  • Data Analyst
  • Data Engineer
  • Machine Learning Engineer
  • 第一种,Data Analyst。负责使用SQL等语言处理数据,总结数据并从中提取商业见解,进行数据统计的可视化,并完成基于数据分析的报告。当然,在Facebook有基于Analytics的DS岗位,主要负责设计统计实验,A/B Testing等。举个例子,我们现在设计了一套新的新闻推荐系统,那么如何知道这套新的系统能不能提高用户粘性,并且帮助我们提高用户订阅人数来增长revenue呢?这时候我们就需要基于A/B Testing思想的online evaluation以及一系列的实验设计和统计分析。
  • 第二种,Data Engineer。严格来说这是Software engineer的一个分支,主要是大规模数据基础设施的设计和建造。比如在淘宝上,每一次的浏览,点击,甚至是浏览两个商品之间的间隔时间,都是可以沉淀的实时用户反馈数据,这些数据可以帮助我们构造用户画像,更精准地推送推荐商品。而涉及到所有这些数据的存储,处理,读取,优化,就是data engineer的工作。
  • 第三种,Machine Learning Engineer。负责设计,建造大规模的机器学习系统,需要对机器学习,深度学习系统的深度理解,优秀的编程能力,以及我认为最重要的,如何把一个商业问题转化成机器学习问题。设计可量化的指标定义问题,收集并大规模处理数据,通过智能算法的迭代优化,达到机器决策提高整体表现的目的。生活中无处不在的推荐系统就是机器学习的典型应用,比如YouTube的视频推荐,Spotify的每日歌单,Amazon的商品推荐等等。除此之外,我们使用的Google Assistant、Alexa的智能语音识别和人机交互,机器翻译,智能辅助驾驶,在线广告,背后都是机器学习系统。

DS所需要的技能

  • Coding: Python (Algorithm/Data Structure) + SQL
  • Machine Learning System Design
  • A/B Testing Design
  • Resume Projects

DS不要做什么

  • 不要认为算法是唯一
  • 不要忽视真正的商业需求
  • 不要忘记整体

结语 + What’s Next

--

--

--

Data Scientist in Silicon Valley. Welcome to my personal blog! www.thelimiao.com

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Li Miao

Li Miao

Data Scientist in Silicon Valley. Welcome to my personal blog! www.thelimiao.com

More from Medium

Kharagpur Winter of Code — Project

Why Do We Need To Understand Rationale Behind Machine Learning Predictions?

Supervised VS. Unsupervised

Artificial intelligence and Machine learning in Physio- PhysioARC