Quantcast
Channel: 工程師 – TechOrange
Viewing all articles
Browse latest Browse all 585

【數據科學 ≠ 數據分析】都是以數據解決問題,程式語言使用卻大大不同

$
0
0

【我們為什麼挑選這篇文章】在外界眼中,數據科學與數據分析乍聽之下可能有些相似,事實上兩者的確有共通點,不過數據科學更可說是數據分析的二轉。本文除了分析數據科學與數據分析之異同,更說明為何數據科學更勝一籌。(責任編輯:周庭羽)

數據分析

首先講到數據分析,數據分析師、業務分析師、商業情報分析師,甚至 Tableau 開發人員都可算是數據分析的其中一員。

數據分析的重點是描述和可視化數據所包含的訊息,再向非技術用戶傳達並做進一步的解釋說明。而數據分析與數據科學家雖有許多相似之處,但關鍵就是 數據分析並不是透過自動化、演算法化的方法來進行預測。

▌SQL

前文提到過數據科學家如何使用 SQL,數據分析師也會進行類似的操作。但是,SQL 對數據分析師更重要。數據科學家可能只是簡單地從表單中選擇列就可以了,而數據分析師卻要執行更為複雜的查詢操作(例如常用的表單表達式、數據透視表、視窗函數、子查詢)。

不同公司情況不同,有時候數據分析師更接近數據工程師,而非數據科學家。

▌Excel

雖然有些老派,但依然強大,你甚至可以用它做預測分析和趨勢分析。唯一缺點是跟 Python 比速度實在太慢。

▌Tableau

一種可視化工具,大多數公司都把它明確列為數據分析師的必備技能。

在 Tableau 中可以拖放數據到預設圖表,簡單強大;還有更多復雜的高級功能,比如計算欄位,連接到一個實時的 SQL 數據庫而非基於靜態的 Excel 表單進行分析。

所以說,數據分析師也要做很多事,只是主要負責:

  • 與相關部門定義要解決的業務問題
  • 獲取數據(使用 SQL)
  • 探索性的數據分析、趨勢分析和可視化(使用 Excel 和 Tableau),可根據工作場景,向有關部門展示從數據中獲得的發現,並提供可行性的建議

數據科學

再換一個角度看數據科學,這是一個實施自動化統計的行業,使用各種模型來進行分類和預測。

下面是成為數據科學家必備的一些技能:

  • Python 或者 R
  • SQL
  • Jupyter Notebook
  • 演算法/建模

▌Python

根據我個人經驗,大部分公司傾向於用 Python 而不是 R 作為主要編程語言。雖然職位描述裡可能會同時列出兩者;但是,我猜你身邊的大多數人,譬如機器學習工程師、數據工程師和軟體工程師,可能都不怎麼熟悉 R 語言。因此,要想成為一名更全面的數據科學家,Python 應該 CP 值更高。

▌SQL

乍看之下更像是數據分析師的技能,確實如此,但 SQL 仍是你從事數據科學必備的技能。工作中數據集往往不會直接發給你的,這跟學術界不同,你需要通過 SQL 獲得自己的數據集。現在有很多 SQL 的分支,比如 PostgreSQL、MySQL、Microsoft SQL Server T-SQL,以及 Oracle SQL。它們都屬於同一種查詢語言,形式接近,但平臺不同。因此,會其中任何一種就行,換到另一種 SQL 很容易。

▌Jupyter Notebook

數據科學家的遊樂場,既可以用於編程也可以建模。你可以把 Jupyter 當作一個研究工具,你可以編程、寫代碼、註釋掉代碼、調用 sklearn、pandas 和 numpy 這些資料庫來建模和測試。

▌演算法

數據科學家的主要職責是用演算法來快速準確地預測、分類,以及根據數據來給建議。每當你用新的數據來訓練模型,就會得到一些新的結果。關鍵的演算法通常分成兩大類:無監督學習(如聚類)和有監督學習(如分類/回歸)。

總而言之,數據科學家要做很多事,但主要職責是:

  • 與有關部門一起定義要解決的問題
  • 獲取數據(使用 SQL)
  • 探索性的數據分析、特徵工程、模型構建、預測(使用 Python、Jupyter Notebook、各種演算法)
  • 根據工作場景,將代碼編製成 .py 文件和/或用於部署的模型

兩者關鍵差異:能否以自動化進行分析

一部分差異主要在分析的自動化上,數據科學家 專注於使用 Python 等語言編寫演算法,進行自動化分析和預測 ;而數據分析師則 使用靜態的或者過往的數據 ,在某些情況下會使用 Tableau 和 SQL 等工具去做預測。

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈数据科学家 vs 数据分析师,到底有啥区别?〉。首圖來源:Unsplash,CC Licensed。)

(本文提供合作夥伴轉載。首圖來源:Unsplash,CC Licensed。)

你可能感興趣

▌ 【不要再說文組不能學 coding】《Nature》:語言能力越好,寫程式學習力更高
Stack Overflow 年度報告出爐:Python 跌到第三名,現在工程師最喜歡哪個程式語言?
▌    微軟工程師推出 Python 零基礎課程,用 10 分鐘的短片讓你輕鬆上手!


多雲平台管理不易,找出資安威脅難上加難

IBM 解惑如何善用「開源技術」自動因應網路攻擊

獲取 IBM 獨家白皮書


Viewing all articles
Browse latest Browse all 585

Trending Articles