渴望獲得更多專家見解?

訂閱我們的 Tea O'Clock 時事通訊!

訂閱

數據科學家不存在

埃洛迪·扎內拉
發布於
14/1/2021
數據科學家——擁有「21世紀最性感的工作」、未來的職業或短暫的工作,甚至只是一個流行語的人?如今,作為一名數據科學家有很多方面,所以讓我們首先嘗試定義這個術語。

根據維琪百科,「科學是一個系統的企業,它以可測試的解釋和預測的形式建立和組織知識」。。如果我們回到這個詞的原始含義,數據科學家是用數據進行實驗的人,是研究基本現象的博學的研究人員,無論是數據還是數據。加上一絲實用主義, 數據科學 可以被描述為一個廣闊的科學領域,它使用一系列操作從給定的數據集中提取知識,以解決特定問題。這就引出了下一個問題:每個人都在談論這些數據科學家是誰?

大學製造機器學習機器

許多大學現在都提供數據科學課程,這似乎是高等教育的「必備品」。 儘管它們已經發展,但這些培訓課程中的大多數都將學生變成了機器學習者。他們教他們最新的演算法以及如何掌握 Kaggle,主要關注對數據科學的大型價值鏈進行建模。機器學習出現在 1950 年代,是一組旨在讓電腦更快、更精確地完成任務的工具。業務環境、數據的現實及其可解釋性有時會被忽視,以便專注於優化公司難以使用的指標。讓我們回到 Kaggle 來說明這一點:這個平臺的用戶必須將高度複雜的技術應用於現成的數據集,這些數據集的來源並不總是已知的,他們的最終目標是在預測量表上達到最高分。這方面的一個例子是著名的 Netflix 挑戰。儘管機器學習的理論和實踐知識對於解決問題至關重要,但在商業環境中,解決問題的關鍵是對業務環境的知識和理解、合格數據的可用性以及利用結果的適當解釋工具,這通常是不夠的。這解釋了機器學習專家與數據科學家的區別,以及為什麼公司知道選擇哪個專業人員來成功完成他們的數據專案如此重要。我們還應該提到,50%的數據科學項目失敗了,部分原因是難以獲得正確的技能(IDC研究)。但我們仍然沒有確切地說出這些數據科學家到底是誰......

神話中的獨角獸

早在 2012 年,《 哈佛商業評論 》就聲稱數據科學家擁有“21 世紀最性感的工作”,但沒有提供太多細節。當你知道他們做非常不同的事情時,很難具體說明,這取決於他們是Airbnb,摩根大通還是通用汽車的數據科學家。但是,無論他們有什麼不同,他們都有一個共同的特點:他們專注於商業。事實上,數據科學的目的是使用數據來解決業務中的問題,例如預測性維護、欺詐檢測、定製購買途徑或內容推薦等。此類專案需要廣泛的技能和專業知識,即:

  • 對業務需求有深刻的理解,並有能力提出嚴謹務實的方法來解決公司的問題
  • 瞭解技術架構,以便創建和實施最佳架構來支持專案
  • 熟練掌握數據分析、統計描述和可視化工具,以理解數據並指導處理和建模選擇
  • 數據提取、準備和處理技能
  • 統計和機器學習知識(如果專案需要建模)
  • 能夠解釋分析和/或建模結果,從這些結果中得出可操作的結論,並以專案團隊可以理解和實施的方式解釋所述結論
  • 支援結果實施的能力(例如:在檢測到欺詐時創建和自動化可操作的解決方案,或實施在網站上或通過電子郵件行銷活動共用自定義內容的有效策略)

…並衡量結果以不斷改進技術!

是的,這份清單是一項艱巨的任務......獨角獸是不存在的。如果「數據科學家」這個詞實際上是用詞不當呢?如果數據科學是整個團隊的工作,具有多種不同的技能組合,那會怎樣?

揭開數據科學家的神話

實際上,數據科學不能只是企業中一個人的責任。填補此角色需要幾個不同的設定檔:

  • 數據專案經理:憑藉敏銳的業務戰略和對技術挑戰的深刻理解,數據項目經理將利用團隊的技能並制定計劃以滿足業務需求,同時確保計劃的無縫實施。
  • 一名或多名 數據分析師:具備分析技能,他們使用可視化或統計工具以SQL格式準備和調查數據,以回答專案團隊的具體問題,並以有影響力和有用的方式呈現結果。
  • 一個或多個 機器學習者:部分統計師,部分開發人員,他們使用大量數據來識別隱藏的模式並預測行為或事件。
  • 一個或多個 數據架構師:他們設計、實施和管理支持數據處理的整體架構,始終關注可 伸縮性、彈性和解決方案的發展能力。
  • 一名或多名 數據工程師:他們程式設計和維護數據的收集、存儲和分發,數據分析師和機器學習者又使用這些數據。由於數據架構師和數據工程師需要相似的技能組合,因此這些角色有時可以由同一個人擔任。

對於一家公司來說,明確這些「數據科學家」的不同角色至關重要。這將有助於招聘過程,避免對角色的任何誤解,促進團隊的成就感,並確保數據驅動專案的成功。在55,我們利用這些原則來調整我們的策略,以適應客戶的技能和可用資源,使他們能夠實現自己的目標。這就是為什麼我們有上述不同的配置檔:

我們的目標不是找到一個可以做所有事情的數據科學家,而是確定每個人的需求和優勢,以創建一個功能強大且充實的數據科學團隊,並充分利用每個人的技能。歸根結底,關鍵是......治理

所有文章

相關文章

粒度:衡量和優化行銷效果的關鍵?

8 分鐘
馬蒂厄·勒普特(Mathieu Lepoutre)

如何通過伺服器端跟蹤實現彈性、敏捷性和對數據的控制

5 分鐘
Alain Friedli

創意分析:用洞察激發想像力

7 分鐘
瑪歌·蒙塔格納

渴望獲得更多專家見解?訂閱我們的每月時事通訊。

在我們的月度時事通訊《Tea O'Clock》中發現所有最新新聞、文章、網路研討會重播和 55 項活動。

名字*
姓*
公司*
首選語言*
電子郵件*
謝謝!

Votre demande d'abonnement a bien été prise en compte.
哎呀!表單提交時發生錯誤。