根據維琪百科,「科學是一個系統的企業,它以可測試的解釋和預測的形式建立和組織知識」。。如果我們回到這個詞的原始含義,數據科學家是用數據進行實驗的人,是研究基本現象的博學的研究人員,無論是數據還是數據。加上一絲實用主義, 數據科學 可以被描述為一個廣闊的科學領域,它使用一系列操作從給定的數據集中提取知識,以解決特定問題。這就引出了下一個問題:每個人都在談論這些數據科學家是誰?
許多大學現在都提供數據科學課程,這似乎是高等教育的「必備品」。 儘管它們已經發展,但這些培訓課程中的大多數都將學生變成了機器學習者。他們教他們最新的演算法以及如何掌握 Kaggle,主要關注對數據科學的大型價值鏈進行建模。機器學習出現在 1950 年代,是一組旨在讓電腦更快、更精確地完成任務的工具。業務環境、數據的現實及其可解釋性有時會被忽視,以便專注於優化公司難以使用的指標。讓我們回到 Kaggle 來說明這一點:這個平臺的用戶必須將高度複雜的技術應用於現成的數據集,這些數據集的來源並不總是已知的,他們的最終目標是在預測量表上達到最高分。這方面的一個例子是著名的 Netflix 挑戰。儘管機器學習的理論和實踐知識對於解決問題至關重要,但在商業環境中,解決問題的關鍵是對業務環境的知識和理解、合格數據的可用性以及利用結果的適當解釋工具,這通常是不夠的。這解釋了機器學習專家與數據科學家的區別,以及為什麼公司知道選擇哪個專業人員來成功完成他們的數據專案如此重要。我們還應該提到,50%的數據科學項目失敗了,部分原因是難以獲得正確的技能(IDC研究)。但我們仍然沒有確切地說出這些數據科學家到底是誰......
早在 2012 年,《 哈佛商業評論 》就聲稱數據科學家擁有“21 世紀最性感的工作”,但沒有提供太多細節。當你知道他們做非常不同的事情時,很難具體說明,這取決於他們是Airbnb,摩根大通還是通用汽車的數據科學家。但是,無論他們有什麼不同,他們都有一個共同的特點:他們專注於商業。事實上,數據科學的目的是使用數據來解決業務中的問題,例如預測性維護、欺詐檢測、定製購買途徑或內容推薦等。此類專案需要廣泛的技能和專業知識,即:
…並衡量結果以不斷改進技術!
是的,這份清單是一項艱巨的任務......獨角獸是不存在的。如果「數據科學家」這個詞實際上是用詞不當呢?如果數據科學是整個團隊的工作,具有多種不同的技能組合,那會怎樣?
實際上,數據科學不能只是企業中一個人的責任。填補此角色需要幾個不同的設定檔:
對於一家公司來說,明確這些「數據科學家」的不同角色至關重要。這將有助於招聘過程,避免對角色的任何誤解,促進團隊的成就感,並確保數據驅動專案的成功。在55,我們利用這些原則來調整我們的策略,以適應客戶的技能和可用資源,使他們能夠實現自己的目標。這就是為什麼我們有上述不同的配置檔:
我們的目標不是找到一個可以做所有事情的數據科學家,而是確定每個人的需求和優勢,以創建一個功能強大且充實的數據科學團隊,並充分利用每個人的技能。歸根結底,關鍵是......治理!
在我們的月度時事通訊《Tea O'Clock》中發現所有最新新聞、文章、網路研討會重播和 55 項活動。