近年來,數據科學飛快發展,由於互聯網、行動裝置、IOT等技術的普遍化,大量數據的取得更加容易;今日,我們可以透過這些數據的分析、數據的挖掘、樣態或模式的發現,和機器模型的學習,應用到各產業優化流程,擴大客戶群,並增進其獲利。
但是,在數據科學於各產業的推展過程中,我們也遭遇很大的挑戰,其中最主要的是「知識的落差」或「知識的不對稱性」。由於數據科學的應用牽涉到多層次的知識及技術,包括產業的需求及產業知識、分析模型的建立、資料的收集、規模化的資料運算、演算法的去規模化,和大數據平台的使用及修正等。通常很難有人能具備所有的能力,因此大多需要各司其職。而「落差」主要來自於各領域的參與者對其他領域必需有足夠的了解,而不只是互相的協作。
舉例而言,產業的營運者了解其產業的發展及需求,但是,他如果對數據科學不同的模型及技術在應用的可能性沒有了解,則很難在產業中可行性高的領域提出需求,並提供必要的資源,以建立專案來執行。數據科學家,了解各種模型的優缺點,及如何選擇適當的模型來近似實體的環境或系統,但是不見得了解產業的需求及知識;同時在大規模的數據運算中,也不一定了解如何經由並行化來優化運算。數據工程師,了解如何運用並行運算的大數據平台,如何傳輸及處理數據,但是通常不了解產業,及數據分析的技術或模型。
所以,要推動數據科學在各產業的發展,除了加強各數據專業領域的教育訓練之外,還需加強大數據在各產業的「通識教育」,或「大數據科普教育」;更重要的--我們必須要在各個產業,建立交流的平台及環境,能深入探討產業問題及需求,並探索可能的數據解決方案;在各企業之間,我們也希望能推動企業間的協作,建立以數據產業鍊為核心的產業生態系統。
因此,本協會的目標,是希望能建立以各個產業為中心的數據科學家社群聚落,提供一個讓數據科學家能深入交流,學習的環境,此外,也希望能連結數據專家與企業之間的合作,直接協助企業解決實際產業的問題。在培養人才方面,希望能以提供完整的實例場景,同時建立與企業緊密結合的關係,讓人才培訓的過程與實際產業接軌,充分地學以致用。
最後,我希望在我們協會的環境中,可以提供一個開放的,讓大家能深入協作及學習的環境,讓個人、企業,及產業都能在未來的數據智能化社會中快速成長,讓我們以此共勉。
陳立文,社團法人台灣數據智慧發展協會理事長