Make Sense of the Data

By Jason, Aug 19, 2016, in category Machine learning

machine learning, ml, statistic

要開始這一系列主題其實是針對機器學習(Machine Learning)這個題目做一個前導。 大家都知道機器學習的概念是想讓電腦自我學習,這部分可以參考林軒田老師的機器學習的基石系列文章,如何有效的讓機器去自我學習有各種理論基礎,不過這邊我比較喜歡從統計的觀點切入,畢竟統計已經存在這個世界上百餘年歷史,許多理論模型也經幾驗證。

但要先從統計切入必須要理解統計相關的知識背景,好在在大學與碩士期間有四年的學習,因此對於統計有不錯深刻的經驗。因此在這系列文章我想從最近在看的三本書 Make Sense of the Data 來切入。先聊聊資料的性質,機率理論與分佈,最後是推論統計。從這幾項開始回顧我認為可以更瞭解資料與處理資料,當對於資料有進一步掌握時,也許對於如何讓機器學習這件事情就會有比較清楚的想法。

為什麼統計和機器學習會有很高度關聯性,讓我們想想當你在學習辨認一件事物時你怎麼做的,例如看到路上再跑的機器有機車、汽車、小貨車、公車、大客車這幾種類別,同樣都是有輪子,怎麼知道哪一種車是屬於哪一種類型,因此我們開始會去比較,然後分類。比較與分類就是統計學的最開始。

不過從八月開始就陸續一直忙著其他事情,所以就先列出關於機器學習推薦的課程吧:

  1. 機器學習的基石
  2. Machine Learning in a Week
  3. 機器學習 A-Z: 使用 Python & R 實踐資料科學