課程內(nèi)容:
01章機器學習入門介紹(1小時)
01-01什么是機器學習
01-02機器學習中的名詞說明:類型、字段、特征、標簽等
01-03機器學習中的基本概念:分類、預測、回歸;有監(jiān)督、無監(jiān)督;模型效果、計算速度;可解釋性、泛化能力等
01-04推薦工具書
02章scikit-learn入門:Scikit-Learn庫簡介(0.5小時)
03章KNN-最近鄰分類算法:以電影分類為例(1.5小時)
03-01模型建立基本思路
03-02KNN原理基礎及其實現(xiàn): KNN原理基礎距離的確認:歐幾里得距離、馬曼哈頓距離、閔可夫斯基距離; KNN的scikit-learn實現(xiàn):模型的構建與評估
03-03模型優(yōu)化:學習曲線、交叉驗證
03-04模型評價與總結
04章決策樹算法:泰坦尼克幸存者預測為例(3小時)
04-01決策樹基本原理
04-02決策樹的scikit-learn實現(xiàn):八個參數(shù)(Criterion、兩個隨機性相關的參數(shù)、五個剪枝參數(shù))、一個屬性、四個接口)解析
04-03分類模型的評估指標(混淆矩陣原理、scikit-learn中的混淆矩陣)
04-04實例:泰坦尼克號幸存者的預測(數(shù)據(jù)導入、數(shù)據(jù)處理、模型構建與評估、利用混淆矩陣調(diào)參)
05章隨機森林算法:以乳腺癌預測為例(3小時)
05-01隨機森林概述:集成算法概述Bagging vs Boosting、集成算法的認識
05-02隨機森林分類器的實現(xiàn):重要參數(shù)、重要屬性和接口
06章K-Means聚類算法:以電商用戶畫像為例(3小時)
06-01聚類算法概述:聚類VS分類
06-02KMeans原理分析
06-03KMeans的scikit-learn實現(xiàn)(模型構建與評估(輪廓系數(shù))、重要參數(shù)解析、實例:根據(jù)輪廓系數(shù)選擇簇)
07章關聯(lián)規(guī)則算法:啤酒與尿布關聯(lián)規(guī)則分析(2小時)
07-01關聯(lián)規(guī)則概述:頻繁項集的產(chǎn)生與關聯(lián)發(fā)現(xiàn)
07-02Apriori算法原理:先驗原理
07-03使用Apriori算法來發(fā)現(xiàn)頻繁項集(生成候選項集(函數(shù)的構建與封裝)、項集迭代函數(shù))
08章線性回歸模型在數(shù)據(jù)分析領域的應用:以房價預測為例(1小時)
09章邏輯回歸:以信用卡反欺詐模型為例(3小時)
09-01邏輯回歸概述:模型參數(shù)、sigmoid函數(shù)、邏輯回歸的返回值解析
09-02邏輯回歸的特點:模型擬合效果、計算速度、返回值的可解釋型
09-03邏輯回歸模型的構建與優(yōu)化: 認識邏輯回歸的損失函數(shù); 重要參數(shù)解析; 梯度下降求解最小損失函數(shù)參數(shù)值
10章SVM支持向量機概述、應用及scikit-leaern實現(xiàn)(1小時)
11章分類模型的評估指標(2小時)
12章樸素貝葉斯算法:以文本分類為例(3小時)
12-01樸素貝葉斯概述
12-02應用:文本分類的實現(xiàn)