課程內(nèi)容:
第1階段
預(yù)備知識:數(shù)據(jù)科學(xué)的數(shù)據(jù)庫基礎(chǔ)
了解數(shù)據(jù)庫在行業(yè)應(yīng)用中的價(jià)值及其在數(shù)據(jù)分析中的地位,掌握數(shù)據(jù)庫中數(shù)據(jù)存儲、數(shù)據(jù)查詢、數(shù)據(jù)處理技術(shù),了解與工業(yè)場景中Python 操作數(shù)據(jù)庫的邏輯和方法,并攻克BAT數(shù)據(jù)庫重點(diǎn)筆試題。
第1章:數(shù)據(jù)的存儲、讀取及簡單處理
(一)導(dǎo)學(xué)直播:數(shù)據(jù)庫應(yīng)用價(jià)值及其在數(shù)據(jù)分析中的地位
(二)操作數(shù)據(jù)庫--數(shù)據(jù)的存儲
(三)查詢數(shù)據(jù)庫中的數(shù)據(jù)--查詢語句
(四)數(shù)據(jù)庫高級操作--函數(shù)
(五)工業(yè)場景下數(shù)據(jù)庫數(shù)據(jù)的提取與處理形式:Python連接數(shù)據(jù)庫
(六)專題直播:BAT數(shù)據(jù)庫面試題精講
(七)階段作業(yè)
第二階段
數(shù)據(jù)分析工具熟練運(yùn)用養(yǎng)成計(jì)劃
了解Python在數(shù)據(jù)科學(xué)、人工智能領(lǐng)域的地位,3倍速高效掌握Python編程、Python數(shù)據(jù)處理與可視化核心技術(shù),并理解可視化技術(shù)實(shí)現(xiàn)結(jié)果輸出與內(nèi)容美化的數(shù)據(jù)表達(dá)邏輯。
第二章:3倍速學(xué)習(xí)Python核心編程技術(shù)
(一)導(dǎo)學(xué)直播:Python數(shù)據(jù)分析工具的市場競爭力分析
(二)Python編程的破冰之旅
(三)掌握Python序列對象:字符串、列表、元組、字典
(四)建立python控制流語句知識模型:條件判斷和循環(huán)的藝術(shù)
(五)實(shí)現(xiàn)Python的模塊化程序設(shè)計(jì):函數(shù)
(六)面向?qū)ο缶幊膛c類
(八)專題直播:使用Git和Github進(jìn)行版本控制
(九)階段作業(yè)
第三章:數(shù)據(jù)分析入門:使用Numpy+Matplotlib分析數(shù)據(jù)
(一)導(dǎo)學(xué)直播:巧用Python強(qiáng)大的第三方庫功能,大幅度提升編程任務(wù)效率
(二)共享單車每季度平均騎行時間對比
(三)動手創(chuàng)建一個批量溫度轉(zhuǎn)換器
(四)共享單車各類用戶的平均騎行時間趨勢對比
(五)氣溫?cái)?shù)據(jù)的描述性統(tǒng)計(jì)分析:大值、小值、平均值
(六)共享單車的用戶類別分析:比例
(七)氣溫?cái)?shù)據(jù)的可視化分析
(八)共享單車用類別分析的統(tǒng)計(jì)圖形繪制
(九)功能強(qiáng)大的Numpy的高級操作
(十)階段作業(yè)
第四章:Pandas從數(shù)據(jù)分析到可視化
(一)導(dǎo)學(xué)直播:數(shù)據(jù)表達(dá)邏輯--結(jié)果輸出與內(nèi)容美化
(二)比較咖啡店各類飲品的數(shù)量與熱量
(三)PM*.5的數(shù)值展示及不同來源數(shù)值差異對比展示
(四)分析電子游戲在各國的營收情況并用堆疊圖展示
(五)房屋價(jià)格影響因素探索與房價(jià)趨勢的可視化展示
(六)神奇寶貝數(shù)據(jù)的變量關(guān)系探索與分析
(七)不同手機(jī)操作系統(tǒng)的流量使用情況分析
(八)統(tǒng)計(jì)不同專業(yè)的員工平均薪資
(九)股票行情分析及價(jià)格趨勢的可視化展示
(十)幸福指數(shù)的等級分析
(十一)專題直播:python實(shí)現(xiàn)excel辦公自動化
(十二)階段作業(yè)
第三階段
數(shù)據(jù)價(jià)值的挖掘及預(yù)測技術(shù)實(shí)戰(zhàn)
掌握機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)、機(jī)器學(xué)習(xí)理論及實(shí)現(xiàn)、深度學(xué)習(xí)理論及實(shí)現(xiàn);掌握機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在推薦系統(tǒng)、金融、量化等領(lǐng)域的工業(yè)應(yīng)用實(shí)踐及模型部署上線
第五章:數(shù)據(jù)價(jià)值挖掘及預(yù)測的數(shù)學(xué)基礎(chǔ)知識
(一)導(dǎo)學(xué)直播:數(shù)學(xué)基礎(chǔ)在機(jī)器學(xué)習(xí)中的重要性與必要性講解
(二)構(gòu)建機(jī)器學(xué)習(xí)的線性代數(shù)知識模型
(三)掌握機(jī)器學(xué)習(xí)算法原理推導(dǎo)中的微積知識
(四)掌握機(jī)器學(xué)習(xí)算法必知必會的統(tǒng)計(jì)學(xué)知識
(五)專題直播:Python實(shí)現(xiàn)統(tǒng)計(jì)分析的方法--statsmodel的介紹及使用
(六)階段作業(yè)
第六章:掌握數(shù)據(jù)價(jià)值挖掘及預(yù)測的監(jiān)督學(xué)習(xí)算法基礎(chǔ)
(一)導(dǎo)學(xué)直播:機(jī)器學(xué)習(xí)入門與算法總覽
(二)根據(jù)像素值對CIFAR10圖像數(shù)據(jù)進(jìn)行KNN算法分類
(三)動手實(shí)現(xiàn)基于決策樹的收入分類與可視化
(四)使用線性回歸模型實(shí)現(xiàn)Ames房價(jià)預(yù)測
(五)使用邏輯回歸構(gòu)建信用卡反欺詐預(yù)測模型
(六)使用樸素貝葉斯構(gòu)建垃圾郵件分類器
(七)使用支持向量機(jī)對金融支付服務(wù)的欺詐行為進(jìn)行預(yù)測
(八)通過boosting提升傳統(tǒng)算法在海外電商企業(yè)用戶細(xì)分項(xiàng)目中的效果
(九)使用XGBoost提升樹對人類發(fā)展指數(shù)官方數(shù)據(jù)集進(jìn)行回歸預(yù)測
(十)監(jiān)督學(xué)習(xí)綜合應(yīng)用實(shí)戰(zhàn):基于超參數(shù)優(yōu)化的Gradient Boosting的銷售預(yù)測
(十一)專題直播:機(jī)器學(xué)習(xí)的人才需求及技術(shù)應(yīng)用現(xiàn)狀分析
(十二)階段作業(yè)
第七章:掌握數(shù)據(jù)價(jià)值挖掘及預(yù)測的無監(jiān)督學(xué)習(xí)算法基礎(chǔ)
(一)導(dǎo)學(xué)直播:實(shí)際工作中我們應(yīng)該如何根據(jù)場景選擇適合的機(jī)器學(xué)習(xí)算法模型
(二)使用KMeans進(jìn)行旅游企業(yè)客戶分群
(三)使用PCA進(jìn)行基因序列異常檢測實(shí)現(xiàn)癌癥診斷
(四)基于潛在狄利克雷分配(LDA)的內(nèi)容主題挖掘
(五)使用Apriori進(jìn)行322萬知乎用戶的關(guān)注話題關(guān)聯(lián)分析
(十二)階段作業(yè)
第八章:使用深度學(xué)習(xí)完成你的第1個AI項(xiàng)目--人臉識別
(一)導(dǎo)學(xué)直播:深度學(xué)習(xí)的行業(yè)應(yīng)用價(jià)值及技術(shù)發(fā)展趨勢
(二)單層感知器與多層感知器在反欺詐預(yù)測上的表現(xiàn)對比
(三)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行手寫數(shù)字圖片識別
(四)快速上手構(gòu)建一個人臉識別系統(tǒng)
(五)專題直播:深度學(xué)習(xí)主流框架介紹
(六)階段作業(yè)
第九章 工業(yè)項(xiàng)目實(shí)戰(zhàn)保障機(jī)器學(xué)習(xí)技術(shù)的落地實(shí)踐
(一)導(dǎo)學(xué)直播:工業(yè)場景下的機(jī)器學(xué)習(xí)模型應(yīng)用與模型部署
(二)推薦系統(tǒng)案例精講
(三)金融風(fēng)控案例精講
(四)時間序列案例精講
(五)算法模型的部署--在人工智能實(shí)驗(yàn)室 中部署我們的反欺詐預(yù)測模型
(六)專題直播:機(jī)器學(xué)習(xí)工程師職業(yè)成長路徑
(七)階段作業(yè)
第四階段
分布式機(jī)器學(xué)習(xí)的工具基礎(chǔ)與工業(yè)項(xiàng)目實(shí)戰(zhàn)
看了解大數(shù)據(jù)工具運(yùn)用的工業(yè)應(yīng)用價(jià)值、大數(shù)據(jù)生態(tài)系統(tǒng)的重要組件、大數(shù)據(jù)架構(gòu)搭建方法;掌握海量數(shù)據(jù)的存儲與處理技術(shù);了解Spark大數(shù)據(jù)處理工具及相關(guān)組件;了解分布式機(jī)器學(xué)習(xí)的工業(yè)應(yīng)用價(jià)值,掌握Spark MLlib分布式機(jī)器學(xué)習(xí)實(shí)現(xiàn)的邏輯及其在金融、計(jì)算廣告、推薦系統(tǒng)、量化投資等領(lǐng)域的應(yīng)用。
第十章:海量數(shù)據(jù)存儲和處理技術(shù):Linux環(huán)境下Sp****.x+Python開發(fā)環(huán)境的
(一)導(dǎo)學(xué)直播:海量數(shù)據(jù)處理的市場需求分析及工具介紹
(二)導(dǎo)入本地虛擬機(jī)至virtualbox及啟動系統(tǒng)和遠(yuǎn)程桌面連接
(二)大數(shù)據(jù)環(huán)境快速搭建:Hadoop偽分布式集群的搭建
(三)大數(shù)據(jù)環(huán)境快速搭建:Linux系統(tǒng)下安裝PySpark模塊并遠(yuǎn)程啟動Anaconda
(四)使用結(jié)構(gòu)化海量數(shù)據(jù)處理框架Spark SQL、Spark DataFrame進(jìn)行航空數(shù)據(jù)分析
(五)專題直播:Spark DataFrame與Python DataFrame異同
(六)階段作業(yè)
第十一章:千萬級別數(shù)據(jù)的機(jī)器學(xué)習(xí)問題:機(jī)器學(xué)習(xí)的分布式計(jì)算實(shí)現(xiàn)
(一)分布式機(jī)器學(xué)習(xí)的工業(yè)價(jià)值及技術(shù)發(fā)展趨勢介紹
(二)PySpark機(jī)器學(xué)習(xí):Spark Mllib實(shí)現(xiàn)算法模型構(gòu)建
(三)構(gòu)建分類模型預(yù)測StumbleUpon給用戶個性化推薦的網(wǎng)頁是否長期受歡迎
(四)構(gòu)建回歸模型實(shí)現(xiàn)共享單車需求量預(yù)測
(五)分布式環(huán)境下的Avazu廣告數(shù)據(jù)集性別標(biāo)簽預(yù)測
(六)基于Avazu廣告數(shù)據(jù)的廣告排名及CTR預(yù)估
(七)分布式環(huán)境下的Audioscrobbler音樂推薦系統(tǒng)開發(fā)
(八)基于分布式機(jī)器學(xué)習(xí)的實(shí)現(xiàn)個人貸款違約預(yù)測
(九)基于分布式機(jī)器學(xué)習(xí)的銀行零售產(chǎn)品的交叉營銷
(十)基于分布式XGBoost的量化投資項(xiàng)目實(shí)戰(zhàn)--股票價(jià)格的預(yù)測
(十一)專題直播:運(yùn)用Spark ML Pipeline組建簡易文本分類案例需求分析
(十二)階段作業(yè)
作業(yè)
第五階段
結(jié)業(yè)項(xiàng)目競賽
學(xué)員將組隊(duì)參加DC平臺、阿里天池競賽,提交項(xiàng)目代碼到平臺,根據(jù)項(xiàng)目得分及排名情況進(jìn)行優(yōu)秀學(xué)員評選
第十二章:項(xiàng)目競賽及競賽案例詳解
第六階段
就業(yè)階段
本階段將為學(xué)員提供專業(yè)的簡歷指導(dǎo)和就業(yè)推薦服務(wù),為學(xué)員的就業(yè)保駕護(hù)航。學(xué)員入職后持續(xù)提供為期1年的入職護(hù)航服務(wù),入職不滿意重新推薦