新版本的Microsoft R Server增加了新的機(jī)器學(xué)習(xí)增強(qiáng)功能并與HDInsight集成。
微軟在收購R語言之后,一直在開發(fā)基于統(tǒng)計分析語言的一系列產(chǎn)品。新版本增加了微軟的幾項(xiàng)高級機(jī)器學(xué)習(xí)算法,以及預(yù)測訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,用于情緒分析和圖像特征化。還增加了對SparklyR,SparkETL和SparkSQL的支持,以及用于深層神經(jīng)網(wǎng)絡(luò)的GPU。
對于開發(fā)人員來說,可以使用Visual Studio的R工具編寫可與Microsoft R Server一起使用的應(yīng)用程序,還有一個Azure Microsoft R Server VM映像,可用于在云上配置服務(wù)器。
新版本的另一項(xiàng)改進(jìn)是使用MicrosoftML for Spark和Hadoop的能力。MicrosoftML已添加到Microsoft R Server 9.0,增加了機(jī)器學(xué)習(xí)算法和數(shù)據(jù)轉(zhuǎn)換功能。這些設(shè)備可運(yùn)行在Linux,Windows以及流行的Hadoop發(fā)行版中,特別是Cloudera,Hortonworks和MapR。R Server 9.0在十二月發(fā)布時,就增加了Spark支持。
現(xiàn)在可以用于Spark和Hadoop的算法是:
1、極速線性學(xué)習(xí),支持L1和L2正則化。
2、快速提升決策樹。
3、快速隨機(jī)森林。
4、邏輯回歸,支持L1和L2正則化。
5、GPU加速深層神經(jīng)網(wǎng)絡(luò)(DNN)與卷積。
6、使用支持向量積的二進(jìn)制分類。
還增加了一個新功能,以便在數(shù)據(jù)集的分區(qū)上執(zhí)行“令人愉快的并行”R計算。這意味著用戶可對一個或多個屬性分組的分區(qū)進(jìn)行大規(guī)模并行計算。rxExecBy函數(shù)允許用戶將任何R函數(shù)應(yīng)用于數(shù)據(jù)集的特定分區(qū)并執(zhí)行并行計算,而無需手動分區(qū)或分割數(shù)據(jù)。
情緒評分和圖像特征功能的增加是由微軟研究所訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)模型的結(jié)果。這些功能意味著現(xiàn)在可以計算出情緒評分,結(jié)果從“非常積極”到“非常負(fù)面”。圖像特征可用來拍攝圖像,并將其表示為基于ResNet識別器的數(shù)字變量集合。這些值可以用作預(yù)測模型的基礎(chǔ)。
新版本的另一個重要改進(jìn)是Microsoft R Server和sparklyr之間的互操作。R Studio的sparklyr是Apache Spark的R接口,允許用戶使用Spark作為數(shù)據(jù)操作包dplyr的后端。Sparklyr還提供了一種使用SQL查詢Spark中數(shù)據(jù)的方法?,F(xiàn)在可以在單個Spark會話中使用Microsoft R Server和sparklyr。
還有一個Microsoft R Client的更新版本,具有與本地使用相同的分析選項(xiàng),現(xiàn)在可用于Linux以及Windows。
除了R Server支持Hadoop之外,Microsoft已經(jīng)宣布,從SQL Server 2017開始,開發(fā)人員將能夠使用Python代碼進(jìn)行數(shù)據(jù)庫內(nèi)分析和機(jī)器學(xué)習(xí)。所謂的R Server將被重命名為機(jī)器學(xué)習(xí)服務(wù),而R和Python是此功能下的兩個選項(xiàng)。