和 StatsModels 集成¶
这个指引介绍如何在 Mars 中使用 StatsModels 进行模型训练和预测。
安装¶
如果你试图在单机比如你的笔记本上使用 Mars,确保 StatsModels 已经安装。
你可以通过 pip 安装 StatsModels:
pip install statsmodels
访问 StatsModels 安装指引 获取更多信息。
另一方面,如果你在集群上使用 Mars,确保 StatsModels 在每个 Worker 上安装。
准备数据¶
首先,我们使用 scikit-learn 来加载波士顿房屋数据集。
In [1]: from sklearn.datasets import load_boston
In [2]: boston = load_boston()
接着从数据创建 Mars DataFrame。
In [3]: import mars.dataframe as md
In [4]: data = md.DataFrame(boston.data, columns=boston.feature_names)
查看 DataFrame 前五条数据。
In [5]: data.head().execute()
Out[5]:
CRIM ZN INDUS CHAS NOX ... RAD TAX PTRATIO B LSTAT
0 0.00632 18.0 2.31 0.0 0.538 ... 1.0 296.0 15.3 396.90 4.98
1 0.02731 0.0 7.07 0.0 0.469 ... 2.0 242.0 17.8 396.90 9.14
2 0.02729 0.0 7.07 0.0 0.469 ... 2.0 242.0 17.8 392.83 4.03
3 0.03237 0.0 2.18 0.0 0.458 ... 3.0 222.0 18.7 394.63 2.94
4 0.06905 0.0 2.18 0.0 0.458 ... 3.0 222.0 18.7 396.90 5.33
[5 rows x 13 columns]
mars.dataframe.DataFrame.describe()
给出了所有列的统计信息。
In [6]: data.describe().execute()
Out[6]:
CRIM ZN INDUS ... PTRATIO B LSTAT
count 506.000000 506.000000 506.000000 ... 506.000000 506.000000 506.000000
mean 3.613524 11.363636 11.136779 ... 18.455534 356.674032 12.653063
std 8.601545 23.322453 6.860353 ... 2.164946 91.294864 7.141062
min 0.006320 0.000000 0.460000 ... 12.600000 0.320000 1.730000
25% 0.082045 0.000000 5.190000 ... 17.400000 375.377500 6.950000
50% 0.256510 0.000000 9.690000 ... 19.050000 391.440000 11.360000
75% 3.677083 12.500000 18.100000 ... 20.200000 396.225000 16.955000
max 88.976200 100.000000 27.740000 ... 22.000000 396.900000 37.970000
[8 rows x 13 columns]
我们可以把数据打乱,然后把他们分成训练和测试集。
In [7]: from mars.learn.model_selection import train_test_split
In [8]: X_train, X_test, y_train, y_test = \
...: train_test_split(data, boston.target, train_size=0.7, random_state=0)
训练¶
我们可以使用与 StatsModels 提供的 分布式估计 API 类似的 API 对数据进行训练。
In [9]: from mars.learn.contrib import statsmodels as msm
In [10]: model = msm.MarsDistributedModel(num_partitions=5)
In [11]: results = model.fit(y_train, X_train, alpha=0.2)
In [12]: results
Out[12]: <mars.learn.contrib.statsmodels.api.MarsResults at 0x7fd47a118f70>
DistributedModel
上使用的参数,例如 model_class
, estimation_method
和 join_method
可在创建 MarsDistributedModel
时使用。
预测¶
上面的步骤生成的模型可用于预测:
In [13]: results.predict(X_test)
Out[13]:
377 20.475695
218 20.792441
216 23.158081
78 19.912593
467 14.290641
...
94 24.798897
120 22.196336
53 23.714524
165 19.824247
319 22.138279
Length: 152, dtype: float64
分布式训练和预测¶
部署参考 在集群中部署 部分,在 Kubernetes 上运行参考 在 Kubernetes 中部署 部分。
一旦一个集群存在,你可以要么设置默认 session,训练和预测就会自动提交到集群,要么你可以通过 session=***
显示指定运行的 session。
以 MarsDistributedModel.fit()
为例。
# A cluster has been configured, and web UI is started on <web_ip>:<web_port>
import mars
# set the session as the default one
sess = mars.new_session('http://<web_ip>:<web_port>')
# specify partition number
model = msm.MarsDistributedModel(num_partitions=5)
# or specify factor for cluster size,
# num_partitions will be int(factor * num_cores)
model = msm.MarsDistributedModel(factor=1.2)
# fitting will submitted to cluster by default
results = model.fit(y_train, X_train, alpha=1.2)
# Or, session could be specified as well
results = model.fit(y_train, X_train, alpha=1.2, session=sess)