sklearn Pipeline使用-服务器评测

简介

Pipeline按顺序构建一系列转换和一个模型，最后的一步是模型。Pipeline中间的步骤必须是转换过程，它们必须包含fit和transform方法。最后一步模型只要有fit方法。

Pipeline的目的是能组合好几个步骤，当设置不同参数的时候，可以在一起做交叉验证。可以通过【pipeline的名称+ “__” + 参数名称】(注意是两个下划线)的方式设置多个步骤的参数。

参数

名称类型说明

steps list 包含(name,transform)元组的list类型，按照元组的顺序形成一个链，最后一步是模型。

named_steps dict 只读的属性，用户通过设置的名称可以读取相应步骤的参数，keys是步骤名称，values是步骤参数

名称	类型	说明
steps	list	包含(name,transform)元组的list类型，按照元组的顺序形成一个链，最后一步是模型。
named_steps	dict	只读的属性，用户通过设置的名称可以读取相应步骤的参数，keys是步骤名称，values是步骤参数

上手使用

from sklearn import svm
from sklearn.datasets import samples_generator
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
from sklearn.pipeline import Pipeline

产生一些测试数据

X, y = samples_generator.make_classification(n_informative=5, n_redundant=0, random_state=42)

选择特征

# ANOVA SVM-C
anova_filter = SelectKBest(f_regression, k=5)

SVM模型

clf = svm.SVC(kernel='linear')

构建pipeline

anova_svm = Pipeline([('anova', anova_filter), ('svc', clf)])

模型有两步，一步是最特征选择，一步是模型

设置参数

anova_svm.set_params(anova__k=10, svc__C=.1)

Pipeline(steps=[('anova', SelectKBest(k=10, score_func=<function f_regression at 0x4a0f0c8>)), ('svc', SVC(C=0.1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

训练模型

anova_svm.fit(X,y)

Pipeline(steps=[('anova', SelectKBest(k=10, score_func=<function f_regression at 0x4a0f0c8>)), ('svc', SVC(C=0.1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

预测结果

prediction = anova_svm.predict(X)
anova_svm.score(X,y)

0.77000000000000002

查看pipeline里的参数

anova_svm.named_steps['anova']

SelectKBest(k=10, score_func=<function f_regression at 0x4a0f0c8>)

anova_svm.named_steps['svc']

SVC(C=0.1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

anova_svm.named_steps['anova'].get_support()

array([ True,  True,  True, False, False,  True, False,  True,  True,
        True, False, False,  True, False,  True, False, False, False,
       False,  True], dtype=bool)

本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-06/144939.htm

sklearn Pipeline使用

参数

名称类型说明

steps list 包含(name,transform)元组的list类型，按照元组的顺序形成一个链，最后一步是模型。

named_steps dict 只读的属性，用户通过设置的名称可以读取相应步骤的参数，keys是步骤名称，values是步骤参数

上手使用

`from sklearn import svm from sklearn.datasets import samples_generator from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import f_regression from sklearn.pipeline import Pipeline`

产生一些测试数据

`X, y = samples_generator.make_classification(n_informative=5, n_redundant=0, random_state=42)`

选择特征

`# ANOVA SVM-C anova_filter = SelectKBest(f_regression, k=5)`

SVM模型

`clf = svm.SVC(kernel='linear')`

构建pipeline

`anova_svm = Pipeline([('anova', anova_filter), ('svc', clf)])`

模型有两步，一步是最特征选择，一步是模型

预测结果

`prediction = anova_svm.predict(X) anova_svm.score(X,y)`

`0.77000000000000002`

相关推荐

分类

听说打赏我的人，都进福布斯排行榜啦！

支付宝扫一扫打赏

微信扫一扫打赏

参数 名称 类型 说明 steps list 包含(name,transform)元组的list类型，按照元组的顺序形成一个链，最后一步是模型。 named_steps dict 只读的属性，用户通过设置的名称可以读取相应步骤的参数，keys是步骤名称，values是步骤参数

上手使用 from sklearn import svm from sklearn.datasets import samples_generator from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import f_regression from sklearn.pipeline import Pipeline

产生一些测试数据 X, y = samples_generator.make_classification(n_informative=5, n_redundant=0, random_state=42)

选择特征 # ANOVA SVM-C anova_filter = SelectKBest(f_regression, k=5)

SVM模型 clf = svm.SVC(kernel='linear')

构建pipeline anova_svm = Pipeline([('anova', anova_filter), ('svc', clf)]) 模型有两步，一步是最特征选择，一步是模型

预测结果 prediction = anova_svm.predict(X) anova_svm.score(X,y) 0.77000000000000002

相关推荐

分类

听说打赏我的人，都进福布斯排行榜啦！

支付宝扫一扫打赏

微信扫一扫打赏

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱

参数

名称类型说明

steps list 包含(name,transform)元组的list类型，按照元组的顺序形成一个链，最后一步是模型。

named_steps dict 只读的属性，用户通过设置的名称可以读取相应步骤的参数，keys是步骤名称，values是步骤参数

上手使用

`from sklearn import svm from sklearn.datasets import samples_generator from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import f_regression from sklearn.pipeline import Pipeline`

产生一些测试数据

`X, y = samples_generator.make_classification(n_informative=5, n_redundant=0, random_state=42)`

选择特征

`# ANOVA SVM-C anova_filter = SelectKBest(f_regression, k=5)`

SVM模型

`clf = svm.SVC(kernel='linear')`

构建pipeline

`anova_svm = Pipeline([('anova', anova_filter), ('svc', clf)])`

模型有两步，一步是最特征选择，一步是模型

预测结果

`prediction = anova_svm.predict(X) anova_svm.score(X,y)`

`0.77000000000000002`