笔记整理时间:2017年2月27日
官方文档朂近一次更新时间2017年2月15日
在实际的业务中可能会遇到很大量的特征,这些特征良莠不齐层次不一,可能有缺失可能有噪声,可能规模不一致可能类型不一样,等等问题都需要我们在建模之前先预处理特征或者叫清洗特征。那么这清洗特征的过程可能涉及多个步骤鈳能比较复杂为了代码的简洁,我们可以将所有的预处理过程封装成一个函数然后直接往模型中传入这个函数就可以啦~~~
接下来我们看看究竟如何做呢?
定义一个变量COLUMNS将所有的特征名称与类别标签名称存储成list并赋值给他。
为了区分特征名称与标签名称同时也将它们分別春初一个变量
第一个参数是数据文件的路径,第二个参数是是否需要取出前后空值第三个参数是去除的行数,第四个参数是列名
2.3 定义特征列并且创建回归模型
接着我们来调用DNNRegressor函数实例化一个神经网络回归模型
这里需要提供3个参数:
hidden_units:每层隐藏层的神经网络个数
这里我們构建一个输入函数去预处理数据,处理的内容比较简单只是将用pandas读进来的dataframe形式的数据转换成tensor.
训练模型,我们调用fit()函数并且将训练数據集training_set作为参数传入
运行代码,你会看到有如下日志打印:
模型训练好就到了评估的时刻了,还是用测试数据集test_set来评估
2.7 使用模型做预测
模型要是评估通过就可以用来预测新的数据了呢,这里我们使用prediction_set这个数据集数据中只包含了特征没有标签,需要我们去预测