广告管理-1170PX*80PX
广告管理-770PX*90PX
当前位置:首页 > 公司注册

模型如何不侵权(模型训练步骤)

广告管理-720PX*80PX

作为算法工程师训练模型是家常便饭,无论是做推荐中的召回模型、排序模型还是其他领域的分类模型等,都应该有一个规范化的流程。

1、定义问题

首先弄清楚自己要做什么,然后调查相关技术决定如何解决问题,最后反思自己为什么要用这个解决方案解决这个问题,有没有更好的想法。

以电子商务推荐系统中点击率的估算为例。 首先明确我们的目标是优化线上商品点击率,然后可以通过点击率推算算法离线训练模型,在线推算,向用户推荐点击率高的商品。 这是因为点击率估算是目前行业比较成熟的解决方案,取得了很好的效果,在实践中出现问题的时候,很容易解决问题。 当然也有其他方案,如基于深度学习的CTR,但由于使用深度学习的成本较高,所以从成熟的基于机器学习的CTR开始进行,然后过渡到深度学习。

2、选定模型

在明确问题后,选定用哪个算法解决。 在相同数据特征的前提下,不同算法的效果不同,应用成本也不同。 因此,最重要的不是选择最高的,而是选择适合自己业务的算法。

同样以电子商务推荐为例,例如综合考虑,选择了CTR估计中常用的树模型算法-XGBoost。

是决定

3、构造数据

算法模型后,结合业务特性明确模型所需的训练数据。 远离业务的特色数据没有灵魂。 例如,电子商务中的商品和信息流产品的新闻背景不同,许多细节数据和特征都需要考虑和构建。 因此,为了使算法模型的作用最大化,需要构建适合自己业务的数据。

例如,CTR预计我们要构建的训练数据是features、label,那么如何识别label呢? kpi指标不同,对应的标签也不同。 例如,我们追求点击率的标签可能是0、1; 但是,如果追求GMV (商品交易额),制定的标签可能就是商品订单率。 同样,在制定功能的过程中,也必须结合用户在业务内的数据表现。

4、模型训练

模型是基于基础数据更好地抽象和解决维度问题,CTR模型的目的是建立特征和标签之间的隐含关系,通过参数调整,以追求更好的效果表现。 数据构建后是进行算法模型的舞台,目前大数据环境最常见的是基于Spark分布式平台进行模型的训练和调谐。

5、模型评估

训练模型在大多数情况下,为了追求最小的误差、最大的效果,需要拟合目标函数。 CTR场景中常见的模型评价指标有准确率、准确率、f值、AUC、NDCG等。 同样选择适合自己业务和算法模型的评价指标,通过评价指标调整模型参数,使其离线获得最佳效果,但具体最终效果还是需要进行模型的在线化,进行测试验证模型的优劣。

在ABTest的过程中,新模型由于不确定性,为了效果的测试而赋予较少的流量,如果效果优于base组模型,则分配更多的流量,大多追求在线整体效果的优化。

6、模型优化

模型优化的过程是反复升级模型和数据的过程,但这里要明确的是,影响模型在线效果的因素很多,从基础数据到结构特征、算法的选择到实验策略的影响、算法的影响在应用算法模型的整个过程中,发生的所有动作和修改都会影响模型的效果表现,因此算法工程师必须注意不仅仅重视算法和特征,在出现问题时,往往要从多个方面进行问题的定位和解释

为了避免其他非数据算法的影响,保证ABTest实验,即其他因素的一致性,通过实验效果的优劣验证实验改进点的有效性。

完成

7、模型部署

模型后,需要考虑如何部署模型。 当然,根据角色不同,模型的配置方法也不同。

例如,用户脱机计算的用户偏好模型不需要在线部署。 训练模型后,保存并直接对数据集进行偏好预测。 当然,也可以不保存而直接进行预测。

对于在线使用的排序模型,机器学习和深度学习的主流导入方法也有所不同。 例如,排序后的树模型通常保存为obj文件,并写入确定的位置。 在线使用时,直接加载到内存中进行在线特征的连接和计算即可,在DL类模型中,当然也可以保存为确定形式的文件在线使用,但更常见的方法是在框架本身中使用例如,基于Tensorflow的DL模型可以利用tf-serving进行部署,在线使用时,直接调整相应的API接口,传递必要的参数进行计算排序。

8、效果跟踪

机型上线后不是目标,更重要的一步是跟踪上线后的效果。

通常,在新上模型中进行白名单测试(一般为内部工作人员),测试是否正常返回数据、返回的数据是否正常、是否令人信服,确认没有问题后,进行小流量的测试)一般为5%

不要轻视扩散过程。 如果将新模型直接扩展到全部或大部分工艺中,可能会引起效果差、性能差等严重问题,请慎重处理。

9、数据保存

数据保存的目的是通过一定的方法保存在线使用的特征数据,方便后续模型的训练和优化,形成完整的数据闭环。

保存数据时,需要注意的是每个数据的唯一性。 也就是说,最后将特征数据与label关联时,保证其对应。 否则,会引起样本误差,导致模型训练效果。

广告管理-720PX*80PX

  • 关注微信关注微信

猜你喜欢

微信公众号

微信公众号