手机版    二维码   标签云  厨具企业大全

有限数据量如何最大化提升模型效果?百度工程师构建数据增强服务

2024-06-10 02:58 来源: 作者/编辑: 浏览次数:4809 手机访问 使用手机“扫一扫”以下二维码,即可分享本文到“朋友圈”中。

在ai模型开发的过程中,许多开发者被不够充足的训练数据挡住了提升模型效果的脚步,一个拥有出色效果的深度学习模型,支撑它的通常是一个庞大的标注数据集。因此,提升模型效果的通用方法是增加数据的数量和多样性。但在实践中,收集数目庞大的高质量数据并不容易,在某些特定领域与应用场景甚至难以获取大量数据。那么如何能在有限数据的情况下提升模型的效果呢?

随着深度学习的发展,数据增强技术可以协助开发者解决这一问题。数据增强技术通过对数据本身进行一定程度的扰动从而产生“新”数据,模型通过不断学习大量的“新”数据来提升泛化能力。

不同数据集的数据特性决定了其所适用的数据增强策略组合,在没有对数据特性有专业理解能力的情况下,用户很难构建出能与数据集特性强相关的数据增强策略组合。比如在标准的imagenet数据预处理流程中有使用random crop (随机剪裁)、random flip (随机翻转)等数据增强技术,取得了不错的效果增益,但在某些特定用户场景(如零售场景sku抠图场景)数据边缘存在重要信息时random crop会导致信息的损失、在某些特定用户场景(如数字识别)时random flip会导致特征的混淆。因此如何根据数据特征来自动化搜索数据增强策略组合成为了一个热门的研究方向。

追溯学术界对自动数据增强领域的研究,最具影响力的一篇论文是google在2018年提出的autoaugment技术。随后,相关的优化论文层出不穷,简单梳理依据现有方法的一些建模思想,如图1。

图1自动数据增强算法建模思路归类

1)强化学习: autoaugment(autoaugment: learning augmentation policies from data)借鉴了基于强化学习的架构搜索算法,在离散化的搜索空间内通过ppo (proximal policy optimization)算法来训练一个policy generator, policy generator的奖励信号是其生成的policy应用于子网络训练完毕后的验证集准确率。其问题在于autoaugment的搜索成本非常高,还无法满足工业界的业务需求,难以应用在业务模型开发中。

2)密度匹配:fast autoaugment(fast autoaugment)采用了密度匹配的策略,希望验证数据通过数据增强后的数据点能与原始训练数据集的分布尽量匹配。这个思路直觉上可以排除一些导致数据集畸变的增强策略,但没有解决“如何寻找最优策略”这一问题。

3)遗传进化: pba(population based augmentation: efficient learning of augmentation policy schedules)采用了pbt的遗传进化策略,在多个网络的并发训练中不断“利用”和“扰动”网络的权重,以期获得最优的数据增强调度策略。这个思路直觉上是可以通过优胜劣汰来搜索到最优策略。

4)网格搜索: randaugment(randaugment: practical automated data augmentation with a reduced search space)通过统一的强度和概率参数来大幅减小搜索空间,期望能用网格搜索就解决数据增强搜索的问题。但这一技术并不具备策略的可解释性,抛开实现手段不谈,这篇论文更像是对autoaugment的自我否定(注: randaugment也是google出品的论文)。

5)对抗学习: adversarial autoaugment(adversarial autoaugment)在autoaugment的基础上借鉴了gan的对抗思想,让policy generator不断产生难样本,并且使policy generator和分类器能并行训练,降低了搜索时长。但整体搜索成本还是非常高。

6)可微分: dada(dada: differentiable automatic data augmentation)借鉴了darts的算法设计思路,将离散的参数空间通过gumbel-softmax重参数化成了可微分的参数优化问题,大大降低了搜索成本。

在上述的建模思路中,遗传进化和可微分的建模思路更适合应用到模型开发中,因为这两种思路将自动数据增强搜索的成本降低到了线上业务承受的资源范围内,并且具备较好的策略可解释性。基于对建模思路的评估和判断,百度工程师决定将遗传进化和可微分思路应用到零门槛ai开发平台easydl中,便于开发者进一步优化模型效果。

easydl面向企业开发者提供智能标注、模型训练、服务部署等全流程功能,针对ai模型开发过程中繁杂的工作,提供便捷高效的平台化解决方案,并且内置了丰富的预训练模型与优化的多种算法网络,用户可在少量业务数据上获得高精度的模型效果。easydl面向不同人群提供了经典版、专业版、行业版三种产品形态。

目前,遗传进化pba技术已经在easydl平台中的成功实现,可微分的技术思路在easydl业务中的实践也在持续探索中。

pba采用了pbt(population based training of neural networks)的遗传进化策略,通过训练一群神经网络(种群, trials)来找出超参数调度。trials之间会周期性地将高性能trial的权重复制给低性能的trial(exploit),并且会有一定的超参扰乱策略(explore),如图2的pbt流程图。

图2 pbt算法流程图

然而实际将能力落地到平台中并不容易,工程师们在复现论文开源代码的过程中发现了一些问题:

1)开源代码采用了ray的population based training实现,但这个接口并不能保证并行的trials一定能实现同步的exploit,尤其在资源受限的情况下,很大概率会出现进化程度较高的trial和进化程度较低的trial之间的exploit,这样的错误进化是不可接受的。

2)开源代码仅实现了单机多卡版本的搜索能力,想扩展到多机多卡能力,需要基于ray做二次开发。

3)开源代码仅实现了图像分类的自动数据增强搜索,并未提供物体检测等其他任务的数据增强搜索能力。

4)开源代码现有增强算子实现方式比较低效。

综合以上考虑,最终百度工程师从零开始构建了基于pba的自动数据增强搜索服务。

这一自研自动数据增强搜索服务有以下几个特点:

实现了标准的pbt算法,支持种群trials的同步exploit、explore,保证公平进化。

支持分布式拓展,可不受限的灵活调节并发种群数,支持。

搜索服务与任务解耦,已支持飞桨深度学习平台的图像分类、物体检测任务,并且可扩展到其他的视觉任务与文本任务。

数据增强算子基于c++高效实现。

自研的能力效果如何呢?在公开数据集上,我们基于自研的自动数据增强搜索服务与现有的benchmark进行了对齐,其中表一的imagenet benchmark(

来源:央广网

以上是网络信息转载,信息真实性自行斟酌。

 
本文标题:有限数据量如何最大化提升模型效果?百度工程师构建数据增强服务
本文网址:
版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

文本助手 资讯搜索 分享好友 打印本文 关闭窗口
  • 手机浏览本文

    手机应用中扫描本文二维码,即可浏览本文或分享到您的社交网络中。

  • 微信公众号

    扫描二维码,关注中华厨具网微信公众号,实时了解行业最新动态。

今日热点文章更多
品牌聚焦更多
推荐品牌更多
热门频道
关闭广告
合作伙伴:
中华厨具网 鲁ICP备2021046805号         鲁公网安备 37162502000363号 (c)2018-2026SYSTEM All Rights Reserved 投资有风险 加盟需谨慎
关闭广告
关闭广告