当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

AI 生成的图像太逼真，为什么不能拿来训练 AI 呢？

可别说，现在还真有人这么做了。

(资料图片)

来自香港大学、牛津大学和字节跳动的几名研究人员，决定尝试一下能否使用高质量 AI 合成图片，来提升图像分类模型的性能。

为了避免 AI 合成的图像过于单一、或是质量不稳定，他们还提出了几类提升数据多样性和可靠性的方法，帮助 AI 合成更好的数据集（来喂给 AI 的同类 doge）。

结果他们发现，不仅效果不错，有的 AI 在训练后，效果竟然比用真实数据训练还要好！

目前这篇论文已经被 ICLR 2023 收录。把 AI 生成的数据喂给 AI

作者们分别从零样本（zero-shot）、少样本（few-shot）图像分类、模型预训练（pre-training）与迁移学习三个进了探讨，并给出了提升数据多样性与可靠性的方法。

零样本图像分类

零样本（Zero-shot）图像分类任务，指没有任何标类别的训练图，只有对标类别的描述。

作者们先是提出了一种名为语言增强（Language Enhancement，LE）的法，用于增强合成数据多样性。

具体来说，这种方法会给标签 " 扩句 "，如果原标签是简单的 " 飞机 "，那么经过 " 扩句 " 后的提示词就会变成 " 一架盘旋在海滩和城市上空的白色飞机 "。

随后，还采用了一种叫做CLIP 过滤器（CLIP Filter）的法确保合成数据的可靠性，即过滤掉合成质量不行的图片，确保 AI 数据质量过硬。

在 17 个数据集上，相此前效果最好的 CLIP 模型，相关模型均获得了显著提升（4.31%/2.90%），展示了合成数据的有效性。

少样本图像分类

少样本图像（Few-shot）分类任务，通常仅有极少数量（1～16 张）的标类别图，与零样本任务的区别是增加了类别与任务特定领域信息。

因此，作者们决定将域内数据（in-domain）的知识于图像成，即将少量的标类别图于噪声叠加的初始状态（Real Guidance），进步发挥成模型的能，从而进步提升性能。

预训练与迁移学习

模型预训练（pre-training）任务，即将模型在量数据上进训练，将训练后的模型作为 " 起始点 "，来帮助提升下游任务的性能。

作者们利合成数据，对模型进了预训练，并对数据量、数据多样性程度、预训练模型结构和预训练法进了实验研究。

最终发现：

合成数据进预训练。已经可以达到甚超越真实数据预训练的效果。

更的数据量和数据多样性的合成数据，可以获得更好的预训练效果。

从模型结构和预训练法来看，ViT-based 模型（相比 convolutional-based 模型）、监督法（相比有监督法）会更适合合成数据下的预训练。

论文认为，利成模型产的合成数据来帮助图像分类任务是可行的，不过也存在定的局限性。

例如，如何处理特定任务的 domain gap 和数据多样性之间的 trade-off，以及如何更有效地利潜在穷量的合成图于预训练，都是需要进一步去解决的问题。

作者介绍

一作何睿飞，香港大学在读博士生 @CVMI Lab，指导老师为齐晓娟老师，本科毕业于浙江大学竺可桢学院，研究方向是 data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收计算机视觉与深度学习方向的博士生，感兴趣的伙伴可以直接 email 老师！

对于将 AI 合成图像用于预训练模型这件事，你还能想到更高效的方法吗？

欢迎感兴趣的小伙伴一起讨论 ~

论文地址：

https://arxiv.org/abs/2210.07574

项目地址：

https://github.com/CVMI-Lab/SyntheticData

* 本文系量子位获授权刊载，观点仅为作者所有。

— 完—

量子位 QbitAI

" " 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

当前热议!AI 自给自足！用合成数据做训练，效果比真实数据还好

8月8日是什么节日为什么降国旗_8月8日是什么节日 世界热文

厦门证监局积极推动行政执法与检察履职衔接|今日视点

今晚能看到真正的龙抬头是什么情况

14点快评：午后量能快速萎缩两市炸板率一度超50%|世界即时看

湖南省本级普通门诊统筹定点医疗机构名单 环球快播报

黄石鄂州两个“花湖”联手，共同开展市容秩序整治

今日最新！网页无法播放视频解决方法_网页无法播放视频解决方法是什么

诸葛亮事迹和成就简写_诸葛亮事迹和成就

世界观焦点：制药生产车间如何实施6S管理_生产车间6s管理实施方案

赵子琪个人资料_关于赵子琪的简介 今日视点

视讯！讲文明、评先进！郑州市二七区祥云路小学开展主题升旗仪式

ppsu_说一说ppsu的简介|当前最新

【全球时快讯】国内黄金价格今天多少一克（2023年2月20日）

环球微动态丨塔图姆55+10+10三分创纪录：首夺全明星MVP 让老詹成暴扣背景板

动态：A股异动|立华股份跌4.4%实控人之一致行动人拟减持不超5.98%股份

中汽协：10月汽车类零售额为3695亿元，同比增长3.9% 环球快资讯

看看湖人剩下的23场比赛，你还相信能进附加赛？

每日粮油：一号文件公布，未来我国玉米价格还会涨吗？

全球快消息！广州邮编白云区人和镇_广州邮编白云区

今日最新快报：名记麦克朗拯救了扣篮大赛 全明星扣篮大赛麦克朗夺冠3个50分惊艳全场

微电影《春来雁北归》在沈阳首映

“00后”挑大梁！“新农人”成农业生产主力军

国家能源保供重点工程吹响施工“冲锋号”|今日聚焦

4月23日美国撤回侨民疫情最新数据统计公布_环球简讯

2023中国互联网发展座谈会暨中国互联网协会新春茶话会在京召开

如何照顾哭泣的蓝色阿特拉斯雪松树-环球资讯

大象新闻客户端app下载安装方法_下载大象新闻客户端苹果

017期唐龙大乐透预测奖号：9+3小复式参考

全球报道:更衣人偶坠入爱河-喜多川海梦美图第十三期

【全球新视野】怎么查询手机号码归属地_怎么查询手机号码归属地详细地址

安庆地区工商行政管理志

天天热消息：英雄100金笔多少克_英雄100金笔

天天精选！白骑士

五项考古成果再次见证中华文明多元一体

iPhone 15 Pro谍照曝光：边框真得窄，用USB-C

上海首家残疾人友好书店：让残障人士感受“阅读之光”

深圳发布“极速先锋城市”行动计划 每日播报

账号申诉进度查询微信_账号申诉进度查询

亚光科技2月17日快速反弹 环球今亮点

海外华文媒体到访安徽省侨办|今日快看

【全球新要闻】大疆悟Inspire 3曝光：或3月发布、可录8K视频

中单安妮首登LCK联赛，LCS辅助安妮取得连胜|每日快讯

保障百姓民生的“最后一公里”，三部门联合印发这一重要通知_要闻速递

信息：资本原始积累的实质是_资本原始积累

绯染天空下载教程，红烧天堂Heaven Burns Red steam下载方法

焦点资讯：《狂飙》李有田踩离合快速变低速档能否避免刹车失灵导致的死亡？

世界微动态丨拉文：威少是未来名人堂，欢迎他加盟公牛

民航局：1月旅客运输量恢复至2019年同期74.5%

CDMA1X是什么意思 世界速看料

中国抛2108亿美债后,美国或将用黄金向中国偿债,77吨黄金运抵中国|焦点热议

清朝的第一个皇帝

世界微速讯：美国前驻联合国大使正式宣布将参加2024年总统选举

买房忌讳楼层 4 13 14 18 24-每日快报

假金缕玉衣_鉴定金缕玉衣的五个专家 天天新动态

去水印短视频解析_抖音短视频去水印解析-环球快报

【全球时快讯】初一早上可以洗澡吗,初一早上可以洗头发吗 年节风俗讲究大盘点

要闻：有车贷可以贷款买房子吗

倒计时2天！邀你来河南解析汉字密码

雅漾护肤品适合年龄

最新通知！这类人员医保可代缴 环球即时看

天天看点：零刻SER6 Pro VEST迷你主机：7735HS处理器，2398元入手

梦见自己变成鬼预示着什么

食堂防疫标语口号_食堂标语口号

视频｜韩建业：陇东南佐5000年前竟有水利工程

每日速读!大疫不过三年过三必人祸啥意思 新冠病毒源头是哪里

如何用郁金香颜料作画

环球今头条！02月15日从湖州出发到楚雄的防疫政策

弘业期货：夜盘延续走势，铁矿石短期内维持高位震荡

环球微速讯：醋柴胡的功效与作用及用法

第六届全球可持续科技和创新大会举行

盐焗鸡的正宗做法_盐焗鸡的做法步骤

吉列哪种剃须刀最好_吉列手动剃须刀哪款最好用-全球消息

米兰敕令的意义是什么-世界微资讯

“我20多岁不会坐高铁，很丢人吗？”-世界资讯

2022白露节气一般吃什么食物_白露节气美食大全_当前通讯

老婆最想要的16种礼物

【地评线】彩云网评：多方驱动消弭隐性歧视

校园生活作文 全球讯息

8月8日是什么节日为什么降国旗_8月8日是什么节日世界热文

湖南省本级普通门诊统筹定点医疗机构名单环球快播报

赵子琪个人资料_关于赵子琪的简介今日视点

今日最新快报：名记麦克朗拯救了扣篮大赛全明星扣篮大赛麦克朗夺冠3个50分惊艳全场

深圳发布“极速先锋城市”行动计划每日播报

亚光科技2月17日快速反弹环球今亮点

CDMA1X是什么意思世界速看料

假金缕玉衣_鉴定金缕玉衣的五个专家天天新动态

【全球时快讯】初一早上可以洗澡吗,初一早上可以洗头发吗年节风俗讲究大盘点

最新通知！这类人员医保可代缴环球即时看

每日速读!大疫不过三年过三必人祸啥意思新冠病毒源头是哪里

校园生活作文全球讯息

东城爱家·敬老杯职业技能大赛落幕选手有望获职业技能等级认定_焦点简讯

新乡医学院三全学院贴吧_新乡医学院三全贴吧|今日讯

工作态度不认真检讨书全球实时

世界热消息：北京简化异地就医备案流程开通线上自助服务

老年人生日送啥礼物_老年人生日礼物送什么好微速讯

怀旧服达隆郡的掠夺者_达隆郡的掠夺者后续环球观焦点

巧用涨跌柱，制作总分柱形图，适合年终数据展示，让人眼前一亮每日关注

误惹妖孽王爷废材逆天四小姐最新更新_误惹妖孽王爷废材逆天四小姐免费下载天天信息

每日资讯：黑头发剪什么发型好看黑头发发型

航宇科技收问询函：要求说明与发行对象是否存在关联关系或其他借贷共同投资关系

焦点报道:冷战是什么意思_冷暴力是什么意思

2022年新年祝福图片虎年新年祝福图片大全

一文了解：交30年养老保险怎么算养老金的呢？全球今日讯

当前聚焦：我国古代四大美女之一的西施姓什么西施有什么美誉

绩效考核全自动分析Excel模板，帮你自动分析部门绩效、员工绩效焦点短讯