ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?

选自arXiv

作者:Hieu Pham、Quoc Le等机器之心编译
机器之心编辑部

Quoc Le:我原本以为 ImageNet 的 top-1 准确率 85% 就到头了,现在看来,这个上限难以预测。


近日,谷歌大脑研究科学家、AutoML 鼻祖 Quoc Le 发文表示,他们提出了一种新的半监督学习方法,可以将模型在 ImageNet 上的 top-1 准确率提升到 90.2%,与之前的 SOTA 相比实现了 1.6% 的性能提升。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


这一成果刷新了 Quoc Le 对于 ImageNet 的看法。2016 年左右,他认为深度学习模型在 ImageNet 上的 top-1 准确率上限是 85%,但随着这一数字被多个模型不断刷新,Quoc Le 也开始对该领域的最新研究抱有更多期待。而此次 90.2% 的新纪录更是让他相信:ImageNet 的 top-1 还有很大空间

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


Quoc Le 介绍称,为了实现这一结果,他们使用了一种名为「元伪标签(Meta Pseudo Label)」的半监督学习方法来训练 EfficientNet-L2。
和伪标签(Pseudo Label)方法类似,元伪标签方法有一个用来在未标注数据上生成伪标签并教授学生网络的教师网络。然而,与教师网络固定的伪标签方法相比,元伪标签方法有一个从学生网络到教师网络的反馈循环,其教师网络可以根据学生网络在标记数据集上的表现进行调整,即教师和学生同时接受训练,并在这一过程中互相教授。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


这篇有关元伪标签的论文最早提交于 2020 年 3 月,最近又放出了最新版本。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


  • 论文链接:https://arxiv.org/pdf/2003.10580.pdf

  • 代码链接:https://github.com/google-research/google-research/tree/master/meta_pseudo_labels


在新版本中,研究者针对元伪标签方法进行了实验,用 ImageNet 数据集作为标记数据,JFT-300M 作为未标记数据。他们利用元伪标签方法训练了一对 EfficientNet-L2 网络,其中一个作为教师网络,另一个作为学生网络。最终,他们得到的学生模型在 ImageNet ILSVRC 2012 验证集上实现了 90.2% 的 top-1 准确率,比之前的 SOTA 方法提升了 1.6 个百分点(此前 ImageNet 上 top-1 的 SOTA 是由谷歌提出的 EfficientNet-L2-NoisyStudent + SAM(88.6%)和 ViT(88.55%))。这个学生模型还可以泛化至 ImageNet-ReaL 测试集,如下表 1 所示。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


在 CIFAR10-4K、SVHN-1K 和 ImageNet-10% 上使用标准 ResNet 模型进行的小规模半监督学习实验也表明,元伪标签方法的性能优于最近提出的一系列其他方法,如 FixMatch 和无监督数据增强。
论文作者还表示,他们之所以在方法的命名中采用「meta」这个词,是因为他们让教师网络根据学生网络反馈进行更新的方法是基于双层优化问题(bi-level optimization problem),而该问题经常出现在元学习的相关文献中。
不过,这篇论文也受到了一些质疑,比如使用的数据集 JFT-300M 是未开源的数据集(不知道该数据集中有没有和 ImageNet 测试集相似的图片),导致外部人士很难判断其真正的含金量。
为什么要改进「伪标签」方法?
伪标签或自训练方法已经成功地应用于许多计算机视觉任务,如图像分类、目标检测、语义分割等。伪标签方法有一对网络:一个教师网络,一个学生网络。教师网络基于无标签图像生成伪标签,这些被「伪标注」的图像与标注图像结合,用来训练学生网络。由于使用了大量的伪标签数据和数据增强等正则化方法,学生网络通过学习可以超越教师网络。
尽管伪标签方法性能优越,但它也有一个很大的缺陷:如果伪标签不准确,学生网络就要从不准确的数据中学习。因此,最后训练出的学生网络未必比教师网络强多少。这一缺陷也被称为伪标记的确认偏差(confirmation bias)问题。
为了解决这一问题,Quoc Le 等人设计了系统的机制,让教师网络通过观察其伪标签对学生网络的影响来纠正上述偏差。确切地说,他们提出了元伪标签方法,利用来自学生网络的反馈为教师网络提供信息,促使其生成更好的伪标签。反馈信号是学生网络在标记数据上的表现。在学生网络的学习过程中,该反馈信号被用作训练教师网络的一种奖励。
怎么改进「伪标签」方法
伪标签方法和元伪标签方法的区别如下图 1 所示。可以看出,元伪标签方法多了一个关于学生网络表现的反馈。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


符号解释
在论文中,T 和 S 分别表示教师网络和学生网络,它们的参数分别记为θ_T 和 θ_S。用 (x_l , y_l) 表示一批图像和图像对应的标签,x_u 表示一批未标记数据。此外,T(x_u; θ_T )表示教师网络对于 x_u 的软预测(soft predictions),学生网络同理。CE(q, p)表示 q 和 p 两个分布之间的交叉熵损失。如果 q 是一个标签,它会被理解为一个 one-hot 分布;如果 q 和 p 有多个实例,那么 CE(q, p)就是 batch 中所有实例的平均。
把伪标签看成一个优化问题
在介绍元伪标签之前,先来回顾一下伪标签。具体来说,伪标签(PL)方法会训练学生模型来最小化其在未标记数据上的交叉熵损失:
ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?
在上面的公式中,伪目标 T(x_u; θ_T )由一个训练良好、参数θ_T 固定的教师模型生成。给定一个优秀的教师模型,伪标签方法的愿景是让最终得到的ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?在未标记数据上损失很低,即

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


在伪标签的框架下,最优学生参数ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?总是通过伪目标ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?依赖于教师参数θ_T。为了便于讨论元伪标签,我们可以将该依赖表示为ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?
作为一个即时的观察,学生网络在标记数据上的最终损失ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?也是θ_T 的「函数」。因此,我们可以进一步优化与θ_T 相关的 L_1

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


直观上来看,根据学生网络在标记数据上的表现优化教师网络参数之后,我们就能对伪标签作出相应调整,从而提高学生网络的性能。但需要注意的是,ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?在θ_T 上的依赖非常复杂,因此计算梯度ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?需要展开整个学生网络训练过程(即ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?)。
实际近似
为了让元伪标签方法变得可行,研究者借用了前人在元学习方面的一些工作,利用θ_S 的一步梯度更新近似多步ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


其中,η_S 是学习率。将这个近似代入式(2)的优化问题中,就得到了元伪标签中的实际教师网络目标:

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


注意,如果软伪标签得到了应用,即 T(x_u; θ_T )是教师网络预测出的完整分布(full distribution),上述目标就是关于θ_T 完全可微的(fully differentiable),我们就能通过标准反向传播得到梯度。然而,在这篇论文中,研究者从教师网络分布中采样硬伪标签。因此,他们用了一个略作修改的 REINFORCE 版本来得到式(3)中 L_1 关于θ_T 的梯度。
另一方面,学生网络的训练还依赖于式(1)中的目标,只是教师网络的参数不再是固定的。相反,由于教师网络的优化,θ_T 一直在发生变化。更加有趣的是,学生网络参数的更新可以在教师网络目标的一步近似中重用,这自然会在学生网络更新和教师网络更新之间产生一个交替的优化过程。
学生网络:吸收一批未标记数据 x_u,然后从教师网络的预测中采样 T(x_u; θ_T ),接下来用 SGD 优化目标 1

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


教师网络:吸收一批标记数据(x_l , y_l),「重用」学生网络的更新,从而用 SGD 优化目标 3:

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


教师网络的辅助损失(auxiliary losses)
通过实验,研究者发现,元伪标签方法自己就能运行良好。当然,如果教师网络与其他辅助目标(auxiliary objective)联合训练,效果会更好。因此,在实现过程中,研究者用一个监督学习目标和一个半监督学习目标增强了教师网络的训练。对于监督学习目标,他们在标记数据上训练教师网络。对于半监督学习目标,他们使用 UDA 在未标记数据上训练教师网络。
最后,由于元伪标签方法中的学生网络只从带有伪标签的未标记数据中学习,我们可以在学生网络训练至收敛后借助标记数据对其进行微调,以提高其准略率。
实验结果
小规模实验
这部分展示了小规模实验的结果。首先,研究者借助简单的 TwoMoon 数据集测了一下「反馈」在元伪标签方法中的重要性,结果如下图 2 所示。从中可以看出,在 TwoMoon 数据集上,元伪标签方法(右)比监督学习方法(左)和伪标签方法(中)的表现都要好。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


接下来,他们又将元伪标签方法与之前的 SOTA 半监督学习方法进行了对比,使用的基准包括 CIFAR-10-4K、SVHN-1K、ImageNet-10% 等,结果如下表 2 所示:

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


最后,他们使用完整的 ImageNet 数据集在标准的 ResNet-50 架构上进行了实验,结果如下表3所示:

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


大规模实验
这部分展示了大规模实验(大模型、大数据集)的结果。研究者使用了 EfficientNet-L2 架构,因为该架构的容量比 ResNet 大。Noisy Student 也用到了 EfficientNet-L2,在 ImageNet 上达到了 88.4% 的 top-1 准确率。
这部分的实验结果如下表 4 所示。从中可以看出,元伪标签方法以 90.2% 的准确率成为了 ImageNet top-1 的新 SOTA。

ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?


AAAI 2021线上分享 |基于带约束深度强化学习实现无序混合码垛机器人在国防科技大学被AAAI 2021接收的论文《Online 3D Bin Packing with Constrained Deep Reinforcement Learning 》中,研究者提出基于深度强化学习(DRL)算法求解 Online 3D-BPP 问题,不仅提出了一种基于同策略 Actor-Critic 框架的「预测 - 投影」带约束策略学习方法,而且设计了一个性能远超同类型机器人的高效能无序混合码垛机器人。
今晚20:00,论文通讯作者、国防科技大学教授徐凯为大家详细解读此前沿研究。添加机器之心小助手(syncedai5),备注「AAAI」,进群一起看直播。ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人怎么信服?

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

上一篇:南明区开展互联网领域失信问题治理行动
下一篇:智能音箱市场变天!智能家居C位要易主?

相关推荐

大学生故意将核酸结果改为“阳性”,原因令人无语!

大学生故意将核酸结果改为“阳性”,原因令人无语!

1539 大话校园

↑↑↑点击蓝字关注我们,了解大学生活。据“阳泉网警”微信公众号1月16日消息,2021年1月15日晚,山西阳泉市盂县微信朋友圈中出现一张核酸检测呈阳性的《检测报告单》图片。当地公安机关巡查发现后,迅速会同卫健部门连夜展开核查工作。经调查,在外地上大学的违法嫌疑人张某龙(男,19岁,盂县人)近日放寒假回盂后,做了核酸检测,结果为阴性。为与同学开玩笑,张某龙用P

这么好用的思维导图工具,简直是教师的福音!推荐给各位老师们,值得收藏!

483 数学好教师

说起思维导图,老师们一定不陌生!可能有些老师说,不知道什么是思维导图,但其实课堂上、备课时都在使用思维导图,没准儿还用得特别溜,这个画知识结构,那个画文章分析,都不在话下。作为老师,你是否经常遇到以下的情况:1.学生知识点总是记不住,记得快,忘得也快;2.部分知识点抽象难表达,学生听不懂,接收知识缓慢;3.课堂教学效率低下,学生之间差异大;......当你面

停课封校!多名老师、学生确诊!!最担心的事情正在发生……

停课封校!多名老师、学生确诊!!最担心的事情正在发生……

267 中小学家长手册

多名老师、学生确诊!停课封校!1100万人全员检测这几天河北的新增本土病例牵动着全国人民的心。据河北省卫健委消息,1月7日0—24时,河北省新增33例本地新型冠状病毒肺炎确诊病例,其中石家庄市报告31例(1例为无症状感染者转为确诊病例),邢台市报告2例(1例为无症状感染者转为确诊病例)。无新增死亡病例,无新增疑似病例。1月7日0—24时,河北省新增39例本地

首批电竞专业学生即将毕业 校方称人才需求庞大

首批电竞专业学生即将毕业 校方称人才需求庞大

157 网游圈里的那些事

2017年有多所高校开设电竞相关专业,今年第一批相关专业的学生们即将毕业,大学四年里,学生除了要掌握理论知识和专业技能,还要涉猎各种知识,其中涵盖了用户体验分析、游戏编程、游戏测评、游戏分析等,另外在采访视频中,院方校长表示电竞行业最为新兴职业,产业对于人才的需求量较大,但压力仍然不言而喻。现有开设电竞专业的本科院校中有:中国传媒大学,上海体育学院、天津体育

新房装修她把家里堆满“破烂”,家里装成赤贫风,没想到爆红网络

新房装修她把家里堆满“破烂”,家里装成赤贫风,没想到爆红网络

446 九福家居装修

点击蓝字关注我们现在的装修风格越来越多,可以说让人挑花了眼。近期“赤贫风”突然大火,本期的屋主就是一个赤贫风爱好者,把收集的一些旧物都放在家里,在别人看来可能是一堆“破烂”,但是完工之后的效果可以说是特别惊艳了。大家一起来看看~[玄关]玄关是估计做旧的,摆了一个矮柜,平时的一些日常摆设和装饰物都是放在这边,矮柜旁边还装了一个全身镜,整理仪容也很方便。[客厅]

包车送2.5万大学生!凌晨4点,高校这一幕暖心泪目

包车送2.5万大学生!凌晨4点,高校这一幕暖心泪目

246 中国青年报

导读“放心,肯定让你们到家”,“再见,一路平安”!高校将包车约600车次,为近25000名在校生送站!受大连疫情影响,1个多月前,大连理工大学升级校园封闭管理举措。如今,随着学校周边中风险社区解封并降低风险等级,大连理工大学寒假开启,学生开始有序错峰离校。18日-20日,学校将安排点对点包车送站,分批次将近25000名在校生送往机场、火车站、港口等交通口岸,

第六大联赛Vol. 14 学校为何不让学生踢球?如何充分利用中国闲置的足球场?

第六大联赛Vol. 14 学校为何不让学生踢球?如何充分利用中国闲置的足球场?

99 颜强

分析中国草根足球现状,分享你踢野球的故事,可以带给我们哪些深思?中国草根足球之路该何去何从?本期节目,颜强、吕健中和肆客记者团从自身经历出发,探讨了中国的平民足球和草根足球,你也可以在评论区分享你所知道的草根足球圣地,让更多足球爱好者参与进来。03'50"[校园球场]为什么学校球场都不让踢球?04'48"[踢球]你2020年踢球了吗?分享你去年踢球的故事。0

文末好礼|即将发布:《中小企业网络安全报告》

文末好礼|即将发布:《中小企业网络安全报告》

1074 E安全

E安全1月18日讯在欧盟网络安全机构即将发布的《中小企业网络安全报告》中,该机构召集了欧洲企业、机构和协会,分享他们对中小企业在面临高度威胁时所面临的主要挑战的看法。1ENISA:中小企业在线研讨会2020年11月17日,欧盟网络安全署(ENISA)为欧洲中小企业组织了一次在线研讨会,分享他们在应对新冠病毒相关网络安全挑战时努力增强弹性的第一手经验。与会者还

私房话

“他最近抑郁了?原来只是出轨了。”|恋爱里的小丑竟是我自己。

324 曲玮玮

我发现了一个规律,女生总是喜欢在爱情里自我感动。为什么很多女孩明明被渣却不自知,还沉浸于自己编造的甜蜜爱情里?就是因为她们的脑补能力太强,有着莫名其妙的同情心,和异常强大的同理心。男朋友犯了某个错误,正在想道歉理由时,女生已非常懂事的为他找好了借口。然后自我感动到:“唉,我真是太善解人意了,他一定会更爱我的吧?”女生啊,有时候一个人就可以完成一场恋爱,她们就

私房话

真的,谈恋爱哪有杀老公好看

1019 八卦电影

大雨,深夜,一个男人跌跌撞撞走在街头。他不断摔倒在地上,身上带着血,满身都是泥污。他喃喃自语,见人就说——帮帮我,帮我杀了我妻子吧!不管你要多少钱,我都愿意!旁边的人觉得这就是个疯子,都不予以理会。看到没人理会,这个男人疯狂地大声喊,“救救我!怎么才能杀了我妻子.....”什么样的深仇大恨,让他做出这么变态的选择?《出轨的话就死定了》2020年开头出现的这个

私房话

我的2020年终总结,全在这些表情包里了

1511 每日豆瓣

我的工作我的思绪我的想法收到工资前的我收到工资后的我从前面对傻缺甲方的我现在面对傻缺甲方的我我的副业我的生活我的学习我的考试我的年度计划完成情况我的周末我的运动我的身材我的脸皮我的头发我的运气我的性格我的友情我的爱情我的技能我的心态我的假期从前和别人吵架的我现在和别人吵架的我我的饭量网购前的我网购后的我从前爸妈叫我相亲现在爸妈叫我相亲我向往的生活我真实的生活

私房话

不管夫妻还是情人,关系再好,也不要伸手要这三样东西!

1811 商界管理圈子

阅读本文前,请您先点击本文标题下面的蓝色字体“商界管理圈子”再点击“关注”,这样你就可以继续免费收到文章了,每天早上7:00准时分享,请放心关注.............................................在感情的世界里,伸手要和主动给,完全是两回事。如果一个人真的爱你,无需你开口,对方就会主动给你。倘若你开口提了,伸手要了,意义

私房话

人到中年,遇上灵魂伴侣,是劫不是缘

1451 阅世悦人

来源|精彩女人(ID:jcnv365)文|十七朵呀草在结他的种子,风在摇他的叶子,我们站着,不说话,就很美好。我们来这世上走一遭,如果能遇到一个心意相通,相知相爱的伴侣相守一生,是一件非常幸福的事。关于灵魂伴侣,每个人在单身的时候都曾有过美好的幻想。然而,有太多人误解了灵魂伴侣的真正含义。多少人得陇望蜀,缘木求鱼,到最后也没有好好珍惜已经得到的,却一辈子都对

私房话

“不结婚就死给你看!”30岁女子遭母亲逼婚,生完孩子后她母亲后悔了……丨天亮说早安

1733 湖北经视

朱军今年37岁,妻子刘艳30岁两人在今年年初奉子成婚刘艳怀胎十月剖腹产生下了女儿女儿现在已经三个多月了然而两人从相识到现在一年多的时间真正在一起生活的日子不过两个多月更不正常的是有了婚礼,有了孩子妻子却不愿领证不愿回两人的家妻子刘艳说举行婚礼前恰逢他的生日正好可以领取结婚证成为结婚纪念日可是朱军却提出日子要有父母决定拒绝了刘艳的提议之后又因诸多巧合一直拖到了

私房话

爸,你早就不爱我妈了吧?

1785 青年文摘

点击上方蓝字“青年文摘”右上角“...”点选“设为星标”添加★标不再错过推送每天8点12点20点不见不散~作者:关山月来源:凯叔讲故事ID:kaishujianggushi我一直相信一句话:教育永远是从生活中习得的。最好的教育,是父母相爱;最好的家庭,是不断成长。爸,你早就不爱我妈了吧?如果孩子问你,你怎么回答?当然爱啊,要不然怎么会有你。小孩子懂什么,一边

私房话

够了,别再劝我“降低标准”了。

287 一个人Alone

很多事情凑合一下就行了你都三十岁了要求别那么高学会降低标准才是聪明人的做法......可是降低标准不就等于否定过去的自己吗?够了别再劝我降低标准了我发现,新世纪的“离谱”就是,亲戚给你介绍的对象,别说你不喜欢了,你甚至会产生世纪迷思——“在他们眼里,我真的就只配这样了吗?”比如说,我月薪好几万的朋友,被介绍了一个工作稳定薪资稳定的月入三千的男人,还被说你是打

私房话

晚安 | 感情的最高境界就是守候彼此的孤独

1263 深夜谈吃

晚安|第一千七百六十八夜来自佚名▲长按图片,保存你的晚安音乐选歌:Sake推荐理由:听听歌,早点睡。睡前谈心「感情的最高境界就是守候彼此的孤独」▼这一年就快要过去了这两天在规划着跨年的事情时想起有一年我去迷笛的音乐节一边对深夜的稿子一边摇头晃脑一晃眼时代变得面目全非,我也成长了好多能跟我分享一下你们2020年的感受么最深刻的感悟或者最难忘的记忆都可以说多长都