登录 注册
当前位置:米夏资讯>娱乐>正文

k8凯发真人娱乐手机官方网站_字节跳动实习生提出实例分割新方法:性能超过何恺明Mask R-CNN

来源:米夏资讯 2020-01-11 16:34:17

k8凯发真人娱乐手机官方网站_字节跳动实习生提出实例分割新方法:性能超过何恺明Mask R-CNN

k8凯发真人娱乐手机官方网站,乾明 十三 发自 凹非寺量子位 报道 | 公众号 qbitai

框架更简单,但实现了比mask r-cnn还好的性能。

这是字节跳动实习生提出的实例分割新方法,名为solo。

核心在于通过引入“实例类别”的概念,把实例分割问题转化为分类问题。

与mask r-cnn相比,架构更加简单,是一种单阶段实例分割的方法:

但在性能上却强得多。

coco数据集上的实验结果显示,solo的效果普遍超过此前的单阶段实例分割主流方法,在一些指标上还超过了增强版的mask r-cnn。

这一论文发布之后,也引起了业内人士的关注,并赢得了不少点赞。

有人评价称:“这是一篇非常好的工作,不仅实现了single stage,精度也非常高……这些position variance的特性,一定会在物体检测与实体分割带来新的突破。本文则是一个非常好的尝试。”

也有人评价称:“我接触到的(我接触到的可能并不多)真正意义上的效果比较不错的实例分割单阶段方法。”

总之,新颖简洁的框架,称得上突破性的工作。他们具体如何实现的?我们下面一一解读。

以往的实例分割方法主要分为两种,即自上而下和自下而上的范例。

但是这两种方法,要么严重依赖精确的边界框检测,要么依赖每个像素的嵌入学习和分组处理。

那么,是否存在一种方法,可以绕过这些条条框框来做实例分割呢?

这项研究其实是类比了语义分割的方法。

语义分割就是一个逐像素的语义类别分类任务。

那么实例分割就可以类比为,逐像素的实例类别分类。

也就是预测每个像素所在的物体的实例类别。

而在图片中,物体的位置和形状就是用来区分实例的属性。

因此,根据量化中心位置和对象大小,就可以简单粗暴的做实例分割。

方法故取名为solo: segmenting objects by locations。

先来看下solo的惊人效果。

solo使用随机梯度下降(sgd)进行训练,在8个gpu上使用同步的sgd,每个小批(mini-batch)处理总共有16张图片(每个gpu 2张)。

实验所采用的是coco数据集。

无论与两阶段模型还是单阶段模型相比,solo方法都取得了最好的实验效果。

上图便展示了solo的效果。

每一列上方的图片是实例分割的结果,可以看出图片中对象分割出来的效果还是非常精确的。

每一列的下方是对应的掩码激活图(mask activation map)。

上图展示了solo方法在实例轮廓检测的效果。

每张图中,不同实例的轮廓用不同的颜色来标记。

这也证明了,solo不仅能够用来做实例分割,在实例轮廓检测任务中,效果也是不错的。

solo方法的核心思想就是:

将实例分割问题重新定义为类别感知预测问题和实例感知掩码生成问题。

具体而言,就是将输入系统的图像统一划分为s x s的网格。

如果对象的中心落入网格单元,那么这个网格单元就负责预测语义类别以及分割该对象实例。

上图便是solo的框架流程图。

不难看出,重点在于语义类别(semantic category)和实例掩码(instance mask)这两个步骤。

在语义类别过程中,对于每个网格,solo都会预测c维输出,用来表示语义类的概率。

其中,c是类的数量。

这些概率取决于网格单元,如果将输入图像划分为s×s网格,则输出空间将为s×s×c。

值得注意的是,这里假设s×s网格的每个单元必须属于一个单独的实例,也就是只属于一个语义类别。

推理期间,c维输出指示每个对象实例的类概率。

在语义类别预测的同时,solo还并行地生成相应的实例掩码。

对于一个输入图像i,如果将其划分为s×s网格,则总共最多有s2个预测掩码。

具体来说,实例掩码输出的维数是hi×wi×s2。

第k个通道负责对网格(i, j)上的实例进行分割,其中,k=i·s+j。

因此,在语义类别和与类无关的掩码之间,就建立了一对一的对应关系。

这一研究成果共有5位作者,分别来自字节跳动人工智能实验室和阿德莱德大学。

一作名为王鑫龙,2018年毕业于同济大学,是阿德莱德大学在读博士生,师从沈春华教授(通讯作者)。

2019年4月,进入字节跳动实习,完成了这一研究。此前也曾在旷视和腾讯优图实验室实习2018年至今,一共有3篇论文被cvpr、aaai等顶会收录。

研究共同一作是字节跳动研究科学家孔涛。博士毕业于清华大学,师从孙富春教授。

过去3年在cvpr、aaai、eccv等顶级会议和杂志上署名发表论文近10篇。

其他两位作者,也都来自字节跳动人工智能实验室。

关于solo的名字,因为与yolo很像,也引起了不少讨论。

论文一作王鑫龙在知乎上进行了回应:

虽然我们不是受yolo启发,但确实有致敬的意思。

并分享了joseph redmon在yolov3里的一句话:

boxes are stupid anyway though, i’m probably a true believer in masks except i can’t get yolo to learn them.

最后,如果你对这一研究感兴趣,请收好传送门~

论文地址:https://arxiv.org/abs/1912.04488

— 完 —

量子位 qbitai · 头条号签约

关注我们,第一时间获知前沿科技动态

上一篇: “石马”周日开跑,沿线公交调整,交通管制
下一篇: 今日头条和腾讯都报案了 黑公关对企业伤害有多大?
相关推荐:
笑颜逐开春暖花开的感觉 2020-01-01 20:17:51
精选推荐
  • 京东11.11开启反向定制狂欢盛典 全面覆盖带电品类与消费品
  • 再有重要职务,十九大后赵克志3次履新
  • 4月25日在售高收益银行理财产品一览
  • 怼粉一时爽…
  • 郑智出任恒大新帅,或做出首个重大调整,曾诚将因此沦为替补?
  • 民族武术——男子传统软器械比赛赛况
  • 油市的冰与火
  • 京沪高铁有多富?每天狂赚3500万,基层员工年薪28万
  • 这支乐队27年无新作面世 其传记影片却全球最卖座
  • 中秋假期多省份暗访查这事 军委纪委节前也有部署
  • 最热推荐
    2019款传祺GS3 1.5L车型上市 售7.38-8.88万元 2019款传祺GS3 1.5L车型上市 售7.38-8.88万元
    老将回归!贾吉尔卡成本赛季英超年纪最大的首发球员 老将回归!贾吉尔卡成本赛季英超年纪最大的首发球员
    成功的着舰是一样的,失败的着舰各有各的失败 成功的着舰是一样的,失败的着舰各有各的失败
    2019政协工作回眸丨扶持科创微企发展政策门槛高“一站式”服务模式助力企业成长 2019政协工作回眸丨扶持科创微企发展政策门槛高“一站式”服务模式助力企业成长
    明天,解放碑有大事发生! 明天,解放碑有大事发生!
    狗狗辅导孩子写作业?中年老母已经有“外援”了 狗狗辅导孩子写作业?中年老母已经有“外援”了
    “疾”是外来的箭,“病”是心生的鬼 “疾”是外来的箭,“病”是心生的鬼
    选得好和买得巧 哪个重要? 选得好和买得巧 哪个重要?
    健身就要埋头干,不要迷信意志力,健身高估毅力的人都输的很惨 健身就要埋头干,不要迷信意志力,健身高估毅力的人都输的很惨
    张作霖的驭人之术:没错的秘书被免职,贪污的旅长被重用 张作霖的驭人之术:没错的秘书被免职,贪污的旅长被重用

    版权声明 | 关于我们 | 联系我们 | 广告服务 | 网站地图 | 回到顶部

    米夏资讯版权所有Copyright 1998 - 2019 All Rights Reserved