首页 微博热点正文

木槿花,关于弱监督学习,这可能是现在最翔实的一篇科普文,韩元汇率

AI 科技谈论按:跟着人工智能技能的研讨迈过了初期的粗野成长,走进深水区。怎么充沛运用人工标示信息、减小标示作业量、将人类经历与学习规矩充沛结合成为了急需处理的要害问题!本文结合斯坦福 AI 实验室在弱监督学习范畴的研讨发展、效果以及相关考虑,就弱监督学习的理论办法、标示东西、研讨发展三个方面打开评论。

近年来,机器学习对实践国际的影响日积月累。在很大程度上,这是因为各式各样的深度学习模型的呈现,使得从业人员可以在不需求任何手动操作特征工程的状况下,就可以在比照基准数据集上取得现在最佳分数。现在咱们可以运用像 TensorFlow 和 PyTorch 这样的各类开源机器学习结构,以及许多可用的最先进的模型,可以说,高质量的机器学习模型现在简直成为了一种可商品化的资源。可是,这儿还存在一个简略被忽视的问题:这些模型依靠于许多手动标示的练习数据。

可是在许多使命中,这些手动符号的练习集创立起来既贵重又耗时 ,一般需求花费许多人数月或许数年的成原本进行数据的搜集、整理和调试 —— 尤其是在需求范畴专业常识的状况下。除此之外,使命常常会在木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率实践国际中发生改变和演化。例如,数据标示攻略、标示的粒度或下流的用例都常常会发生改变,需求从头进行符号(例如,不只要将谈论分类为正类或负类,还要引进一个中性类别)。可见,因为数据标示需求支付昂扬价值,这种强监督信息是很难取得的。因而,研讨者们面临急需处理的数据标示问题,整合了现有的主动学习、半监督学习等研讨效果,提出了「弱监督学习」概念,旨在研讨经过较弱的监督信号来构建猜测模型。

弱监督学习理论

弱监督一般分为三种类型:不彻底监督、不切当监督、不精确监督。

(1)不彻底监督,指的是练习数据只要部分是带有标签的,一同许多数据是没有被标示过的。这是最常见的因为标示本钱过高而导致无法取得彻底的强监督信号的状况,例如,延聘范畴专家直接给许多数据增加标签的本钱就适当高。别的,在为医学影像研讨构建大型数据集时,放射科医师可不会承受一点小恩小惠就愿意为你符号数据。并且依据笔者的经历,因为医师关于数据科学的了解往往不行深化,有许多数据的标示成果(例如为切割使命框定的病灶概括锦程网学生登录)是无法运用的,然后发生了许多实践上短少有用符号的练习样本。该问题可以被形木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率式化表达为:

在练习数据为 D 哈幼专= {(x_1, y_1), …, (x_l, 木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率y_l), x_{l+1}, …, x_m},其间 l 个数据有标签、u=m-l 个数据无标签的状况下,练习得到 f:x->y。

在许多针对不彻底监督环境开发的机器学习范式中,主动学习、半监督学习、搬迁学习是三种最盛行的学习范式。

  • 主动学习(active learning):它假定未标示数据的真值标签可以向人类专家查询,让专家为估量模型最有价值的数据点打上标签(更详细的介绍请参阅:Settles 等人于 2012 年宣布的综身价牌述文章)。在咱们只考虑用查询次数衡量标出本钱的状况下,主动坏青梅学习的方针是在进步查询功率,在查询次数尽或许小的状况下,使得练习出的模型功用最好。因而,主动学习需求挑选出最有价值的未标示数据来查询人类专家。

    而在衡量查询样本的价值时,有两个被最广泛运用的规范:信息量和代表性。信息量衡量的是一个未标示数据可以在多大程度上下降计算模型的不确定性,而代表性则衡量一个样本在多大程度上能代表模型的输入散布。这两种办法都有其显着的缺陷。依据信息量的衡量办法包含不确定性抽样和投票查询,其首要的缺陷是在树立挑选查询样本所需的初始模型时,严峻依靠于对数据的标示,而当表述样本量较小时,学习功用一般不稳定。给予代表性的办法,首要缺陷在于其功用严峻依靠于未标示数据操控的聚类成果。现在,研讨者测验将这两种办法结合起来,互为弥补。举例来说,咱们可以挑选处于当时模型决议计划鸿沟邻近的乳房 X 线相片,并要求放射科医师仅给这些相片进行符号。可是,咱们也可以要求仅仅对这些数据点进行较弱的监督,在这种状况下,主动学习是关于弱监督学习的完美弥补;更详细的比方可以参阅 (Druck, settle, 和 McCallum 于2009 宣布的论文)。

  • 半监督学习(semi-supervised learning):与主动学习不同,半监督学习是一种在没有人类专家参加的状况下对未标示数据加以分析、运用的学习范式。一般,尽管未标示的样本没有清晰的标签信息,可是其数据的散布特征与已标示样本的散布往往是相关的,这样的计算特性关于猜测模型是十分有用的。

    实践上,半小玲建军监督学习关于数据的散布有两种假定:聚类假定和流形假定。

前者假定数据具有内涵的聚类结构,因而,落入同一个聚类的样本类别相同。后者假定数据散布在一个流形上,在流形上附近的样本具有类似的猜测成果。可见,两个假定的实质都是类似的数据输入应该有类似的输出。因而,怎么更好地衡量样本点之间的类似性,怎么运用这种类似性协助模型进行猜测,是半监督学习的要害。半监督学习的办法首要包含:生成式办法、依据图的办法、低密度切割法、依据不合的办法。本文在这儿对这些详细的办法不多赘述,概况请参阅周志华教师的总述文章「A brief introduction to weakly supervised learning」。

  • 搬迁学习(transfer learning):搬迁学习是近年来被广泛研讨,风头正劲的学习范式,其内涵思维是学习人类「触类旁通」的才干,进步对数据的运用率。详细而言,搬迁学习的界说为:有源域 Ds和使命 邱静谊Ts;方针域 Dt 和使命 Tt,搬迁学习的方针是运用源域中的常识处理方针域中的猜测函数 f,条件是源域和方针域不相同或许源域中的使命和方针域中的使命不相同[2]。在搬迁学习研讨的前期,搬迁学习被分类为「直推式搬迁学习」、「概括搬迁学习」和「无监督搬迁学习」。

跟着深度学习的蓬勃发展,以「依据实例的深度搬迁学习」、「依据映射的深度搬迁学习」、「依据网络的深度搬迁学习」和「依据对立的深度搬迁学习」为代表的深度搬迁学习范式也得到了研讨人员的重视[2](概况请参阅论文「A Survey on Deep Transfer Learning」,https://arxiv.org/pdf/1808.01974v1.pdf)。例如,咱们或许现已有身体其他部位肿瘤的大型练习集,以及此基础上练习的分类器,然后希望将其运用到咱们的乳房 X 光查看使命中。在当下的深度学习社区中,一种常见的搬迁学习办法是在一个大数据集上对模型进行「预练习」,然后在感兴趣的使命上对其进行 「调优」。因为搬迁学习现在现已成为了一个相对独立的研讨范畴,本文不对搬迁学习的相关内容做过多的打开。

(2)不切当监督,即练习样本只要粗粒度的标签。例如,针对一幅图片,只具有对整张图片的类别标示,而关于图片中的各个实体(instance)则没有标示的监督信息。例如:当咱们对一张肺部 X 光图片进行分类时,咱们只知道某张图片是肺炎患者的肺部图片,可是并不知道详细图片中哪个部位的呼应说明晰该图片的主人患有肺炎。该问题可以被办法化表明为:

学习使命为 f: X -> Y,其练习集为 D = {(X_1, y_1), …, (X_m, y_m)},其间 X_i = {x_{I, 1}, …, x_{I, m_i}}, X_i 归于X,X_i 称为一个包,样本 x_{i, j}归于X_i(j归于{1,同志老头 …, m_i})。m_i 是 X_i 中的样本个数,y_i 归于 Y = {Y, N}。当存在 x_{i, p}是正样本时,X_i 便是一个正包,其间 p 是不知道的且 p 归于 {1, …, m_i}。模型的方针便是猜测不知道包的标签。

多示例学习现已成功运用于多种使命,例如:图画分类、检索、注释,文本分类,垃圾邮件检测,医疗确诊,人脸、方针检测,方针类别发现,方针盯梢等。

(3)不精确监督,即给定的标签并不总是真值。呈现这种状况的原因有许多,例如:标示人员本身水平有限、标示进程大意、标示难度较大。在标签有噪声的条件下进行学习便是一个典型的不精确学习的状况。而最近十分盛行的运用众包办法搜集练习数据的办法也成为了不精确监督学习范式的一个重要的逝梦交易网运用场所。

图 1.三种弱监督学习的示意图[1].

弱监督学习东西:Snorkel

上面说到的学习范式让咱们可以不必找范畴专家协作者标示额定的练习标签。然卿本红妆之冷情太子而,对某些数据进行符号是不可避免的。假如咱们要求数据标示者选用各种类型的更高档、或不那么精确的监督办法刘殊被检查,以便可以更快、更简洁地供给,对给数据标示作业带来什么影响?例如,放射科医师花一个下午的时刻来符号一组启发式的规矩或其他资源,假如处理妥当,这些资源将能有用地代替数以千计的练习标签,这样的话又可以给数据木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率标示作业带来怎样的效果 ?

将范畴常识注入人工智能

从前史维度来看,企图对人工智能进行「编程」(即注入范畴常识)并不是什么新鲜事——而本非必须评论的新问题是,AI 尽管在可解释性和可控性方面仍旧莫斯勒仍是一个「黑盒子」,可是在功用方面却从未像现在这样强壮。

20 世纪 70 时代和 80 时代,专家体系是人工智能范畴的研讨要点,它将来自范畴专家手动树立的现实和规矩的常识库结合起来,并运用推理引擎来运用它们。20 世纪 90 时代,机器学习作为将常识集成到人工智能体系的东西,开端蓬勃发展,有望可以完成从人工标示练习数据到机器以强壮而灵敏的办法主动标示练习数据。

经典的(非表明学习)机器学习办法一般有两个范畴专家输入的端口。首要,这些模型的杂乱度一般比现代模型要低得多,这意味着可以运用规划更小的手动标示数据。其次,这些模型依靠于手动规划的特征,它们为编码、修正和与模型的数据根本表明办法的交互供给了一种直接的办法。可是,一般来说,不管曩昔仍是现在,特征工程都被以为是机器学习专家的使命,他们一般会在整个博士生计中为特定的使命规划特征。

下面让咱们来看看深度学习模型:因为它们具有跨多个范畴和使命主动学习表明的强壮才干,它们在很大程度上避免了特征工程的使命。可是,它们大部分都彻底是个黑盒子,一般开发人员除了能对它们标示许多的练习集和调整网络架构外,简直无法操控它们。在很大程度上,它们站在了软弱但易于操控的旧专家体系规矩的对立面——它们灵敏但难以操控。

这使咱们从一个略微有些不同的视点从头回看开始的问题:咱们怎么才干运用咱们的范畴常识或面向细分使命的专业常识来对现代深度学习模型进行编程?有没有办法将依据规矩的旧专家体系的直接性与当下这些机器学习办法的灵敏性和强壮功用结合起来?

运用代码进行监督:经过编程练习机器学习体系

Snorkel 是斯坦福 AI 实验室为支撑和探究这种与机器学习模型进行的新式交互而构建的一个体系。在 Snorkel 中,他们不运用手动标示的练习数据,而是要求用户编写标示函数,即用于标示未标示数据子集的黑盒代码片段。

然后,研讨人员可以运用一组这样的标示函数来为机器学习模型标示练习数据。因为符号函数仅仅恣意的代码片段,所以它们可以对恣意信号进行编码:办法、启发式、外部数据资源、来自众包人员的带噪声的标签、弱分类器等等。并且,他们还可以取得标示函数作为代码所特有的其他相关的优点,比方模块化、可重用性和可调试性。例如,假如建模方针发生了改变,他们可以调整标示函数来快速习惯这种改变!

当然,Snorkel 存在的一个问题是,标示函数会发生带噪声的输出,这些输出或许会重兼并抵触,然后发生不太抱负的练习标签。在 Snorkel 中,他们运用数据编程办法对这些标签进行去噪,该办法包含三个进程:

  • 1. 将标示函数运用于未符号的数据。

  • 2. 运用一个生成模型在没有任何带标签数据的条件下学习标示函数的精确性,并相应地对它们的输出进行加权。该生成模型乃至可以主动学习它们的相关结构。

  • 3. 生成模型输出一组概率练习标签,之后运用这些标签来练习一个强壮、灵敏的判别模型 (如深度神经网络),它将泛化到符号函数表明的信号之外。

这整个作业流程可以被视为供给了一个简略的、鲁棒的、与模型无关的办法对机器学习模型进行「编程」。

标示函数

斯坦福 AI 实验室表明,从生物医学文献中提取出结构化的信息是最鼓动他们的运用之一:从数百万篇科学论文的密布的非结构化文本中确定许多有用的信息。他们希望运用机器学习技能来提取这些信息,然后使其生物医学协作者可以运用这些信息来确诊遗传病。

关于从科学文献中提取出某种「化学——疾病」联系的使命来说,他们或许还没有规划满足大的标示练习数据集来完结这项使命。可是,在生物医学范畴,存在着丰厚的常识本体、词典等资源,其间包含各种化学与疾病称号的常识本体、各种类型的已知化学——疾病联系的数据库等,研讨人员可以运用这些资源来为他们的使命供给弱监督。此外,他们还可以与生物医学协作者一同提出一系列针关于特定使命的启发式、正则表达式办法、经历规律和负标签生成战略。

将生成模型作为一种表达载体

在斯坦福 AI 实验室的办法中,他们以为标示函数隐式地描绘了一个生成模型。快速回忆一下:给定数据点 x,想要猜测的不知道标签 y,他们在判别办法中直接对 P(y|x) 建模,在生成办法中则对 P(x,y) = P(x|y)P(y) 建模。在本例,他们对标示练习集的进程 P(L,y) 建模,其间 L 是由目标 x 的标示函数生成的标签,y 是相应的 (不知道的) 真值标签。经过学习生成模型,并直接估量 P(L|y),他们实质上是在依据它们怎么重兼并抵触来学习标示函数的相对精确性 (要注意地是,本例中不需求知道 y!)

他们运用这个估量出的生成模型,在标示函数上练习一个可以感知噪声的版别的终究判别模型。为了做到这一点,生成模型揣度出练习数据的不知道标签的概率,然后他们再最小化关于这些概率的判别模型的希望丢失。

估量这些生成模型的参数或许十分困难,特别是当运用的标示函数之间存在计算依靠性时。在论文「Data Programming: Creating Large Training Sets, Quickly」(https://arxiv.org/abs/1605.07723)中,论文作者证明晰在给定满足的标示函数的条件下,可以得到与监督办法相同的。一同,该论文还研讨了怎么在不运用标示数据的状况下学习标示函数之间的相关性,以及怎么明显进步功用夏如歌北冥幽。

Snorkel 结构

在斯坦福 AI 实验室最近宣布的关于 Snorkel 的论文 (https://arxiv.org/abs/1711.10160)中,他们发现在各种实践运用中,这种与现代机器学习模型交互的新办法十分有用!其间的一些亮点包含:

  • 1. 在 Mobilize Center 主办的一场为期两天的关于 Snorkel 的作业坊的用户调研中,他们比较了教范畴专家们运用 Snorkel 的功率,以及花相同的时刻仅仅对木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率数据进行手动标示的功率。一同,他们还发现,运用 Snorkel 构建模型在速度不只快了 2.8 倍,并且均匀的猜测功用也进步了 45.5%。

  • 2. 在与斯坦福大学、美国退伍军人事务部和美国食物和药物管理局的研讨人员协作的两个实践的文本联系提取使命,以及其他四个比照基准文本和图画使命中,他们发现,与作为比照基准的技能比较,Snorkel 的功用均匀得到了 132% 的进步。

  • 3. 他们探究了怎么对用户供给的符号函数建模的新的权衡空间,然后得到了一个可以加快迭代开发周期的依据规矩的优化器。

下一步:大规划多使命弱监督学习

斯坦福 AI 实验室正在进行各种尽力,将 Snorkel 规划的弱监督交互模型扩展到其它的模态中,如格局丰厚的数据和图画、运用自然言语的监督使命以及主动生成标示函数!

在技能方面,他们对扩展 Snorkel 的中心数据编程模型,使其更简略指定具有更高档别接口(如自然言语)的标示函数,以及结合其他类型的弱监督学习技能 (如数据增强)感兴趣。

跟着多使命学习的场景越来越遍及,也引发了这些问题:当带噪声的、或许相关的标示源现在要标示多个相关使命时会怎么样(不精确监督)?能否经过对这些使命的监督进行联法越馨合建模情欲娱乐圈来进步功用?在一个新的多使命感知版别的 Snorkel,即 Snorkel MeTaL(https://arxiv.org/abs/1810.02840) 中处理了这些问题,哪个又可以支撑为一个或多个相关使命供给带噪声标签的多使命弱监督源?

他们考虑的一个比方,是关于不同粒度的标签源的设置(不切当监督)。例如,假定他们计划练习一个细粒度的命名实体辨认模型来符号特定类型的人和方位,一同现已具有一些细粒度的带噪声的标签,例如符号「律师」与「医师」,或许是「银行」与「医院」;而有些是粗粒度的,例如符号「人」与「方位」。经过将这些源表明为符号不同的与层次相关的使命,他们可以联合建模它们的精确性,并从头加权和组合情男它们的多使命标签,然后创立数据愈加洁净、交融了各种智能的多使命练习数据,然后进步终究多使命学习模型的功用。

斯坦福 AI 实验室表明,他们信任,为多使命学习构建数据管理体系最激动人心的lr国际增值积分方面将围绕着大规划多使命机制,在这种机d2688制的效果下,数十到数百个弱监督(因而也高度动态)使命以杂乱、多样的办法交互。

尽管迄今为止大多数多使命学习的作业大多都考虑到了处理由静态手动标示练习集界说的少量几项使命,但国际正在迅速发展成安排(不管是大公司、学术实验室仍是在线社区)需求保护数以千计的弱监督、快速改变且相互依靠的建模使命的状况。此外,因为这些使命是弱监督的,开发人员可以在数小时或数天内(而不是数月或数年内)增加、删去或更改使命(即练习集),这或许需求从头练习整个模型。

在最近的一篇论文「The Role of Massively Multi-Task and Weak Supervision in Software 2.0」(http://cidrdb.org/cidr2019/papers/p58-ratne木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率r-cidr19.pdf)中,斯坦福 AI 实验室针对上述问题的一些开始主意进行了概述,设想了一个大规划的多使命亿馍通的场景,其间多使命学习模型有用地被用作一个练习由不同开发人员弱标示的数据的中心存储库,然后组合在一个中心的「母」多使命模型中。不管切当的办法要素是什么,很显着,未来还会呈现许多令人兴奋的多使命学习技能的发展——不只仅新的模型架构,也会涉及到与搬迁学习办法、新的弱监督办法、新的软件开发和体系范式的一致。

多监督学习的最新发展

作为一种越来越遭到重视的、有用含义很强的学习范式,研讨者们近期在 CVPR、AAAI、ACL 等重要的人工智能范畴的会议上宣布了许多有关多监督学习的最新研讨。例如:

  • Rabinovich 等人(https://arxiv.org/pdf/1809.01285.pdf)规划了一种弱监督办法,用于在彻底没有符号数据的状况下,揣度词语的抽象性。他们只运用最少的言语头绪和文本数据中显现的概念的上下文用法,练习满足强壮的分类器,取得与人类标签的高度相关性。

  • Wu 等人(https://arxiv.org/abs/1805.02333)在 ACL 2018 上针对敞开环境下的人机对话使命开发了一种运用未标示数据学习挑选依据检索的谈天机器人的呼应的匹配模型的办法。该办法选用序列-均衡结构(Seq2Seq)模型作为弱标示器来判别未标示对的匹配程度,然后对弱信号和未标示数据进行学习。

  • Arachie 等人(https://arxiv.org/abs/1805.08877)在 AAAI 2019 上针对无标签分类器的练习使命提出了一种弱监督的办法——对立性标签学习,该办法运用投影的「primal-dual」梯度下降法最小化分类器错误率的上限。最小化这个鸿沟可以避免在弱监督办法中呈现误差和依靠。

  • Vardazaryan 等人(https://arxiv.org/pdf/1806.05573.pdf)针对手术东西定位使命,提出了图画等级的标示使命的训b胸练办法,可以用于在没有显式空间标示的状况下,检测出视频中存在的手术东西病在视频中定位。

  • 在 CVPR 2019 上,Zeng 等人(https://arxiv.org/pdf/1904.00566.pdf)针对像素级图画标示问题,提出了一种多源弱监督视觉明显性检测模型,他们规划了木槿花,关于弱监督学习,这或许是现在最详尽的一篇科普文,韩元汇率一个分类网络(CNet)和一个标题生成网络(PNet),别离学习猜测目标以及生成图画标题。一同,他们还规划了一种可以在网络之间传达监督信号的注意力搬迁丢失,然后使经过一个监督源练习的网络可以协助练习运用另一个监督源练习的网络。

  • Mithun 等人(https://arxiv.org/pdf/1904.03282.pdf)针对经过文本查询完成的视频瞬间检索问题,规划了一种依据文本引导的注意力机制(TGA)的弱监督学习结构,处理了关于每段文本描绘相应的视频时刻鸿沟进行标示的开支过高的问题。

结语

跟着数据驱动的机器学习研讨走进深水区,研讨者们越来越重视对数据高效运用的研讨。本文首要回忆了若监督学习的相关理论,从不彻底监督、不切当监督、不精确监督三个方面回忆了现在弱监督学习范畴的研讨发展。更详细地,本文依据斯坦福大学提出的 Snorkel 结构,介绍了经过对机器学习体系进行编程引进范畴专家常识的办法。最终,被本文回忆了弱监督学习范畴的一些最新的研讨发展。

文章参阅:

http://ai.stanford.edu/blog/weak-supervision/

其他参阅文献:

[1]Zhou Z H . A brief introduction to weakly supervised learning[J]. National Science Review, 2018, v.5(01):48-57.

[2]Pan S J , Yang Q . A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.

点击阅览原文,参加强化学习论文评论小组,与同行商讨沟通

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。