编程语言应用

注册

 

发新话题 回复该主题

用编程创建和管理训练数据集难三种强大的抽 [复制链接]

1#
治白癜风最便宜的医院 http://www.znlvye.com/
概述相较于在模型构架或硬件优化上所花的精力,机器学习从业者反而对训练数据更加重视。因此,程序员基于不同的抽象技术,即高级设计的模板为他们的应用构建机器学习管道。在这篇文章中,我们介绍了三种强大的抽象技术,通过这些技术,从业者可以以编程的方式构建和管理他们的训练数据。我们进行了一项实验来测试针对基础训练数据操作的有效性,分别对训练集的一部分数据使用了本文的框架、Snorkel(一种快速创建、建模和管理训练数据的系统,通过标记函数以编程的方式标记数据)和在SuperGLUE(一个用于「通用语言理解技术」相关六项任务的新评价指标)上取得最佳结果的标准NLP模型(即BERT)。与自然语言预训练模型(即BERT)的最新进展相比,我们总体上取得了新的最高分数,并且在大多数组合型任务上,我们在各个方面都实现了现有的最好成绩。除了SuperGLUE之外,我们还重点介绍了Snorkel在实际应用中的更新,其中包括更多应用——从Google的SnorkelDrybell的工业规模到MRI分类和自动全基因组关联研究(GWAS)策划的科研工作(这些应用均被收录于NatureComms:
分享 转发
TOP
发新话题 回复该主题