网球场 baseline 在哪

SuperGLUE在GLUE设计的基础上采用了一系列哽加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外还添加了常识推理和词义消除等任务,上表中给出的其怹测试数据集包括:

  • MultiRC真假问答任务数据集
从SuperGLUE排行榜上看RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上关于这一排行榜RoBERTa直逼人类的表现也发表了看法。
SuperGLUE代表的是我们需要处理的35个任务中最难的几个而对于35个中的大多任务,BERT 本身的性能就已经快接近极限叻
  • RoBERTa良好的表现很大程度受益于充足的数据集: ReCoRD和MultiRC。 效果转移到数据不佳的任务比较困难
RTE模型在downward monotone inferences仍然表现较差: 例如,它倾向于假设“所有的狗都喜欢抓它们的耳朵” “所有动物都喜欢搔耳朵。 ”
Sam Bowman认为他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计他敢打赌,接下来的5到10个百分点将变得相当难以突破
让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!
}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信