[NLP]NAACL2019论文马拉松
大部分文章的地址还没有放出来,随着放出来的进度,笔记慢慢补充。
关键新词
Capsule Network,Graph Convolutional Networks,Knowledge Graph,Normalizing Flow.
主要印象
一.以新任务和新数据集为代表的新的挖坑工作总是最受欢迎的。新的QA数据集总是被不断地提出。
二.domain-specific的工作也非常值得关注,如peer review,biomedical相关的文本分析任务等。
三.关于数据/模型偏见的问题,例如词向量中的性别偏见等问题研究,本届NAACL录用了多篇文章。
四.机器翻译,摘要,分类,词向量,多任务等依旧是热门话题;
拟读论文(论文地址还没有全部放出来,笔记陆续补充中)
1.《Adapting RNN Sequence Prediction Model to Multi-label Set Prediction》
2.《An Empirical Investigation of Global and Local Normalization for Recurrent Neural Sequence Models Using a Continuous Relaxation to Beam Search》
3.《Competence-based Curriculum Learning for Neural Machine Translation》
4.《Curriculum Learning for Domain Adaptation in Neural Machine Translation》
5.《Data-efficient Neural Text Compression with Interactive Learning》
6.《Lost in Machine Translation: A Method to Reduce Meaning Loss》
7.《Online Distilling from Checkpoints for Neural Neural Machine Translation》
8.《Differentiable Sampling with Flexible Reference Word Order for Neural Machine Translation》
9.《Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation》
10.《Generating Knowledge Graph Paths from Textual Definitions using Sequence-to-Sequence Models》
11.《Adaptive Convolution for Multi-Relational Learning》
12.《Adaptive Convolution for Text Classification》
13.《Dialogue Act Classification with Context-Aware Self-Attention》
14.《An Effective Label Noise Model for DNN Text Classification》
15.《A Submodular Feature-Aware Framework for Label Subset Selection in Extreme Classification Problems》
16.《Continuous Learning for Large-scale Personalized Domain Classification》
17.《Ranking-Based AutoEncoder for Extreme Multi-label Classification》
18.《An Encoding Strategy Based Word-Character LSTM for Chinese NER》
19.《Answer-based Adversarial Training for Generating Clarification Questions》
20.《Attention is not Explanation》
21.《AudioCaps: Generating Captions for Audio in The Wild》
22.《CCG parsing algorithm with online tree rebalancing》
围绕CCG的研究工作,本届NAACL录用的文章不只一篇。
23.《Convolutional Self-Attention Networks》
Tencent AI Lab的工作。如题,卷积化的网络(CSN)。目的是挖掘Multi-Head机制在特征提取上的潜力,卷积结构如下:
实验是基于NMT任务做的,但是该模块也可以用于其他序列建模任务,包括但不限于阅读理解,语言推理和句子分类等任务。
24.《Corpora Generation for Grammatical Error Correction》
在Eigen实习的时候做中文语法检错,其中最重要的问题是语料的获取。由于检错模型是服务于智能写作编辑器的,因此考察场景后做的数据生成质量还是比较高的。搜索了相关文章,发现GEC任务讨论语料生成的文章还是挺多的。
25.《Improving Grammatical Error Correction Via Pre-Training a Copy-Augmented Architecture with Unlabeled Data》
26.《DiscoFuse: A Large-Scale Dataset for Discourse-based Sentence Fusion》
论文地址,这篇文章主要基于规则,构建了一个大型的数据集,用于文本融合,其中构建的领域文本来自Wikipedia和Sports Articles。所谓文本融合,如下:
也就是两个句子作为输入,一个句子作为输出。两个句子作为输入的场景常见的是句子相似度匹配,文本蕴含等,且输出的是一个标量。在文中作者主要基于Transformer做了实验,给出了评估结果。
在CV领域,图像融合是在拍照的时候,将几张照片融合为一张,从而提高拍照效果。和NLP中融合的区别之一在于连续和离散的差异,显然任务上要困难很多。不过,这仍旧是一个值得研究的问题。
27.《Correlation Coefficients and Semantic Textual Similarity》
28.《Cyclical Annealing Schedule: A Simple Approach to Mitigate KL Vanishing》
29.《Detection of Abusive Language: the Problem of Biased Datasets》
30.《Disentangling Language and Knowledge in Task Oriented Dialogs》
31.《Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions》
32.《Does My Rebuttal Matter? Insights from a Major NLP Conference》
33.《Entity Recognition at First Sight: Improving NER with Eye Movement Information》
论文地址,模型结构上是做NER问题的经典结构,BiLSTM+CRF层。不过文章的主要贡献在于将Eye-Tracking特征用于NER任务中并且证明能够有所提升。个人在去年的一些会议中就已经看到有关于Eye-Tracking特征的使用,该特征与NLP中讨论的Attention有密切关系。
34.《Evaluating Style Transfer for Text》
类似文章《Evaluating Style Modification for Text》
35.《Fake News Detection using Deep Markov Random Fields》
36.《Learning Hierarchical Discourse-level Structure for Fake News Detection》
37.《Fixed That for You: Generating Contrastive Claims with Semantic Edits》
38.《From legal to technical concept: Towards an automated classification of German political Twitter postings as criminal offenses》
39.《Generalizing Unmasking for Short Texts》
40.《HiGRU: Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition》
41.《How Large A Vocabulary Does Text Classification Need? A Variational Approach on Vocabulary Selection》
42.《Latent Code and Text-based Generative Adversarial Networks for Soft-text Generation》
43.《Neural Chinese Address Parsing》
44.《Positional Encoding to Control Output Sequence Length》
45.《Recommendations for Datasets for Source Code Summarization》
46.《Review-Driven Multi-Label Music Style Classification by Exploiting Style Correlations》
最近的一个想法是通过评论文本去做一些有意思的事情。在这之前,很多工作是将评论文本本身当做研究对象来做的,然而,可以通过评论文本去研究被评论对象的信息,比如电影,音乐等风格等,因为评论文本中包含了太多关于研究对象各个维度的信息。刚好看到这篇文章,我们正在投稿IJCAI2019的一个工作恰与之类似,后续可以应该可以借鉴一些工作。
这篇文章就是通过豆瓣音乐评论实现对音乐类型的多标签分类,多标签分类的难点在于标签之间的依赖关系处理。从模型结构上,首先需要对多条评论文本进行特征提取,文中作者使用Hierarchical Attention Layer实现;标签关系是对整个任务的所有样本可见的,因此将这部分信息融入到模型中,通过一个Label Graph Layer实现;最后借助Soft Training的方式实现训练。也就是说模型上主要由三块构成,这并不是讨论的重点。
跳出文章的细节描述,可以认为是一个文档多标签分类任务。多标签的关系依赖是一个经典问题。文档由评论文本组成,不过区别于自然文档。该组的CoLING2018的最佳论文SGM做多标签分类就是一个我非常喜欢的方式,当时考虑到用在AI Challenger2018的细粒度情感分类赛道上,公司的一个同事也确实用这样的方式取得了不错的成绩。
虽然这个任务可以转化为一个基本问题,不过出发点还是很有意思的。数据和代码作者都还没有公开,不过数据可以爬取豆瓣的电影评论,模型在实现上应该难度不大。整体上是一篇中规中矩的文章。
47.《Riemannian Normalizing Flow on Variational Wasserstein Autoencoder for Text Modeling》
一直期待Normalizing Flow在文本生成上的应用,不过这篇文章从标题上看是做话题建模的。
48.《Saliency Learning: Teaching the Model Where to Pay Attention》
论文地址,关于损失函数的改进工作,在传统损失函数中添加了一个关于梯度的项,以max函数形式呈现。
49.《Simple Attention-Based Representation Learning for Ranking Short Social Media Posts》
50.《Text Classification with Few Examples using Controlled Generalization》
51.《Text Similarity Estimation Based on Word Embeddings and Matrix Norms for Targeted Marketing》
52.《Training data augmentation for context-sensitive neural lemmatizer using inflection tables and raw text》
53.《Understanding the Behaviour of Neural Abstractive Summarizers Using Contrastive Examples》
54.《Using Large Corpus Ngram Statistics to Improve Recurrent Neural Language Models》
55.《Using Similarity Measures to Select Pretraining Data for NER》
56.《Detecting Customer Complaint Escalation with Recurrent Neural Networks and Manually-Engineered Features》
57.《Generate, Filter, and Rank: Grammaticality Classification for Production-Ready NLG Systems》
58.《Neural Text Normalization with Subword Units》
59.《Train One Get One Free: Partially Supervised Neural Network for Bug Report Duplicate Detection and Clustering》
60.《A k-Nearest Neighbor Approach towards Multi-level Sequence Labeling》