(1)incomplete: only a subset of training data are given with labels

(2)inexact: the training data are given with only coarse-grained labels

(3)inaccurate: the given labels are not always ground-truth

active learning:

semi-supervised learning(self-training):

generative method:这类方法的出发点是未打标签的数据和打标签的数据应该生成自一个相同的模型，因此可以训练一个生成模型。

graph-based method:node表示样本，edge表示样本之间的关系，沿图进行标签传播。（在之前“拍拍贷”的一个问题相似度比赛中，就尝试了这种方式。）

low-density separation methods: 该类方法鼓励分类的决策边界沿着样本输入空间中密度较低的区域，主要代表方法是SVM相关的。

disagreement-based methods:这类方法通过产生多个模型，通过多个模型的合作给数据打标签，经典的Ensemble思想的运用，代表性方法是co-training，tri-training等。

We now understand that the exploitation of unlabeled data naturally leads to more than one model option, and inadequate choice may lead to poor performance.


transductive learning（semi-supervised的特例，测试集=未打标签的数据集）:

multi-instance learning，该类方法的理论分析较困难，几乎每个监督学习算法都有multi-instance版本(额，想想有点奢侈)。

(3)inaccurate: the given labels are not always ground-truth

learning with noise:目的在于识别，删除，修正可疑样本(标签可能是错的样本)。

crowdsourcing:voting等策略。