词性标注任务是为给定句子中的每个单词分配给定标签集中的词性标签。 就是对句子中的词进行分类和标注的过程,实际上是一个多分类任务。 我们根据词在句法结构或语言形式中的成分,通过词性分类给每个词赋予相应的词性。即判断句子中的每个单词是名词、动词、形容词还是其他词性。
词性标注工具:thulac、jieba
序列标注问题:包括分词、词性标注问题、NER、关键词抽取、词义角色标注、词性序列标注
序列标注方法:将输入的语言序列转化为标注序列,通过标注序列标签含义来解决问题
序列标注模型:CRF、HMM
其中Viterbi Algorithm是一种图算法,能够找到概率最高的隐藏单元序列,即各单词最准确的词性标注(Jürgen讲过的C矩阵 D矩阵)
序列标注模型以一个单词序列作为输入,输出将是一个 POS 标签序列,其中每个 POS 标签都是对输入序列中相应单词的预测。
CRF是非常经典的序列标注模型,深度学习发展起来之后,深度学习+CRF的模型得到广泛应用。其中的代表就是BiLSTM+CRF。双向LSTM能更好的捕捉序列中上下文的信息,提高标注的准确性。
深度学习ALGO:RNN(Recurrent Neural Network)、Bi-directional Recurrent Neural Network (BRNN)、LSTM、CNN、Attention-Based BiLSTM、RL、GANs
深度学习的概念源于人工神经网络的研究,但是并不完全等于传统神经网络。
不过在叫法上,很多深度学习算法中都会包含"神经网络"这个词,比如:卷积神经网络CNN、循环神经网络RNN。
所以,深度学习可以说是在传统神经网络基础上的升级,约等于神经网络。
传统机器学习的特征提取主要依赖人工,针对特定简单任务的时候人工提取特征会简单有效,但是并不能通用。
深度学习的特征提取并不依靠人工,而是机器自动提取的。这也是为什么大家都说深度学习的可解释性很差,因为有时候深度学习虽然能有好的表现,但是我们并不知道他的原理是什么
图最左侧:深度学习分类 有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等;
NN:输入层、隐藏层、输出层
对于神经网络的优化算法,主要需要两步:前向传播(Forward Propagation)与反向传播(Back Propagation)
Attention-Based BiLSTM:通过attention机制,该方法可以聚焦到最重要的词,从而捕获到句子中最重要的语义信息。