遥远的BERT模型...

Transformer 是谷歌大脑在2017年底发表的论文 attention is all you need 文章解读中所提出来的seq2seq模型，BERT就是从transformer 中衍生出来的预训练语言模型。

现在很多处理效果非常好的模型，都融合了BERT , 模型排名

相比于LSTM的迭代训练，transformer的训练是并行的，使用了位置嵌入来理解语言的顺序，使用自注意力机制和全连接层来进行计算。

主要分为两部分：

语言模型就是用来求一个句子出现的概率

BERT模型的全称是双向transformer编码表达。只用到了编码器的部分，在每句话的句头添加一个特殊字符，让句子中的所有信息向这个字符汇总，就可以根据这个字符的hidden state 完成一些分类。

训练：

参数：

看到作者这句

但是经过我的实际测试, 结合我目前正在研究的命名实体识别, 语义分析, 关系抽取和知识图谱的需求, 发现其实这个参数比较过剩, 把参数缩减到2千万, 但即使这样, 使用一块11GB显存的2080Ti显卡, 训练维基百科语料的BERT也需要一周的时间

2千万。。。一周。。。11GB显存。。。感觉可以告辞了呢。。。

在数据集不够的情况下，使用BERT这种参数这么多的模型，训练会产生严重过拟合，泛化能力差的情况

就我们的项目而言，在现有条件下，基本可以告别这种方法了吧。。。

序列模型的深度学习建议使用PyTorch