mini-batch 喂入模型数据的时候要保证mini-batch中句子长度一致,但是对于较短的句子,就需要使用特定的字符进行填充到统一的句子长度。但是我们不希望其填充的pad数据(一般为0)进入GRU或是LSTM模块,一是浪费资源,二是可能造成句子表征不准确。所以pack_padded_sequence 类应运而生。主要是对填充过的数据进行压缩。
文章中什么时候把这一块加上呢?
对于普通文本来说压缩比可能大,但对于这类数字化信息来讲应该不大。
另外对于连续性片段压缩才有意义,如[0,0,…], 直接使用 [0]=(start,end)即可
压缩包里有zipfile在win下解压会报错的’\r’字符,需要加上
members=[
'snli_1.0/',
'snli_1.0/README.txt',
'snli_1.0/snli_1.0_dev.jsonl',
'snli_1.0/snli_1.0_dev.txt',
'snli_1.0/snli_1.0_test.jsonl',
'snli_1.0/snli_1.0_test.txt',
'snli_1.0/snli_1.0_train.jsonl',
'snli_1.0/snli_1.0_train.txt'
]