自然语言推断与数据集

http://zh-v2.d2l.ai/chapter_natural-language-processing-applications/natural-language-inference-and-dataset.html

mini-batch 喂入模型数据的时候要保证mini-batch中句子长度一致,但是对于较短的句子,就需要使用特定的字符进行填充到统一的句子长度。但是我们不希望其填充的pad数据(一般为0)进入GRU或是LSTM模块,一是浪费资源,二是可能造成句子表征不准确。所以pack_padded_sequence 类应运而生。主要是对填充过的数据进行压缩。
文章中什么时候把这一块加上呢?

对于普通文本来说压缩比可能大,但对于这类数字化信息来讲应该不大。
另外对于连续性片段压缩才有意义,如[0,0,…], 直接使用 [0]=(start,end)即可

压缩包里有zipfile在win下解压会报错的’\r’字符,需要加上

members=[
  'snli_1.0/',
  'snli_1.0/README.txt',
  'snli_1.0/snli_1.0_dev.jsonl',
  'snli_1.0/snli_1.0_dev.txt',
  'snli_1.0/snli_1.0_test.jsonl',
  'snli_1.0/snli_1.0_test.txt',
  'snli_1.0/snli_1.0_train.jsonl',
  'snli_1.0/snli_1.0_train.txt'
]