自然语言推断与数据集

xiaotinghe · December 7, 2021, 6:27pm

http://zh-v2.d2l.ai/chapter_natural-language-processing-applications/natural-language-inference-and-dataset.html

HeartSea15 · June 26, 2022, 4:25pm

mini-batch 喂入模型数据的时候要保证mini-batch中句子长度一致，但是对于较短的句子，就需要使用特定的字符进行填充到统一的句子长度。但是我们不希望其填充的pad数据（一般为0）进入GRU或是LSTM模块，一是浪费资源，二是可能造成句子表征不准确。所以pack_padded_sequence 类应运而生。主要是对填充过的数据进行压缩。
文章中什么时候把这一块加上呢？

JH.Lam · December 23, 2024, 9:30am

对于普通文本来说压缩比可能大，但对于这类数字化信息来讲应该不大。
另外对于连续性片段压缩才有意义，如[0,0,…], 直接使用 [0]=(start,end)即可

skiefucker · May 5, 2026, 4:23am

压缩包里有zipfile在win下解压会报错的’\r’字符，需要加上

members=[
  'snli_1.0/',
  'snli_1.0/README.txt',
  'snli_1.0/snli_1.0_dev.jsonl',
  'snli_1.0/snli_1.0_dev.txt',
  'snli_1.0/snli_1.0_test.jsonl',
  'snli_1.0/snli_1.0_test.txt',
  'snli_1.0/snli_1.0_train.jsonl',
  'snli_1.0/snli_1.0_train.txt'
]