Meta摸索大模子影象层,扩大至128神仙道亿个参数
发布时间:2025-01-06 08:32
预练习言语模子平日在其参数中编码大批信息,而且跟着范围的增添,它们能够更正确地回想跟应用这些信息。对重要将信息编码为线性矩阵变更权重的麋集深度神经收集来说,参数巨细的扩大直接与盘算跟能量需要的增添相干。言语模子须要进修的一个主要信息子集是简略关系。固然前馈收集准则上(给定充足的范围)能够进修任何函数,但应用遐想影象(associative memory)会更高效。影象层(memory layers)应用可练习的键值查找机制向模子增加额定的参数,而不会增添 FLOP。从观点上讲,稀少激活的影象层弥补了盘算量年夜的麋集前馈层,供给了便宜地存储跟检索信息的公用容量。近来,Meta 的一项新研讨使影象层超出了观点验证,证实了它们在年夜型言语模子(LLM)扩大中的适用性。论文题目:Memory Layers at Scale论文地点:https://arxiv.org/pdf/2412.09764名目地点:https://github.com/facebookresearch/memory鄙人游义务中,经由过程改良的影象层加强的言语模子的机能优于盘算估算两倍以上的麋集模子,以及在盘算跟参数相称的专家混杂(MoE)模子。这项任务标明,当影象层失掉充足改良跟扩大时,能够用于加强麋集神经收集,从而带来宏大的机能晋升。经由过程用影象层调换一个或多个 transformer 层的前馈收集(FFN)来实现这一点(坚持其余层稳定)。这些上风在种种基础模子巨细(从 1.34 亿到 80 亿参数)跟内存容量(最多 1280 亿参数)中都是分歧的。这象征着存储容量实现了两个数目级的奔腾。影象加强架构可练习的影象层相似于留神力机制。给定一个查问 ]article_adlist-->。输出是值的软组合,依据 q 跟响应键之间的类似性停止加权。,以及值,一组键在应用时,影象层与留神力层之间存在两个差别。起首,影象层中的键跟值是可练习参数,而不是激活参数;其次,影象层在键跟值的数目方面平日存在更年夜的范围,因而稀少查问跟更新是必须的。该研讨将键-值对的数目扩大到数百万。在这种情形下,只有 top-k 最类似的键跟响应的值被输出。一个简略的影象层能够用上面的等式来描写:此中,I 是一组指标, ]article_adlist-->。 ]article_adlist-->,输出扩大影象层扩大影象层时面对的一个瓶颈是「查问 - 键」检索机制。简略的近来邻搜寻须要比拟每一对查问 - 键,这对年夜型影象来说很快就变得弗成行。固然能够应用近似向量类似性技巧,但当键正在一直练习并须要从新索引时,将它们整合起来是一个挑衅。相反,本文采取了可练习的「product-quantized」键。并行影象。影象层是影象麋集型的,重要是因为可练习参数跟相干优化器状况的数目宏大招致的。该研讨在多个 GPU 上并行化嵌入查找跟聚合,影象值在嵌入维度长进行分片。在每个步调中,索引都从过程组中网络,每个 worker 停止查找,而后将嵌入的局部聚合到分片中。尔后,每个 worker 网络与其本身索引局部绝对应的局部嵌入。该进程如图 2 所示。共享影象。深度收集在差别层上以差别的形象级别对信息停止编码。向多个层增加影象可能有助于模子以更通用的方法应用其影象。与从前的任务比拟,该研讨在全部影象层中应用共享影象参数池,从而坚持参数数目雷同并最年夜化参数共享。该研讨经由过程引入存在 silu 非线性的输入相干门控来进步影象层的练习机能。等式 (1) 中的输出变为:此中 silu (x) = x sigmoid (x),⊙是元素的乘法(拜见图 3)。试验及成果起首,该研讨牢固影象巨细,并与麋集基线以及参数大抵婚配的 MOE 跟 PEER 模子停止比拟。从表 1 中咱们能够看出,Memory 模子比麋集基线模子有了年夜幅改良,在 QA 义务上的表示平日与麋集参数数目为其两倍的模子相称。Memory+ (有 3 个影象层)比 Memory 有了进一步的改良,其机能平日介于盘算才能超过其 2 到 4 倍的麋集模子之间。对雷同数目的参数,PEER 架构的表示与 Memory 模子类似,但落伍于 Memory+。MOE 模子的表示远不迭 Memory 变体。图 4 表现了差别巨细的 Memory、MOE 跟麋集模子在 QA 义务上的扩大机能。图 1 标明 Memory+ 模子的现实 QA 机能跟着影象巨细的增添而一直的增添。在 6400 万个键(1280 亿个影象参数)下,1.3B Memory 模子的机能濒临 Llama2 7B 模子,后者应用了 10 倍以上的 FLOPs(见表 2)。最后,本文在 8B 基本模子跟 4096^2 个影象值的基本上 (64B 影象参数)扩大了 Memory+ 模子,表 2 讲演了却果,发明影象加强模子的表示显明优于麋集基线。© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected] ]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->
购买咨询电话
400-123-4567