第348章 飢不择食的META
  “巴拉苏布拉马尼安教授,你对大语言模型怎么看?”扎克伯格问道。
  尼兰詹大脑开始高速运转起来,毕竟这可是关乎到自己的安危啊!得表现出价值,他才能在外面一直被保释,甚至是无罪释放。
  他內心苦笑了一声:这叫什么事,自己明明就无罪,现在居然还要表现出价值才能无罪,这国怎?
  “我认为这是一个很有发展潜力的方向,我前几年在acl会议上发表的论文《deforposing pre-trained transformers for faster question answering》针对的就是transformer-based qa模型的痛点-全层输入宽自注意力导致计算慢和內存高予以解决,我提出deformer,一个分解的transformer变体。
  在较低层,deformer用问题宽和段落宽自注意力替换全自注意力,避免问题和段落序列的交叉计算。
  这允许独立处理输入文本,实现段落表示的预计算,从而大幅减少运行时计算。
  deformer结构与transformer相似,可直接用预训练权重初始化,並在qa数据集上微调。
  我们的实验显示,deformer版本的bert和xlnet在qa任务上加速4.3倍以上,仅通过简单蒸馏损失损失1%准確率。”
  尼兰詹说的是他2020年在acl会议上发表的论文,是当时llm优化领域的经典工作,当时llm流行的模型叫bert,这篇论文直接构建在预训练transformer上,llm的瓶颈,也就是计算成本,在下游任务中凸显,这篇则一定程度上提出了解决思路。
  “包括我在2020年的另外一篇工作,其实和llm的核心,也就是多层注意力有著类似的核心逻辑”
  尼兰詹自然不是水货,他在人工智慧领域確实浸淫多年,有不错的成果,手上有好几篇顶会文章,都和llm有关。
  那还是2020年,当时大模型还名不见经传呢,在人工智慧领域属於边缘化的方向。
  扎克伯格是了很多冤枉钱,把脸书改名meta错误估计了元宇宙的到来时间,但不代表他没脑子,单纯因为尼兰詹是林燃的教授,就找他来。
  尼兰詹自己真有几把刷子,也是很重要的原因。
  大模型里的关键工作,包括自注意力机制、多头注意力、位置编码这些,尼兰詹都有深入的研究,毕竟他研究的重要方向之一就是nlp。