第348章飢不择食的META

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;“巴拉苏布拉马尼安教授，你对大语言模型怎么看？”扎克伯格问道。

&emsp;&emsp;尼兰詹大脑开始高速运转起来，毕竟这可是关乎到自己的安危啊！得表现出价值，他才能在外面一直被保释，甚至是无罪释放。

&emsp;&emsp;他內心苦笑了一声：这叫什么事，自己明明就无罪，现在居然还要表现出价值才能无罪，这国怎？

&emsp;&emsp;“我认为这是一个很有发展潜力的方向，我前几年在acl会议上发表的论文《deforposing pre-trained transformers for faster question answering》针对的就是transformer-based qa模型的痛点-全层输入宽自注意力导致计算慢和內存高予以解决，我提出deformer，一个分解的transformer变体。

&emsp;&emsp;在较低层，deformer用问题宽和段落宽自注意力替换全自注意力，避免问题和段落序列的交叉计算。

&emsp;&emsp;这允许独立处理输入文本，实现段落表示的预计算，从而大幅减少运行时计算。

&emsp;&emsp;deformer结构与transformer相似，可直接用预训练权重初始化，並在qa数据集上微调。

&emsp;&emsp;我们的实验显示，deformer版本的bert和xlnet在qa任务上加速4.3倍以上，仅通过简单蒸馏损失损失1%准確率。”

&emsp;&emsp;尼兰詹说的是他2020年在acl会议上发表的论文，是当时llm优化领域的经典工作，当时llm流行的模型叫bert，这篇论文直接构建在预训练transformer上，llm的瓶颈，也就是计算成本，在下游任务中凸显，这篇则一定程度上提出了解决思路。

&emsp;&emsp;“包括我在2020年的另外一篇工作，其实和llm的核心，也就是多层注意力有著类似的核心逻辑”

&emsp;&emsp;尼兰詹自然不是水货，他在人工智慧领域確实浸淫多年，有不错的成果，手上有好几篇顶会文章，都和llm有关。

&emsp;&emsp;那还是2020年，当时大模型还名不见经传呢，在人工智慧领域属於边缘化的方向。

&emsp;&emsp;扎克伯格是了很多冤枉钱，把脸书改名meta错误估计了元宇宙的到来时间，但不代表他没脑子，单纯因为尼兰詹是林燃的教授，就找他来。

&emsp;&emsp;尼兰詹自己真有几把刷子，也是很重要的原因。

&emsp;&emsp;大模型里的关键工作，包括自注意力机制、多头注意力、位置编码这些，尼兰詹都有深入的研究，毕竟他研究的重要方向之一就是nlp。

第348章 飢不择食的META

第348章飢不择食的META