首页 > 热点 > 内容页

焦点速讯：60 行代码就能构建 GPT！网友：比之前的教程都要清晰

2023-02-19 12:07:38 来源：量子位

现在只用 60 行代码，就能从 0 构建 GPT 了！

想当初，前特斯拉前 AI 总监的 minGPT 和 nanoGPT 也都还要 300 行代码。

这个 60 行代码的 GPT 也有名字，博主将它命名为PicoGPT。

(资料图片仅供参考)

不过和此前 minGPT 和 nanoGPT 的教程不同，今天要讲的这个博主的教程，更侧重于代码实现部分，模型的权重则用已经训练好的。

对此，博主解释称这篇教程的重点在于提供一个简单且易于破解的完整技术介绍。

这对还不理解 GPT 背后概念的盆友，算是非常友好了。

还有网友称赞，这篇博客介绍得非常清晰，第一部分尤为如此。

这篇介绍 GPT 模型的文章太好了，它比我之前看到的介绍都要清晰，至少在第一部分讨论文本生成和取样是这样的。

目前，此项目在 GitHub 上标星已破百，HackerNews 上的点击量也即将破千。从 GPT 是什么讲起

在介绍之前，还是需要说明一下，这篇教程不是完全零门槛，需要读者提前熟悉 Python、NumPy 以及一些基本的训练神经网络。

教程的重点聚焦在技术介绍上，统共有六大部分：

什么是 GPT？

按照惯例，在正式构建 GPT 之前得先对它做一些基本介绍，教程从输入 / 输出、生成文本以及训练三个部分分别来讲 GPT 是如何工作的。

在这趴，博主附上代码，甚至还用了一些比喻来让读者们更好地理解 GPT。

举个栗子，在输入这一部分，作者将句子比作一条绳子，tokenizer 则会将其分割成一小段一小段（单词），被称作 token。

又比如说，在生成文本这 part 介绍自动回归时，博主直接贴上代码：

def generate ( inputs, n_tokens_to_generate ) :

for _ in range ( n_tokens_to_generate ) : # auto-regressive decode loop

output = gpt ( inputs ) # model forward pass

next_id = np.argmax ( output [ -1 ] ) # greedy sampling

inputs = np.append ( out, [ next_id ] ) # append prediction to input

return list ( inputs [ len ( inputs ) - n_tokens_to_generate : ] ) # only return generated ids

input_ids = [ 1, 0 ] # "not" "all"

output_ids = generate ( input_ids, 3 ) # output_ids = [ 2, 4, 6 ]

output_tokens = [ vocab [ i ] for i in output_ids ] # "heroes" "wear" "capes"

在每次迭代中，它会将预测的 token 追加回输入，这个预测未来值并将其添加回输入的过程就是 GPT 被描述为自动回归的原因。

60 行代码怎么运行？

了解完 GPT 的基本概念之后，就直接快进到了如何在电脑上运行这个 PicoGPT。

博主先是甩出了他那只有 60 行的代码：

import numpy as np

def gpt2 ( inputs, wte, wpe, blocks, ln_f, n_head ) :

pass # TODO: implement this

def generate ( inputs, params, n_head, n_tokens_to_generate ) :

from tqdm import tqdm

for _ in tqdm ( range ( n_tokens_to_generate ) , "generating" ) : # auto-regressive decode loop

logits = gpt2 ( inputs, **params, n_head=n_head ) # model forward pass

next_id = np.argmax ( logits [ -1 ] ) # greedy sampling

inputs = np.append ( inputs, [ next_id ] ) # append prediction to input

return list ( inputs [ len ( inputs ) - n_tokens_to_generate : ] ) # only return generated ids

def main ( prompt: str, n_tokens_to_generate: int = 40, model_size: str = "124M", models_dir: str = "models" ) :

from utils import load_encoder_hparams_and_params

# load encoder, hparams, and params from the released open-ai gpt-2 files

encoder, hparams, params = load_encoder_hparams_and_params ( model_size, models_dir )

# encode the input string using the BPE tokenizer

input_ids = encoder.encode ( prompt )

# make sure we are not surpassing the max sequence length of our model

assert len ( input_ids ) + n_tokens_to_generate < hparams [ "n_ctx" ]

# generate output ids

output_ids = generate ( input_ids, params, hparams [ "n_head" ] , n_tokens_to_generate )

# decode the ids back into a string

output_text = encoder.decode ( output_ids )

return output_text

if name == "__main__":

import fire

fire.Fire ( main )

然后从克隆存储库，安装依赖项等步骤一步步教你如何在电脑上运行 GPT。

其中，还不乏一些贴心的小 tips，比如说如果使用的是 M1 Macbook，那在运行 pip install 之前，需要将 requments.txt 中的 tensorflow 更改为 tensorflow-macos。

此外，对于代码的四个部分：gpt2，generate，main 以及 fire.Fire ( main ) ，博主也有做详细解释。

等到代码能够运行之后，下一步博主就准备详细介绍编码器、超参数（hparams）以及参数（params）这三部分了。

直接在笔记本或者 Python 会话中运行下面这个代码：

from utils import load_encoder_hparams_and_params

encoder, hparams, params = load_encoder_hparams_and_params ( "124M", "models" )

更具体的内容这里就不多说了，教程的链接已经附在文末。

一些基础神经网络层的介绍

这一趴涉及到的知识就更加基础了，因为下一趴是实际 GPT 自身的架构，所以在此之前，需要了解一些非特定于 GPT 的更基本的神经网络层。

博主介绍了 GeLU、Softmax 函数以及 Layer Normalization 和 Linear。

GPT 架构

终于！这部分要来讲 GPT 自身的架构了，博主从 transformer 的架构引入。

△transformer 架构

GPT 的架构只使用了 transformer 中的解码器堆栈（即图表的右边部分），并且其中的的 " 交叉注意 " 层也没有用到。

△GPT 架构

随后，博主将 GPT 的架构总结成了三大部分：

文本 + 位置嵌入

变压器解码器堆栈

下一个 token 预测头

并且还将这三部分用代码展示了出来，是酱紫的：

def gpt2 ( inputs, wte, wpe, blocks, ln_f, n_head ) : # [ n_seq ] -> [ n_seq, n_vocab ]

# token + positional embeddings

x = wte [ inputs ] + wpe [ range ( len ( inputs ) ) ] # [ n_seq ] -> [ n_seq, n_embd ]

# forward pass through n_layer transformer blocks

for block in blocks:

x = ransformer_block ( x, block, n_head=n_head ) # [ n_seq, n_embd ] -> [ n_seq, n_embd ]

# projection to vocab

x = layer_norm ( x, ln_f ) # [ n_seq, n_embd ] -> [ n_seq, n_embd ]

return x @ wte.T # [ n_seq, n_embd ] -> [ n_seq, n_vocab ]

再后面，就是关于这三部分的更多细节……

测试构建的 GPT

这部分将全部的代码组合在一起，就得到了 gpt2.py，统共有 120 行代码，删除注释和空格的话，就是 60 行。

然后测试一下！

python gpt2.py

"Alan Turing theorized that computers would one day become"

--n_tokens_to_generate 8

结果是这样的：

the most powerful machines on the planet.

成功了！

一些后续补充

最后一部分，博主也总结了这短短 60 行代码的不足：非常低效！

不过他还是给出了两个可以让 GPT 变高效的方法：

同时地而不是顺序地执行注意力计算。

实现 KV 缓存。

此外，博主还推荐了一些训练模型、评估模型以及改进架构的方法和教程。

感兴趣的话，直接戳文末链接～

作者介绍

Jay Mody，目前在加拿大一家 NLP 初创公司 Cohere 从事机器学习的工作，此前，他还分别在特斯拉和亚马逊作为软件工程师实习过一段时间。

除了这篇教程之外，小哥的博客网站上还有更新其他文章，并且都有附代码～代码传送门：

https://github.com/jaymody/picoGPT/blob/29e78cc52b58ed2c1c483ffea2eb46ff6bdec785/gpt2_pico.py#L3-L58

教程链接：

https://jaykmody.com/blog/gpt-from-scratch/#putting-it-all-together

标签：神经网络是这样的第一部分

网红奶茶品牌茶颜悦色又上了热搜英译名“Sexytea”引发热议

一向以排队闻名的网红奶茶品牌茶颜悦色，又上了热搜。近日，茶颜悦...

财经

重磅！首个钢铁行业EPD平台正式上线

科技

x 广告

焦点速讯：60 行代码就能构建 GPT！网友：比之前的教程都要清晰

焦点速讯：60 行代码就能构建 GPT！网友：比之前的教程都要清晰

现在只用60行代码，就能从0构建GPT了！想当初，前特斯拉前AI总监的m...

环球热消息：种植菜园的 17 个技巧

18个中的第1个能够在您的后院购买丰盛沙拉或自制披萨所需的所有农产...

每日短讯：亚马逊宣布 5 月 1 日开始，员工每周在公司办公时间至少 3 天

IT之家2月18日消息，亚马逊首席执行官AndyJassy在其公司博客上宣布...

当前讯息：今日珠宝抵用券2000_商场珠宝刮2000抵用券

1、在超市购物后，有人告诉你，凭购物小票可以免费抽奖。2、只要抽...

全球速讯：五菱又一纯电小车，外观硬朗时尚，续航303km，产品力如何？

在微型车市场上，五菱的表现一直是比较出色的。尤其是宏光MINIEV的...

全球实时：台湾青年女厨师大陆开餐厅：“饭”香不怕巷子深

“你看，我的餐厅既没在商场，也没在小吃街，而在比较偏僻的位置。

今日热文：控林智坚盖新竹球场A很多 吴子嘉获不起诉

《美丽岛电子报》董事长吴子嘉去年7月在直播节目“董事长开讲”指新...

天天速递！梅森罐足球布朗尼零食

1的10概述超级碗派对时间到了！享受这款梅森罐布朗尼圣代的盛大游戏...

全球热讯:奋进的春天｜快起步 忙生产 云岭“三农”拎稳幸福的菜篮

2月13日，2023年中央一号文件公布，这是21世纪以来第20个指导“三农...

每日看点！如何更换罐装球罐上的金属丝箍

你需要的东西球罐更换线环套。用于罐装目的的电线和保释外壳已过时...

快报：定积分元素法怎么理解_定积分的元素法是什么意思

1、如何理解定积分元法？还有很多朋友不知道。接下来就请大家来和我...

世界热议:2023年十款开源测试开发工具推荐（自动化、性能、混沌测试、造数据、流量复制）

先给各位读者粉丝拜个晚年！祝大家新年快乐，阖家幸福！今天为大家...

每日时讯!DNF怎么用TGP助手双开_dnf助手多开

1、DNF如何使用TGP助手进行双开？2、首先，下载一个TGP助手，安装后...

世界热议:轻瓦斯动作的现象和处理_轻瓦斯动作后必须有自保持回路 什么意思

1、变压器内部有轻微故障；变压器内部存在空气；二次回路故障等。2...

世界快消息！财政部发行2023年记账式贴现（十期）国债

财政部发行2023年记账式贴现（十期）国债

【全球快播报】富奥股份（000030）2月17日主力资金净卖出279.29万元

截至2023年2月17日收盘，富奥股份(000030)报收于4 99元，上涨0 2%...

环球报道:26年不懈追凶 西宁城东公安成功破获一起命案积案

法治日报全媒体记者徐鹏近日，青海省西宁市公安局城东分局通过深度...

【天天聚看点】伴读 | 最美好的关系：频率相同，灵魂相似

文|念念沐心·来源|念念沐心（ID：nnsg1021)·主播|翅膀·摄影|唯一...

今日最新！浙商证券给予百利科技买入评级，百利科技点评报告：拟设立新材料基金，向新一代动力电池材料与装备拓展

浙商证券给予百利科技买入评级，百利科技点评报告：拟设立新材料基...

环球今日报丨米尔斯炮轰杜欧：不想干的人都走了，篮网更衣室已经是季后赛球队

自从布鲁克林篮网当家球星凯文杜兰特和凯里欧文走后，没有超级巨星...

全球今热点：房地产信息管理平台

1、阜南县房产管理信息系统需求说明书阜南县房产管理局第一章前言编...

环球热资讯！跳跳虎动画片人物介绍_史努比动画片人物介绍

1、CharlieBrown:查理·布朗Snoopy的主人，Charlie是一个心地善良的...

当前播报:苹果期货炒成“果农”，“交割果”受到舆论关注

近期，资深期货交易人士“林登万”因为“炒期货炒成果农”，交割回...

今日要闻!千名职工“美丽杭州一日游”首发团启动 在钱塘区感受文化新内涵

2月16日，由杭州市总工会、钱塘区人民政府主办的2023年千名职工“美...

焦点报道:大卖场退潮，实体零售败给时代

在因为购物卡“挤兑”、COO离职被广泛关注后，家乐福近日又被供应商...

速看：刘禅当真软弱无用?他说过3句话暴露真相_让众人感到诧异

1、东汉末年风云变幻、群雄逐鹿，最后成就一番大业的只有刘备、曹操...

全球热资讯！川财证券：南非电力危机发酵 关注相关金属投资机会

川财证券发布研究报告称，在稳增长政策持续支撑下，内需有望持续扩...

天天热推荐：武则天跟着李世民11年没怀孕，为何与李治一夜就中？原因很简单

说起武则天的话，那可真的是历史上的一个了不起的奇女子了。在当时...

全球热文：股票中换手率什么意思_股票换手是什么意思

1、换手就是股票的交易活跃程度，比如一家公司一共发行了100股股票...

播报：脸上有个坑怎么修复

脸上有个坑怎么修复， 能够用得按摩手法，姜片，擦抹维...

网红奶茶品牌茶颜悦色又上了热搜 英译名“Sexytea”引发热议

一向以排队闻名的网红奶茶品牌茶颜悦色，又上了热搜。近日，茶颜悦...

今日热文：控林智坚盖新竹球场A很多　吴子嘉获不起诉

全球热讯:奋进的春天｜快起步忙生产云岭“三农”拎稳幸福的菜篮

世界热议:轻瓦斯动作的现象和处理_轻瓦斯动作后必须有自保持回路什么意思

环球报道:26年不懈追凶西宁城东公安成功破获一起命案积案

今日要闻!千名职工“美丽杭州一日游”首发团启动在钱塘区感受文化新内涵

全球热资讯！川财证券：南非电力危机发酵关注相关金属投资机会

脸上有个坑怎么修复，能够用得按摩手法，姜片，擦抹维...

网红奶茶品牌茶颜悦色又上了热搜英译名“Sexytea”引发热议