卡内基梅隆大学推出AI模型LegoGPT，敲键盘就能生成可搭建积木（卡内基梅隆ssd）

更新时间：2025-05-11 04:48作者：佚名

根据外国媒体汤姆（Tom）的硬件，这是5月9日的新闻，卡内基·梅隆大学（Carnegie Mellon University）的研究团队开发了一种名为Legogpt的AI模型，该模型可以根据文本说明生成实用的乐高设计。

IT家庭附件项目地址：LegoGPT:从文本中生成物理稳定且可建造的乐高设计

github：https://github.com/avalovelace1/legogpt/

根据引言，该团队训练了一种自回归的大型语言模型，以通过预测下一个令牌来确定下一件作品中要放置哪些构件。

该团队还向模型添加了带有身体知觉的回滚机制，以确保生成的设计没有诸如构建块重叠或悬挂之类的问题，这意味着最终结果始终是可行的，并且具有坚实的结构。不仅如此，LegoGPT输出设计还可以由人类构建并支持机器人操作。

用于训练LegoGPT的数据集命名为StableText2Lego，并且施工过程也非常复杂：系统将首先将文本提示转换为ShapenetCore网状型号，然后将其嵌入202020 Voxel网格中，以生成初步的乐高积木布局。

在保持整体形状不变的同时，系统会更改这些布局，然后消除结构上不稳定的设计。保留的样品将从24个不同角度渲染，并最终将移交给GPT-4O以生成相应的描述文本。

该数据集包含47,000多个乐高建筑样品，涵盖了28,000多个三维形状，包括书架，桌子，椅子，汽车，船只，吉他等。这些数据用于训练模型，从而使LegoGPT能够从文本中生成独特的原创设计。

LegoGPT首先将用户输入的文本转换为乐高设计图纸，然后将这些设计编码为文本令牌，从底部到顶部。然后，该系统将生成与带注释的Lego Build Block结构相对应的指令，从而使模型学会了解文本描述与构建块组件之间的对应关系。

接下来，LegoGPT使用自动进度来预测需要逐步放置的下一个构建块。每次添加构建块时，系统都会检查其格式是否正确，是否存在在构建块数据库中以及是否与现有结构发生冲突。这个过程一直持续到设计完成为止，并最终执行稳定性测试。

如果AI法官认为结构不稳定，它将自动回滚至最近的稳定状态，并从那时开始生成，直到稳定设计完成为止。

目前，该项目是完全开源的，并且团队已发布数据集，代码和模型，以促进其他人复制或扩展。

美国留学