更新时间:2025-05-11 04:48作者:佚名
根据外国媒体汤姆(Tom)的硬件,这是5月9日的新闻,卡内基·梅隆大学(Carnegie Mellon University)的研究团队开发了一种名为Legogpt的AI模型,该模型可以根据文本说明生成实用的乐高设计。

IT家庭附件项目地址:LegoGPT:从文本中生成物理稳定且可建造的乐高设计
github:https://github.com/avalovelace1/legogpt/
根据引言,该团队训练了一种自回归的大型语言模型,以通过预测下一个令牌来确定下一件作品中要放置哪些构件。
该团队还向模型添加了带有身体知觉的回滚机制,以确保生成的设计没有诸如构建块重叠或悬挂之类的问题,这意味着最终结果始终是可行的,并且具有坚实的结构。不仅如此,LegoGPT输出设计还可以由人类构建并支持机器人操作。
用于训练LegoGPT的数据集命名为StableText2Lego,并且施工过程也非常复杂:系统将首先将文本提示转换为ShapenetCore网状型号,然后将其嵌入202020 Voxel网格中,以生成初步的乐高积木布局。
在保持整体形状不变的同时,系统会更改这些布局,然后消除结构上不稳定的设计。保留的样品将从24个不同角度渲染,并最终将移交给GPT-4O以生成相应的描述文本。
该数据集包含47,000多个乐高建筑样品,涵盖了28,000多个三维形状,包括书架,桌子,椅子,汽车,船只,吉他等。这些数据用于训练模型,从而使LegoGPT能够从文本中生成独特的原创设计。
LegoGPT首先将用户输入的文本转换为乐高设计图纸,然后将这些设计编码为文本令牌,从底部到顶部。然后,该系统将生成与带注释的Lego Build Block结构相对应的指令,从而使模型学会了解文本描述与构建块组件之间的对应关系。
接下来,LegoGPT使用自动进度来预测需要逐步放置的下一个构建块。每次添加构建块时,系统都会检查其格式是否正确,是否存在在构建块数据库中以及是否与现有结构发生冲突。这个过程一直持续到设计完成为止,并最终执行稳定性测试。
如果AI法官认为结构不稳定,它将自动回滚至最近的稳定状态,并从那时开始生成,直到稳定设计完成为止。
目前,该项目是完全开源的,并且团队已发布数据集,代码和模型,以促进其他人复制或扩展。