大模型已学会制作工具勇于探索商业模式的公司想帮AMD打破NVIDIA的垄断｜AGI创投周报

发布时间：2023-10-04 07:14:54 人气：来源：下载雷火电竞亚洲先驱

原标题：大模型已学会制作工具，勇于探索商业模式的公司想帮AMD打破NVIDIA的垄断｜AGI创投周报

AGI创投周报是阿尔法公社推出的聚焦于以大语言模型和生成式AI为代表的人工智能新浪潮的资讯周报。阿尔法公社希望发现和投资非凡创业者（AlphaFounders），相信非凡创业者在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

为此，我们与大家伙儿一起来分享我们欣赏的AlphaFounders所领导的公司在产品，技术和融资方面的新动向和新突破。

1.英伟达AI智能体接入GPT-4，在Minecraft中解锁游戏技术树速度提高15.3倍，具有终身学习能力。

2.大模型会制作和使用工具了：伯克利的Gorilla模型有望成为统御其它AI的AI模型；DeepMind、普林斯顿打造LATM闭环框架，让LLM自制并使用工具。

3.模型的训练成本降低：马腾宇团队推出新的大模型预训练优化器Sophia，比Adam快2倍，成本减半。

4.视觉生成更可控：UC伯克利、微软提出新框架Control-GPT，更好地控制图像中物体的大小、位置和空间关系，生成精确、高质量的图像。

5.创业公司Tiny Corp打造TinyGrad框架，使得开发者能够用AMD芯片进行AI的训练和推理，打破NVIDIA的AI生态垄断。

1.OpenAI炼出最强数学解题模型，解决了78%的代表性子集问题，达到SOTA

OpenAI通过一项简单的改进，使得大型模型在数学能力上达到了SOTA（State of the Art，指模型在性能和成本上达到最优），并开源了包含80万个人类反馈标签的论文数据集。

它基于GPT-4的研究微调了几个模型，采用不一样的监督方法：结果监督和过程监督。过程监督奖励正确的推理步骤，而结果监督仅关注最终答案。采用过程监督的Process Reward Model（PRM）在MATH测试集子集中解决了78%的问题。

OpenAI表示：我们大家都认为探索过程监督在数学之外领域的表现很重要。如果这些结果具有普遍性，那意味着过程监督将成为比结果监督更有效的方法。

过程监督在对齐方面也优于结果监督，奖励模型按照对齐的思维链做相关操作，每个步骤更精确，结果可解释性更高。相比之下，结果监督可能会引起奖励不对齐的过程，更难审查。过程奖励在数学领域解决了大模型推理方面的多个问题，提高了安全性和性能。

2.英伟达AI智能体接入GPT-4，自主写代码独自探索“我的世界”，无需人类插手

AI智能体又出爆款新作。最近，英伟达首席科学家Jim Fan等人把GPT-4整合进了「我的世界」（Minecraft）—提出全新的AI智能体Voyager。在作为AI智能体试验场的Minecraft游戏环境中,相比之前的SOTA模型，Voyager的表现突出:

它获得的物品比基线倍,解锁游戏技术树速度提高15.3倍。而且它不需要人类的干预和区别对待,能自主探索不同世界区域,并自主学习掌握基本生存技能如挖掘、建造等。

此外，它不依赖梯度下降,利用预训练的GPT-4语言模型并采用代码作为训练方式,自身具有终身学习能力。

他还对新任务有独特泛化能力:在零样本情况下,能全程解决所有新任务,而基线智能体无法通过。

研究认为Voyager有望作为通用AI的起点,但仍存在局限性，英伟达把Voyager的研究进行了彻底的开源。

大型语言模型性能强大，但为了更好地用于解决实际问题，各式各样的 API 是必不可少的。近日，UC伯克利和微软研究院造出了Gorilla模型，该模型能按照每个用户输入的自然语言为用户选择正真适合的 API 来执行对应任务。理论上讲，这个模型能够准确的通过用户需求调用其它各种 AI 模型，因此 Gorilla 有望成为一个统御其它 AI 的 AI 模型。

Gorilla采用了自指示微调（基于API文档及示例为每个API生成对应指令）和检索感知型训练（在微调过程中附加提示让Gorilla利用API文档），这使它能适应API文档的变化，通过上下文提升性能并减少幻觉错误。

Gorilla能够访问更多网络API获取数据完成复杂计算，实现功能扩展超出自身能力，并与更多系统交互成为统御其他AI的桥梁。通过实验，研究者发现在API功能准确性以及降低幻觉错误方面，Gorilla均显著优于GPT-4。

为进一步提升大型语言模型（LLM）的生产力，一支来自DeepMind、普林斯顿和斯坦福的华人团队提出了一种名为LATM的闭环框架，让LLM自制并使用工具。值得一提的是，谷歌首席执行官Sundar Pichai在2022年谷歌I/O大会上介绍了他们的工作。

成本效益：轻量级模型如GPT-3.5 Turbo能在保持高成本效率的同时，达到与强大模型如GPT-4相当的性能。

灵活性：该框架适用于多种任务场景，且能根据给定条件确定对象顺序等复杂任务。

本项研究的论文一作是普林斯顿大学的博士生蔡天乐，此前毕业于北京大学，其他作者还包括谷歌大脑的研究科学家Xuezhi Wang（曾就读于清华大学和卡内基梅隆大学），斯坦福大学助理教授马腾宇。

斯坦福大学马腾宇团队（是的，上一个研究他们团队也有参与），发明了一种名为Sophia的可扩展二阶优化器，旨在减少语言模型预训练的时间和成本。目前，预训练大型语言模型需要耗费巨大的时间和资源，而Sophia提供了一种简单而有效的解决方案。

传统上，Adam及其变体一直被认为是最先进的大模型预训练优化器，但它们在某些情况下会产生过多的开销。Sophia的设计初衷是通过更快的优化器来提高预训练效率，从而在减少步数的情况下实现与Adam相同的验证预训练损失。

实验结果为，在减少50%的步数的同时，Sophia可以在一定程度上完成与Adam相同的验证预训练损失。

不仅如此，Sophia还能够显著减少总计算量和wall-clock时间。相对于Adam，Sophia在计算量上减少了50%，在wall-clock时间上也减少了50%。这在某种程度上预示着使用Sophia进行预训练可以极大地降低时间和成本，同时提高模型的效果。

6.LLM推理提速2.8倍，CMU提出「投机式推理」引擎SpecInfer，小模型撬动大模型高效推理

近日，卡内基梅隆大学（CMU）的Catalyst Group团队发布了一款名为SpecInfer的「投机式推理」引擎。该引擎可通过轻量化的小模型在不影响生成内容准确度的情况下，帮助大模型实现两到三倍的推理加速，这有助于解决大规模语言模型（LLM）面临的推理效率和成本问题。

SpecInfer在不同对话数据集上相比增量式解码的LLM，推理延迟降低了1.9到2.8倍。同时，使用多个小模型时，LLM的验证通过序列长度也有所提升。

7.用GPT-4实现可控文本图像生成，UC伯克利、微软提出新框架Control-GPT

近年来，文生图领域取得了显著突破，从GAN到Stable Diffusion，图像生成的速度慢慢的变快，生成效果慢慢的变好。但生成的图像仍存在细节上的瑕疵，并且准确控制生成图像的位置、大小和形状仍然具有一定困难。

为了解决这样一些问题，UC伯克利和微软研究院的研究者提出了一种名为Control-GPT的框架，利用大型语言模型（LLM）生成代码来控制文本到图像生成过程。

Control-GPT的优点是减少了对人工工作的需求，提高了图像生成模型的可控性。该研究的实验根据结果得出，GPT系列模型在生成草图方面表现出高准确性，并且Control-GPT相对于其他经典模型在生成多个物体布局时表现更好。Control-GPT可以更加好地控制图像中物体的大小、位置和空间关系，生成精确、高质量的图像。

8.清华朱军团队带来重大进展：无需任何3D数据，直接文本生成高质量3D内容

清华大学计算机系朱军教授带领的TSAIL团队近期公开的一篇论文，提出了一种叫ProlificDreamer的算法，这种算法在文本到3D领域取得了重大突破，在无需任何3D数据的前提下能够生成超高质量的3D内容。

传统的文本到3D生成方法需要大量标记的3D数据集，而ProlificDreamer通过优化概率分布的方式避免了这样的一个问题，使得从简单文本描述中生成具体的高质量3D模型成为可能。

ProlificDreamer采用了Variational Score Distillation（VSD）算法，重新形式化了文本到3D生成的问题，该算法能够生成细节丰富、多样性高的3D内容，解决了传统方法中过于平滑、过饱和和缺乏多样性的问题。

OpenAI的最强对手Anthropic近日完成了4.5亿美元的C轮融资，以逐步发展其AI产品Claude。公司目前尚未对外透露其估值，但知情人士称其估值接近50亿美元。

本轮融资将支持Anthropic继续发展其AI系统，包括Claude。Anthropic的目标是通过本轮融资扩大其产品供应，支持在市场上负责任地部署Claude的企业，以及推进AI安全研究。

Axelera AI是⼀家荷兰人工智能半导体制造商，近日，它获得超募的5000万美元A轮融资。

Axelera AI正在设计高效、先进的边缘AI解决方案。通过他们的Metis AI平台，客户公司在大幅度降低成本和功耗的情况下，能够给大家提供最佳的性能和用户友好性。与现有的替代方案相比，他们的平台旨在让更多的人可以每时每刻轻松地获得人工智能服务。

前英特尔Edge AI和物联网业务副总裁兼总经理Jonathan Ballon将担任Axelera AI董事长。Massimo Vanzi博士最近被任命为其董事会成员，其在深科技与半导体技术领域有超过45年的产业经验。

Axelera AI首席执行官兼联合创始人Fabrizio del Maffeo表示：“本轮投资的完成紧随我们宣布Thetis Core技术，向AI社区证明了我们技术的优势。我们很高兴和投入资金的人合作，成为欧洲AI领域的领导者，加强大陆在全球行业中的地位。”

3.TinyCorp获500万美元融资，用于构建面向AMD芯片的深度学习软件

近日，Tiny Corp从私人投资者处获得500万美元融资。Tiny Corp的主要的产品是TinyGrad的框架，使得开发者能够用AMD芯片进行AI的训练和推理。

George Holtz认为相比制造AI芯片，打造软件更难，他和他的团队希望为AMD芯片打造软件，让更多AI开发者能够用更便宜的AMD GPU进行训练和推理。

MLCommons年年都会举办MLPerf比赛，比赛的目标是比拼训练常见模型的速度。Tiny Corp的短期目标是通过TinyGrad框架使AMD能够参与MLPerf比赛。

在商业上，Tiny Corp暂时不会是盈利组织，它通过销售一个叫TinyBox的算力机器获取资金维持运营，TinyBox拥有738 FP16 TFLOPS的算力，30 GB/s 模型加载带宽（大型Llama模型在约4秒内加载完成），用户都能够花15000美元购买，也能以100美元每天的价格租用。

Visual Layer开发了一款视觉数据管理平台，这样的平台利用其专有的图引擎自动检验测试数据质量上的问题，如损坏的图像、错误的标签和离群值，并建议纠正措施以确保高质量的数据集，使客户的数据科学家和机器学习工程师能及时有效地发现输入数据集的问题，并相应地做出调整，确保数据性能和准确性的优化。

Bickson表示：“全球各地的公司和组织都在经历数据爆炸，而视觉数据是最复杂和最具挑战性的数据类型之一。理解、策划和管理这一些内容对于为客户构建有意义的服务至关重要。”

近日，法律软件公司Spellbook宣布获得1090万美元A轮融资，本轮融资由汤森路透、Moxxie、Bling Capital 等共同投资。此前，公司于2021年10月进行了种子轮融资。

Spellbook主要是通过GPT-4+数十亿份法律文件+其他大语言模型打磨而成。仅为专业律师提供服务，通过自然语言就能自动起草、审核法律合同等。例如，打开⼀份Word格式的劳动合同，然后用鼠标选择一段薪酬的内容；询问Spellbook，从法律层面看，这段内容有哪些需要补充的，AI很快就会给出文本建议。

根据Spellbook官方信息数据显示，目前它已为600多个法律团队提供专注法律的ChatGPT服务，候补申请名单超过54,000人并且仍保持高速增长。

公司三位创始人Matthew Mayers、Scott Stevenson和Daniel Di Maria有长期合作的经验，2017年，三人共同创办了⼀家网络应用公司Rallynow，用户都能够用无摩擦的方式完全在云端管理他们的合同和公司的法律文件。

Vectara是一个生成式AI服务平台，它提供了类ChatGPT对话式服务，用户都能够将PDF、Word、PPT、RTF等文件数据上传至Vectara平台中，构建数据搜索引擎。近日，Vectara宣布获得由Race Capital领投的2850万美元种子轮融资。

Vectara提供基于云的对话生成式大型语言模型的“搜索即服务”（search-as-a-service），允许企业与其自有数据来进行智能对话，例如文件、知识库和代码。它的AI类似于OpenAI的ChatGPT，但适用于企业自有数据。Vectara提供应用程序编程接口，使研发人员可以快速访问其服务，并将其嵌入到他们的应用程序、网站、聊天机器人和帮助台中。

Vectara的联合发起人兼首席执行官Amr Awadallah在AI行业拥有丰富的经验，他曾是Cloudera的联合发起人和CTO，也曾是谷歌云的VP，他的两位联合发起人Tallat M. Shafaat和Amin Ahmad均曾是谷歌的资深技术专家。

近日，Sixfold获得650万美元种子轮融资，它通过训练生成式人工智能解决保险行业的难题，尤其是保险核保的低效率问题。

Sixfold开发了一种生成式人工智能，特别针对保险行业的难题进行训练和优化。该技术将生成式AI模型与保险行业的专业相关知识相结合，旨在解决保险核保过程中的低效率问题，例如从第三方获取信息、处理大量文件及理解非结构化数据。

Sixfold的创始团队由在高度监管行业拥有数十年经验的前创始人和运营者组成。首席运营官和联合发起人Jane Tran曾是估值20亿美元的企业级无代码平台Unqork的创始小组成员，负责运营方面的工作。首席技术官和联合发起人Brian Moseley则曾在美国运通公司担任开发者体验主管，具备丰富的技术背景。

上一篇：76直播预告三维视觉：传统与现代CVPR最佳学生论文背面的故事下一篇：【48812】AI辨认、3D定位！这个体系让森林草原防火有了“才智眼”

返回相关新闻

大模型已学会制作工具勇于探索商业模式的公司想帮AMD打破NVIDIA的垄断｜AGI创投周报

在线留言