文本生成高质量3D模型支持二次编辑！Stable Difusion新产品来啦

发布时间：2023-12-23 16:46:02 人气：来源：下载雷火电竞亚洲先驱

11月2日，著名开源平台Stability AI（Stable Difusion母公司）在官网宣布推出了Stable3D，支持用户通过文本、图片或插图，直接就能生成高质量3D模型。生成模型的格式是.obj，可以直接在Blender、Maya、C4D、ZBrush等主流3D模型开发平台中进行二次编辑，同时支持导入到Unreal Engin

本文由站长之家合作伙伴自媒体作者“AIGC开放社区公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了能够更好的保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，稳定性很高，让您的云端之旅更加畅享。快来腾讯云选购吧！

文生图平台Playground宣布开源PlaygroundV2版本，允许商业化，用户通过文本就能生成3D、动漫、素描、朋克、暗黑等多种类型1024x1024图片，同时无偿提供在线体验。PlaygroundV2是基于StableDiffusionXL开发成从Midjourney搜集了10个类别，每个类别包含3000个样本的高质量图片用于图文对齐。本文素材来源Playground官网灰色的外星人，呈现出不同色调的蛇皮纹理，融合了机器人颈部特征，超大迷

MIT和Adobe的研究人员最近提出了一种新颖的人工智能方法，称之为分布匹配蒸馏，该方法旨在将扩散模型转化为一步图像生成器，从明显提高图像生成的效率和质量。据称他们的一步生成器在生成逼真图像方面不仅与StableDiffusionv1.5相媲美速度更快30倍。这一研究为图像生成领域带来了崭新的可能性，通过创新的方法，使得生成模型在效率和质量方面都取得了显著提升。

12月14日，著名生成式AI开源平台Stability.ai在官网开源了，图片生成高质量3D模型——StableZero123。StableZero123是基于今年3月，丰田研究院和哥伦比亚大学联合开源的Zero123模型开发成。StableZero123模型大多数都用在研究，未来会开放商用。

智谱AI发布了高质量、低成本的评分模型CritiqueLLM，用于评估文本生成模型的性能。传统的评价指标如BLEU和ROUGE主要基于n-gram重合度来计算评分，缺乏对整体语义的把握。通过这一些步骤，能够获得适用于含参考文本和无参考文本设定的两种CritiqueLLM模型，用于评估文本生成模型的性能。

芝加哥大学的研究人员与SnapResearch合作，推出了一种名为3D画笔的人工智能方法，通过文本描述自动生成网格上的局部语义区域的纹理。这一创新使得用户都能够通过直观的、自由形式的文本输入控制纹理编辑，为各种网格描述其编辑。这一研究为3D建模和纹理编辑领域带来了新的可能性，为游戏、动画、电影等各个行业提供了更加高效和直观的纹理编辑工具。

在3D生成领域，为了实现高质量的3D人体外观和几何形状，研究者们一直在探索自动化的生成方法。传统方法需要经历多个人工制作步骤最新的HumanGaussian框架通过结构感知的SDS和负文本引导等核心方法，成功解决了3D人体生成中效率与质量之间的权衡问题。这一框架的开源将为相关研究者提供有力工具，推动3D生成领域的发展。

StabilityAI是一家以StableDiffusion文本到图像生成器闻名的公司，宣布其新的基础图像到视频模型StableVideoDiffusion现已在其开发者平台上并通过其应用程序编程接口提供，允许第三方开发者将其整合到自己的应用程序、网站、软件和服务中。该公司写道:“这一新功能提供了对专为各个领域设计的最先进视频模型的编程访问……我们发布此版本的目标是为开发人员提供一种有效的方法

MoMask是一个创新的3D人体运动生成模型，其核心思想是通过层级量化方案表示人体动作，包括基础层和逐层的残差标记。在模型结构上，引入了MaskedTransformer和ResidualTransformer，分别用于预测基础层的掩码动作标记和逐渐预测更高层次的标记。其在重建、生成和比较方面的实验证明了其在3D人体动作建模领域的卓越性能。

生成式AI在3D领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统3D建模涉及游戏、影视、建筑等多个行业，普遍依赖专业人员手动操作，生产周期短则几天，多则以月为单位，单个3D模型的创建成本至少需要几千元。或许在不久之后，3D赛道也会出现像「ChatGPT」这样的现象级产品VAST这家年轻的中国初创公司格外值得期待。

根据斯坦福互联网观察站周三发布的一项新研究，流行的人工智能图像生成器的基础数据库中隐藏着数千张儿童图片。作为对这一研究的回应，一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。LAION的创始人是德国研究员和教师ChristophSchuhmann，他今年早些时候表示，公开提供如此庞大的视觉数据库的部分原因是为了确保AI发展的未来不受少数强大公司的

如果您需要一个快速准确的AI检测工具，您来对地方了。我们的AI内容检测器可以准确地显示出文本中是否有任何部分是由AI生成的。使用它并自行检查！

Reference Finder是一个帮助学生快速找到可靠引用来源的工具。它可以提供一系列与您的论文主题相关的可靠来源，帮助您快速完成论文。使用我们的引用查找工具，轻松快捷地撰写论文。

Fast HW是一款AI写作助手，帮助你轻松引用科学文献并组织你的文章。它能够提供写作建议、自动引用文献、优化语言表达等功能，让你的写作更加高效和专业。定价灵活多样，适用于大学生和专业写作人士。

CoGrader 是一款教师评分助手，通过 AI 技术帮助教师高效评分，提供即时和全面的反馈，节省 80% 的评分时间。支持 Google Classroom 集成，可以导入和导出作业。通过分析学生数据，提供班级分析和挑战点，支持多语言评分。

Rex.fit是一个由AI驱动的营养和健身教练，旨在根据个人的独特目标（如长寿、减肥或增肌）量身定制健康转型方案。通过WhatsApp与Rex交流，用户可以记录餐食、获取个性化的锻炼建议、查看日常报告和反馈，从而在减重、健身或提高生活质量方面取得显著进展。

Aha Vector Search是一个高性能、低成本的端到端向量搜索服务。它提供了一种快速构建端到端向量搜索的方法，帮助用户以更低的成本实现高效的搜索体验。

SparkSocial是一款AI驱动的社交媒体营销工具，通过监控关键词、实时追踪、情感分析和全面报告，帮助用户更接近受众。它提供自动生成回复、竞争分析、受众发现等功能，帮助用户发现潜在客户、提升品牌曝光、进行大规模冷外联等，同时提供数据驱动的报告和分析。定价灵活，适用于企业、代理机构、SaaS以及创作者。

News Minimalist是一个AI策展的新闻摘要服务，它从海量新闻中筛选出线%的故事。这个服务提供了一个没有垃圾新闻、点击诱饵或广告的纯净新闻阅读体验，用户能够最终靠每日通讯获得新闻摘要。

Creately VIZ是一款AI视觉智能工具，能够快速生成可视化内容，自动化任务，并帮助用户发现新的视角。它提供多种功能，包括AI模板生成、自动化工作流程、与团队协作等。适用于各种场景，如白板协作、业务流程管理、战略规划等。产品定位于提高团队工作效率，提供创新视角。

GeminiProChat是GeminiPro的最小化Web界面，提供简洁有效的聊天体验。它支持通过环境变量来控制网站，允许使用者通过Docker部署，并提供易于部署的Vercel和Railway选项。GeminiProChat是一个灵活的工具，适用于需要简单、高效聊天界面的用户。

AppAgent是一个基于LLM（大型语言模型）的多模态代理框架，设计用于操作智能手机应用。通过简化的动作空间（如点击和滑动），模仿人类般的互动方式，实现应用操作，无需系统后端访问。代理通过自主探索或观察人类演示学习新应用的使用方法，创建知识库用于执行不同应用中的复杂任务。

Reply Boy是一款Chrome浏览器插件，旨在帮助您增加Twitter账号的曝光。您可以选择不同类型的回复（问题、肯定），并选择不同的情绪（浪漫、有趣、聪明等），从而轻松产生优质的推文。Reply Boy注重安全和隐私，不追踪用户数据，不记录消息，遵守Twitter规则，无需您的密码。您可以免费尝试，无需任何设置。

DeepSwapper是一款免费高质量的换脸服务。用户都能够通过上传图片进行换脸操作，DeepSwapper提供无水印、无广告、高质量、无限次数的换脸服务。DeepSwapper使用AI技术实现真实的脸部交换效果。DeepSwapper支持多种图片格式上传，同时也提供API服务。

Animos是一款面向儿童的对话玩具，也是家长的辅助工具。它通过AI技术回答孩子的各种问题，提供逻辑思维游戏，引入早期双语环境，并帮助孩子理解和处理情感。Animos旨在将屏幕时间转化为互动学习冒险，提高儿童的语言发展，识别孩子的兴趣并激发好奇心。此外，Animos注重隐私保护和内容安全，为家长提供日常总结和反馈功能。

使用Resume，在短短 5 分钟内创建一份能帮助你获得工作的简历。选择超过 20 个专业、现代和创意的简历模板。

Slay School是一款AI闪卡制作器，能够帮助学生将笔记转化为简洁易记的闪卡，节省时间并专注于学习。用户都能够上传讲座资料、粘贴笔记或提交链接，Slay School能在几秒钟内自动生成闪卡。支持自测或导出至Anki/Quizlet。产品定位于学生群体，特别适合医学生。

Steerable Motion是一个用于批量创意插值的ComfyUI节点。我们的目标是展示在图像作为视频模型演变时，如何以最佳方式驱动运动。

EasyTranslator是一个基于OpenAI API的命令行工具，支持多种文件格式（包括.txt、.pdf、.docx、.md、.mobi和.epub）的翻译。它可以轻松地翻译文本文件，消除语言障碍。

Google Gemini是由DeepMind开发的多模态AI模型，可以处理文本、音频、图像等多种信息。它包括三个版本：Ultra、Pro和Nano，分别针对不同的任务复杂度。Gemini在AI基准测试中表现出色，针对各种设备进行了优化，并已经过安全和偏见测试，遵循负责任的AI实践。它将集成到Google产品中，并通过Google AI Studio和Google Cloud Vertex AI提供。

Voxio是一款语音转换为Notion页面的应用。它提供了多种布局和文本块，用户都能够自由选择。用户可以在Voxio应用程序中或后台捕捉他们的语音，并通过单个滑动将其发送到Notion。此外，用户都能够随时保存录音并在稍后发送。Voxio支持多语言，适用于全球用户。

上一篇：输入文字即可生成超高质量3D人物模型！AI又又又进化啦！下一篇：光鉴科技朱力：软硬件深度结合将成开启3D视觉的取胜之钥

返回相关新闻

文本生成高质量3D模型支持二次编辑！Stable Difusion新产品来啦

在线留言