图文详情
ComfyUI Chroma解锁文生图新维度;OpenMathReasoning数学推理数据集
来源:HyperAI超神经上传时间:2025-05-23
版权归原作者所有,如有侵权,请联系我们

文生图模型近几年取得了显著进展,但现有模型在实际应用中仍有很多局限。大多数模型只能单一生成图片,无法对图片进行精细化调整。为了应对这一挑战,rock 团队推出了文生图模型 Chroma 。

Chroma 是基于 FLUX.1-schnell 的 8.9 B 参数模型。该模型可实现影视级调色、特效合成和风格化渲染,带来专业级视觉效果,同时涵盖动漫、兽类、艺术作品和照片等多种类型。该模型目前可以通过 ComfyUI 调用,帮助用户实现个性化创作。相较于传统特效软件,操作起来更加简单方便。

HyperAI 超神经现已上线「ComfyUI Chroma 工作流在线教程」,快来试试吧~

5 月 19 日-5 月 23 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质教程精选:16 个

* 社区文章精选:6 篇

* 热门百科词条:5 条

* 5 月截稿顶会:3 个

公共数据集精选

  1. M2RAG 多模态评估基准数据集

该数据集将图像和文本数据相结合,模拟真实场景中的信息检索与生成任务,例如新闻事件分析、视觉问答等,着重评估 MLLMs 在多模态上下文中利用检索文档知识的能力,包括对图像内容的理解、图文关联推理以及事实判断等方面。


数据集示例2. Geometry3k 几何问题数据集

该数据集描述了丰富多样的几何问题,如求解角度、边长、面积、周长等,总共有 6,293 个文本项。图表用于辅助呈现几何问题中的图形信息,如各种几何形状(三角形、圆形、四边形等)及其相互关系,总共有 27,213 个文本项。

数据集示例

3. LLM4Mat-Bench 晶体 结构 数据集

该数据集收录了约 197 万条晶体结构样本,来自 10 个公开材料数据库,涵盖 45 种不同的材料物理与化学属性,是迄今为止用于评估大型语言模型(LLM)用于材料性能预测的性能的最大基准。


数据集示例

4. SeniorTalk 老年人对话中文语音数据集

该数据集包含多维度的精细标注,包括说话人信息、对话内容转写、时间戳(包含句子级和词级)、口音类别 标签 等。这些来自真实世界的数据将为深入研究老年人语音信号、优化老年人语音交互系统提供宝贵支撑,并推动如设备适老化、健康管理、辅助养老机器人等相关产业的发展。

老年人地域分布

5. DeepMath-103K 数学推理数据集

该数据集重点关注 5-9 级难度的数学问题,涵盖代数、微积分、数论、几何、概率、离散数学等多个领域,侧重挑战复杂推理能力,该数据集还通过语义匹配针对常见基准进行了细致的去污染处理,最大限度减少测试集泄露并促进模型公平评估。

DeepMath-103K 的数学主题的分层分类

6. OpenMathReasoning 数学推理数据集

该数据集包括数学问题类型标签、详细解题步骤、问题难度等级划分等。这些源于数学专业领域与在线社区的高质量数据,为深入研究数学推理过程、优化数学解题模型提供了坚实有力的支撑,并推动如智能数学辅导系统、数学竞赛辅助工具、科研计算自动化等相关产业的蓬勃发展。

7. VL3-Syn7M 多模态图像-文本数据集

该数据集包含多维度的精细标注,包括图像的详细字幕、简短字幕以及图像来源信息等,并且涵盖场景图像、文档图像、文本图像等多种类型的数据,为模型学习多模态信息提供丰富素材。

8. Material DFT 材料属性数据集

该数据集涵盖了多种化学成分和物理属性,每条数据对应一种独特的材料。所有属性均通过密度泛函理论(DFT)计算获得,这是材料行为预测中广泛使用的计算方法。该数据集适用于材料属性建模、机器学习训练以及材料发现等任务,为 数据科学 家与研究人员提供了强有力的基础数据支持。

9. Youngs Modulus 杨氏模量数据集

杨氏模量是衡量材料抵抗形变能力的一个物理量,其值越大,材料越不容易发生形变。该数据集包含了 393 个数据点,旨在通过测量晶体在不同方向上的杨氏模量来表征材料的各向异性。

10. ChildMandarin 儿童中文对话语音数据集

该数据集专为解决该年龄段普通话语音数据稀缺的问题而设计,旨在支持儿童 语音识别 、说话人验证等相关研究领域的发展。

公共教程精选

图像生成教程

  1. ComfyUI Chroma 工作流在线教程

Chroma 是由 rock 于 2025 年推出的文生图模型,基于 FLUX.1-schnell 的 8.9 B 参数模型。该模型目前仍在训练中,训练数据集从 20 M 样本中精心挑选出 5 M 数据,涵盖动漫、兽类、艺术作品和照片等多种类型。

本教程采用资源为单卡 RTX 4090,仅支持英语提示词。

Demo 示例

2. FractalGen:逐像素的高分辨率图像生成 FractalGen 是一种基于分形思想的新型图像生成技术,它通过分形 生成模型 (Fractal Generative Models)实现了逐像素的高分辨率图像生成,显著提升了计算效率,解决了传统生成模型在高分辨率图像生成中的计算瓶颈。
该项目已以 notebook 的形式部署完毕,一键克隆即可逐步体验!


Demo 示例

3. PixelFlow:像素空间图像生成方案

PixelFlow 项目是一系列直接在原始像素空间中运行的图像生成模型,与主要的潜在空间模型形成鲜明对比。

文本到图像的定性结果表明,PixelFlow 在图像质量、艺术性和语义控制方面表现出色。


Demo 示例

4. HiDream-I1-Full 图像生成 Demo

HiDream-I1 项目是一种全新的 开源 图像生成基础模型,HiDream-I1-Full 拥有 17B 参数的开源图像生成模型,另外两个版本分别是 HiDream-I1-Dev 和 HiDream-I1-Fast 。 HiDream-I1-Full 在性能上表现最为出色,能够在几秒钟内实现行业领先的图像生成质量。

该项目相关模型和依赖已经部署完毕,启动容器后点击 API 地址即可进入 Web 界面。


Demo 示例

5. OminiControl:多功能图像生成与控制

OminiControl 是一个最小但功能强大的通用控制框架,适用于 FLUX 等 Diffusion Transformer 模型 。可以通过使用 FLUX 模型自定义任何控制任务(3D 、多视图、姿势引导等)来创建自己 OminiControl 模型。

本教程基于 OminiControl 通用控制框架,算力资源采用单卡 A6000 。


Demo 示例


AI for Science 教程

  1. Prithvi-EO-2.0 多时相地球观测遥感模型 Demo

该模型包含跨多个块和时间戳的空间和时间注意机制。此外,时间和位置信息通过嵌入添加到模型输入中。

本教程使用 Prithvi-EO-2.0-300M 模型作为演示,算力资源采用 RTX 4090 。

Demo 示例

2. Gnnwr 时空智能 回归 (STIR)模型 Demo

GNNWR 是一种基于 PyTorch 的时空智能回归模型,专门用于处理空间和时间非平稳性问题。该模型通过将地理邻近性和非平稳 权重 的非线性拟合转化为神经网络的表示和构建,实现了对复杂地理过程的高精度建模。

该项目相关模型和依赖已经部署完毕,启动容器后点击 API 地址即可进入 Web 界面。


Demo 示例

3. 基于 RFUAV 系统使用 Matlab 处理无人机信号

在通信安全与频谱监测中,基于射频 (RF) 数据的无人机识别系统被广泛研究。 RFUAV 项目通过频谱图分析、信噪比估计等手段,对无人机的 IQ 信号进行分析处理。

由于原始数据暂未提供,此处数据集选用 IDLab 平台的数据作为数据处理演示。因完整数据集过于庞大,本教程仅对其中部分数据进行分析。点击下方链接一键部署。


Demo 示例

4. 考虑动水压力的 Koyna 地震非线性动力响应分析

Abaqus 是一款功能强大的有限元分析 (FEA) 软件,广泛应用于工程模拟领域。它通过有限元方法对各种工程问题进行模拟和分析,能够处理从简单的线性问题到复杂的非线性问题。

该教程为 Abaqus 官方教程:混凝土重力坝的抗震分析。本例说明了混凝土损伤塑性材料模型在评估任意载荷作用下混凝土结构稳定性和损伤的典型应用。

5. VASP 结合 Phonopy 计算硅的声子谱

Phonopy 是一款用于在简谐和准简谐水平下计算声子能带结构、热学性质、群速度以及其他与声子相关物理量的 python 工具包。

本次教程将使用自动化脚本来进行 phonopy 进行演示计算流程。通过本教程,您将学会声子谱计算的基本流程。启动容器后点击 API 地址即可进入 Web 界面。

Demo 示例

6. 使用 VASP 进行机器学习力场训练

本次教程将以硅晶体为例,通过 NpT 系综分子动力学,演示如何训练 vasp 机器学习力场。通过本教程,您将学会机器学习力场训练的基本流程。启动容器后点击 API 地址即可进入 Web 界面。

在线运行:https://go.hyper.ai/JssLr

Demo 示例

7. VASP 结合 Phonopy 计算硅的比热容

VASP 是一个计算机程序,用于从第一性原理进行原子尺度材料建模,例如电子结构计算和量子力学分子动力学。 Phonopy 是一款用于在简谐和准简谐水平下计算声子能带结构、热学性质、群速度以及其他与声子相关物理量的 python 工具包。

本次教程将使用自动化脚本来使用 Phonopy 进行演示计算流程。通过本教程,您将学会比热容计算的基本流程。启动容器后点击 API 地址即可进入 Web 界面。


Demo 示例


vLLM 教程

  1. 一键部署 DeepCoder-14B-Preview DeepCoder-14B-Preview 在 LiveCodeBench v5 (8/1/24-2/1/25) 上实现了 60.6% 的 Pass@1 准确率,比基本模型(53%)提高了 8%,并且只用 14B 参数实现了与 OpenAI 的 o3-mini 相似的性能。 DeepCoder-14B-Preview 采用 bitsandbytes 提供的 8-bit 量化方法来优化显存占用。算力资源采用 RTX4090 。启动容器后点击 API 地址即可进入 Web 界面。

Demo 示例

2. 使用 vLLM 与 Open-WebUI 部署 GLM-4-32B

GLM-4-32B-0414 在代码工程、工件生成、 函数调用 、基于搜索的问答和报告生成方面均取得了良好的效果。特别是在代码生成或特定问答任务等几个基准测试中,GLM-4-32B-Base-0414 实现了与 GPT-4o 和 DeepSeek-V3-0324(671B) 等较大模型相当的性能。

本教程使用 GLM-4-32B 作为演示,算力资源采用双卡 A6000 。


Demo 示例

3. 使用 vLLM+Open-webUI 部署 Qwen3 系列模型

Qwen3 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。 Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展,Qwen3 的应用场景非常广泛。它支持文本、图像、音频和视频处理,能够满足多模态内容创作和跨模态任务的需求。

本教程使用 vLLM+Open-webUI 作为演示,采用资源为单卡 RTX 4090 。


Demo 示例

4. 使用 vLLM 加载大模型进行少样本学习

该教程为在 RTX 4090 上使用 vLLM 加载 AWQ 量化 Qwen2.5-3B-Instruct 。对于每个测试问题,我们使用训练数据检索一组「支持」它的类似问题。考虑「construct」和「subject」等内容使用一组类似的问题,我们创建了一个可以馈送到我们的模型的对话。

目前 HyperAI 超神经官网已经上线了「使用 vLLM 加载大模型进行少样本学」的一键部署教程,点击克隆即可一键启动。

社区文章精选

  1. 融合蛋白质语言模型和图像修复模型,麻省理工与哈佛联手提出 PUPS,实现单细胞级蛋白质定位

麻省理工学院和哈佛大学的团队提出了一种结合了蛋白质序列和细胞图像来进行未知蛋白质亚细胞定位的预测框架 PUPS 。该框架创新地结合了蛋白质语言模型和图像修复模型来预测蛋白质定位,使其兼并推向未知蛋白预测的泛化能力和捕获细胞可变性的细胞类型特定预测。

  1. 浙大团队研发 Earth Explorer 系统,探索深时演化/地学剖面/科研场景,赋能深时地球科学研究

浙江大学地球科学学院的专职研究员戚劲在中国地理学会地理模型与地理信息分析专业委员会 2025 年学术年会上,就「深时地球群智协同创新平台」进行了专题分享。从深时可视化分析系统(Earth Explorer)的总体概述、研发进展以及应用成效三个方面介绍了团队成果。本文为戚劲老师的分享精华实录。

  1. 基于 800 万真实数据,康奈尔大学团队利用图神经网络精准预测肺癌患者生存期,发现 3 类致命亚型

美国康奈尔大学与再生元制药公司提出图编码混合生存模型(GEMS),通过图神经网络编码患者电子健康记录复杂关系并与生存分析模型结合,识别具有一致 特征 和生存结局的亚表型。

  1. 首次实现纳米晶体端到端解析,哥大团队提出 PXRDnet,成功解析 200 种复杂模拟纳米晶体

哥伦比亚大学、斯坦福大学的研究人员提出了一种基于 扩散模型 的生成式 人工智能 结构解析方法 PXRDnet 。即便仅以化学式和信息稀缺的有限尺寸展宽粉末衍射图为条件,该模型也能成功解析 200 种不同对称性和复杂性的模拟纳米晶体,涵盖来自所有七个晶体系统的结构,最小粒径可至 10 Å。

5.Gemini 2.5 全系更新,Deep Think 加持碾压 OpenAI

在刚刚结束的 Google I/O 2025 的主题演讲中,Google 发布了多项重要更新,进一步展示其在 AI 竞速赛中的实力。

  1. 黄仁勋最新演讲!开放生态的 NVLink Fusion 支持半定制 AI 基础设施;开源人形机器人基础模型

黄仁勋在 Computex 2025 上分享了英伟达在数据中心、企业级 AI 和机器人领域的多项更新。

热门百科词条精选

  1. DALL-E

  2. 人机回圈

  3. 倒数排序融合

  4. 双向 长短期记忆

  5. 大规模多任务语言理解

5 月截稿顶会

RTSS 2025 :5 月 23 日 19:59:59

SIGGRAPH 2025 : 月 23 日 19:59:59

ASE 2025 :5 月 31 日 19:59:59

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!