555000jcjc线路检测中心-苹果成功开发一种训练AI模型新方法 小体量高精度
2026-03-31
555000jcjc近日,CNMO注意到,苹果研究人员开发出一种训练图像描述生成AI模型的新方法,新模型能给出更精准详细的描述,且模型规模远小于现有同类模型。

在一项名为《RubiCap:Rubric-Guided强化学习用于密集图像描述生成》的新研究中,苹果研究团队与威斯康星大学麦迪逊分校合作,构建了一个密集图像描述生成模型的新框架,在多个基准测试中取得了领先成果。密集图像描述生成旨在为图像内每个元素和区域生成详细描述,而非单一整体概述,能让人更深入理解图像场景,可用于训练视觉语言和文本转图像模型,提升图像搜索和辅助工具等功能。

研究人员指出,当前训练密集图像描述生成模型的AI方法存在明显不足。标注高质量专家级数据成本高昂,虽可用强大的视觉语言模型生成合成描述,但监督蒸馏得到的输出多样性有限、泛化能力弱,强化学习虽能克服这些局限,但在开放式描述生成中难以应用。

为此,研究团队提出新框架。他们从PixMoCap和DenseFusion-4V-100K两个训练数据集中随机抽取50000张图像,用Gemini 2.5 Pro、GPT-5等现有视觉语言模型为每张图像生成多个描述选项,同时让RubiCap框架下的待训练模型生成自身描述。接着,RubiCap用Gemini 2.5 Pro分析图像、候选描述和模型自身输出,确定评判标准,再由Qr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫en2.5-7B-Instruct根据标准打分,为训练提供奖励信号。

最终,研究团队生成了RubiCap-2B、RubiCap-3B和RubiCap-7B三个模型,参数分别为20亿、30亿和70亿。与现有方法相比,它们表现出色,甚至超越了参数多达720亿的模型。在盲排名评估中,RubiCap-7B在所有模型中排名第一,幻觉惩罚最低、准确性最强。研究还表明,30亿参数的小模型在某些基准测试中表现优于更大规模模型,意味着高质量密集图像描述生成模型不一定需要庞大体量。
版权所有,未经许可不得转载
-555000jcjc线路检测中心
555000jcjc线路检测中心-美芝威灵亮相AWE2026:以全场景核心部件驱动舒适生活新升级
555000jcjc线路检测中心-探展AWE2026:海信RGB-Mini LED领跑彩色光源时代, 再造画质新标杆
555000jcjc线路检测中心-奇瑞iCAR V27增程SUV上市 售价16.98万起主打硬派风格
555000jcjc线路检测中心-AI 拭目以戴!XREAL 携多款新品亮相 AWE 2026
555000jcjc线路检测中心-全球高端销量第一,追觅扫地机多款新品引爆AWE!
555000jcjc线路检测中心-石头科技AWE2026深度探展:破界与立标
555000jcjc线路检测中心-100度电能跑905公里!尚界Z7内饰曝光,能耗表现惊艳业界
555000jcjc线路检测中心-尚界H5亮相鸿蒙智行AWE展台,超五星安全重塑家用SUV价值标杆
555000jcjc线路检测中心-余承东亮相AWE展会,意外提前曝光华为畅享90 Pro Max
555000jcjc线路检测中心-OPPO Find N6官宣3月17日发布:全球频段覆盖最广的折叠旗舰,定义“全球通”新标准