近年来,图像生成模型的飞速发展令人瞩目。从早期的通用图像生成,到如今逐步迈向更具实用价值的视觉内容创作,这一领域正经历从“好看”到“好用”的关键跃迁。然而,在繁荣表象之下,一个核心挑战正日益凸显:现有主流评测基准仍以自然图像为主,缺乏面向商业设计场景的系统性评估,无法有效衡量模型在结构化和多重约束下的表现。
与通用图像相比,商业视觉文档往往包含高密度文本、复杂版式结构以及多种视觉元素的协同布局,其生成与评估的难度明显更高。这也使得“如何科学评估模型是否真正具备商业可用性”成为行业亟待回答的问题。
为了填补这一空白,微软亚洲研究院推出了 BizGenEval。这是首个面向商业视觉内容生成的系统性基准测试。该工作不仅为评估模型能力提供了全新的标...