生图Agent横评:Manus vs Lovart

2025-05-18ASPCMS社区 - fjmyhfvclm

最近,满地都是Agent。

上周,一款Design Agent在海外火爆出圈,Lovart官方每天除了发码还是在发码。

无独有偶,昨天Manus也上线了生图功能。

据Manus介绍,它不只是生图工具,而是能够「理解意图+规划方案+调用工具」的Agent。

这介绍是不是很熟悉?4天前,Lovart才这么定义过自己。

好,既然都是Agent,那我们有必要横向评测一波。是骡子是马,拉出来遛遛。

附两者体验地址:

Lovart(国内直达):www.lovart.ai

Manus(需要魔法):https://manus.im

横评6个case

1)生成单张海报

先来一个最简单的,考验最基本的生图能力,同时也看下效率。

A concise and creative advertisement with a clean white background. A real lipstick is integrated into the hand-drawn black ink graffiti, with smooth lines and a lot of fun. The graffiti depicts a rocket launch pad, and the lipstick below looks like the smoke of a rocket taking off. Add bold black "RED TO FLY" at the top. Clearly place the LOV logo at the bottom. The visual effect should be simple, interesting, high-contrast, and clever. Image size 2:3.

简洁而富有创意的广告,背景为干净的白色背景。一个真实的口红被融入到手绘的黑色墨水涂鸦中,线条流畅,趣味十足。涂鸦描绘了一个火箭发射台,口红下方看起来像火箭升空喷发的烟雾。在顶部添加粗体黑色“RED TO FLY”字样。将LOV的标志清晰地放置在底部。视觉效果应简洁、有趣、对比度高,且概念巧妙。图片尺寸2:3。

提示词框架by阑夕

Lovart花了2分9秒,完成任务。

过程还是老三样:制定Smart Plan(智能计划)、设计绘图方案knowledge(包含提示词)和调用模型(ChatGPT-Image-1)。

这是Lovart生成的图片。

Lovart工作全过程:

https://www.lovart.ai/r/z4gcbx0

然后,我们来看下Manus。它一上来就先问了我对口红样式和LOV标志的要求。

接着,开始搜索口红图片,找了半天似乎因为网站验证问题进不去……于是,换了个思路,直接用生图模型生成图片。

最终,花了4分钟,才把图片画了出来。

这是Manus生成的图片。

Manus工作全过程:

https://manus.im/share/8nwf6rxaPOvC18aD2SgKrx?replay=1

出图质量上,大家觉得哪个更好?是不是都差不多?

这是因为,两家都是调的OpenAI的ImageGen API,也就是ChatGPT-4o模型。

任务时间上,Manus比Lovart慢了一倍多(后面的case更离谱),因为它做了一些无用功,这其实蛮浪费用户token的。

2)生成一套VI方案

为沃垠AI网站设计一套VI方案,提示词是:

内容:

沃垠AI (Woyin AI) 品牌视觉识别系统 (VI System),包含Logo设计、标准字体、标准色、辅助图形、图标设计、网站首页概念图、移动应用界面概念图。

风格 (Style):

现代 (Modern), 科技感 (Tech-savvy), 简约 (Minimalist), 专业 (Professional), 创新 (Innovative), 未来感 (Futuristic), 扁平化设计 (Flat Design) 结合 微渐变 (Subtle Gradients) 或 新拟态 (Neumorphism) 元素。

色彩 (Color Palette):

情绪/材质 (Mood/Material):

情绪:智能 (Intelligent), 精准 (Precise), 可信赖 (Trustworthy), 前沿 (Cutting-edge), 用户友好 (User-friendly)。

材质:光滑的数字界面 (Smooth digital interface), 磨砂玻璃质感 (Frosted glass texture), 细微的电路板纹理 (Subtle circuit board patterns), 清洁的金属质感 (Clean metallic finishes)。

比例尺寸 (Aspect Ratio/Dimensions):

Logo设计: 1:1, 16:9 (适用于不同场景)

网站首页概念图: 16:9, 1920x1080px

移动应用界面概念图: 9:16, 1080x1920px

图标设计: 1:1, 256x256px 或 512x512px

使用场景 (Usage Scenario):

沃垠AI官方网站 (Woyin AI Official Website), 移动应用程序 (Mobile Application), 社交媒体品牌形象 (Social Media Branding), 产品演示文稿 (Product Presentation Slides), 营销宣传材料 (Marketing Materials)。

Content:

Woyin AI brand Visual Identity (VI) System, including Logo design, standard typography, standard colors, auxiliary graphics, icon design, website homepage concept, mobile application interface concept.

Style:

Modern, Tech-savvy, Minimalist, Professional, Innovative, Futuristic, Flat Design combined with Subtle Gradients or Neumorphism elements.

Color Palette:

Mood/Material:

Mood: Intelligent, Precise, Trustworthy, Cutting-edge, User-friendly.

Material: Smooth digital interface, Frosted glass texture, Subtle circuit board patterns, Clean metallic finishes.

Aspect Ratio/Dimensions:

Logo Design: 1:1, 16:9 (for different scenarios)

Website Homepage Concept: 16:9, 1920x1080px

Mobile Application Interface Concept: 9:16, 1080x1920px

Icon Design: 1:1, 256x256px or 512x512px

Usage Scenario:

Woyin AI Official Website, Mobile Application, Social Media Branding, Product Presentation Slides, Marketing Materials.

我们先来看下Manus的。

还是和前面一样,它一上来就先问了我6个问题。

也不知道是该夸它负责呢,还是没头脑。其实prompt里,我已经写得很详细了。

然后,开启了漫长的工作流程。

设计LOGO标志,设计品牌字体和颜色,设计UI图标,设计网站首页,设计移动应用界面,编制VI文档,验证设计方案,以及向用户发送VI包。

最后,交付给了我一套VI包和品牌视觉识别手册。

这是logo。

这是icon。

这是颜色板。

这是UI。

这是网站首页效果图。

移动版。

这是品牌视觉识别手册。

是不是看起来挺全面的?但素吧……这结果难评,基本上没法用,因为实在太丑了……

生成时间这块,Manus也是够得等的,整个设计流程耗时12分钟,如果算上首次咨询的时间,那更是有16分钟之久。

同样的prompt,Lovart则在10分钟内全部完成,期间我还让它重新生成了次。

8款logo中,我选了这款。

然后,根据我选的logo,设计了一套VI视觉方案,有logo、品牌色、品牌字体、排版要求、icon图标和网站界面(含移动版)。

我还让它出了一套产品效果图。

从这个Case可以看到,Manus与Lovart的差距还是挺明显的。

3)制作分镜故事板

作为《三体》的脑残粉,我很想用AI重现“人类首次遇见水滴”的场景。

于是,我把想法告诉给Gemini 2.5 pro,Gemini与我一拍即合,几秒钟就把生图prompt写出来了。

帮我创作一套分镜故事板,故事围绕《三体》小说“水滴探测器歼灭地球舰队”的剧情展开。以下是8个场景和各场景的文生图prompt。

------

1. Establishing Shot: Solemn Gathering of the Earth Fleet

Cinematic wide shot, the Earth Joint Fleet is on standby in deep space. Various warships, from giant motherships to small frigates, are arranged in formation. Earth emits a blue light in the background, symbolizing humanity's last hope. Low angle, twilight lighting, emphasizing the grandeur and tragic heroism of the fleet. Science fiction, space opera, doomsday atmosphere.

2. Close-up: The Waterdrop Appears, Silent Crisis

Close-up shot, the Waterdrop silently appears from the darkness, smooth as a mirror, with a perfect streamlined shape. It reflects the surrounding starlight and the silhouettes of the warships, foreshadowing a deadly threat. Shallow depth of field, focus on the Waterdrop, out-of-focus background fleet, creating an eerie calm. Science fiction, metallic texture, minimalism, suspense.

3. Medium Shot: Alarms Sound, Human Horror

Medium shot, inside a warship bridge, human crew members stare at the screens, their faces filled with horror. Red alarms flash, and a piercing alarm sound echoes. The screens display the trajectory and data of the Waterdrop's approach. Dynamic composition, multiple characters, different expressions, tension, technological feel.

4. Close Shot: Moment of Impact, Destruction Descends

Extreme close-up shot, the moment the Waterdrop impacts the first warship. Metal twists, shatters, and sparks fly everywhere. The shockwave spreads outwards, engulfing everything. High-speed photography, microscopic details, sense of power, destructiveness.

5. Wide Shot: Chain Reaction, Fleet Annihilation

Wide-angle shot, the entire fleet is engulfed in a chain of explosions. Flames soar into the sky, and debris flies everywhere. The Waterdrop weaves through the inferno, unstoppable. Stark contrast of light and shadow, the dark background highlighting the intensity of the explosions. Epic space battle, doomsday scene, despair.

6. Close-up: Eyes of Despair

Close-up shot, the eyes of a survivor filled with despair. Tears, fear, and a sense of helplessness towards the impending death. Observed through a shattered helmet or windshield, the background is the destruction of the fleet. Emotional close-up, details of the character's face, sadness.

7. Overhead Shot: Wreckage Everywhere, the Waterdrop Alone

Overhead shot, the wreckage of the fleet floats in space, like a cosmic cemetery. The Waterdrop travels alone among the wreckage, symbolizing victory and coldness. Quiet and oppressive, science fiction, ruins aesthetics.

8. Distant Shot: Waterdrop Goes Away, Universal Silence

Extreme distant shot, the Waterdrop disappears at the end of the universe, with the vast wreckage of the fleet behind it. Earth is small and lonely. The universe has returned to silence, but humanity's nightmare has just begun. Panorama, the vastness of the universe and the insignificance of humanity, philosophical, loneliness.

我先是发给了Lovart。Lovart很快, 不到5分钟就把所有图画出来了,还做了排版。

然后,我又发给了Manus。不出意外,它果然又来问我了。

我耐心(烦躁)地回答了5个问题后,Manus开始工作。

又是接近20分钟的等待,终于完成了任务。

交付了一份16页的分镜故事板。

同样一套提示词下,我觉得Manus的图是不如Lovart的。

比如,这第8个场景【远景:水滴远去,宇宙寂静】。

这是Manus生成的。

哥,水滴只是长度只有几米的探测器,怎么被你搞得跟行星一样大。

这是Lovart生成的,显然合理了许多。

4)批量生成图片

既然都是「能干活的Agent」,这会我就不给提示词,你们自己想吧。

我的问题是:

为像素风格的女孩艺术照创作一组海报(6张),着装各异,pose不同。

Create a set of posters (6 posters) for a girl's pixel art photo, with different outfits and poses.

Lovart给我画了6款,分别是休闲装、商务装、运动、晚礼服、海滩和冬日场景,审美在线。

Manus也画了6款,分别是休闲、运动、学院、未来、复古和夏日风格。

就是这画风,有点过于像素画了,尺寸比例也不统一。

继续测像素风的海报。

为游戏艺术展设计4组海报,布局不同,主题不同,像素风格,所有图片比例2:3。

Designed 4 posters for the game art exhibition, with different layouts and themes, pixel style, all images in a 2:3 ratio.

这是Manus画的,这回尺寸统一了。

这是Lovart画的,明显细节上要比Manus丰富很多。

3D方面,也跑了个case。

生成一系列3d模型,主题是封神演义里面的传奇人物。

Generate a series of 3D models, themed around the legendary characters from the classic novel "Investiture of the Gods."

这个prompt极其简单,原本我都没报什么希望。

但没想到,Lovart生成的效果这么好。

这几个3D模型,还有点小喜欢。

而且还支持3D预览。

相比,Manus就相形见绌了。

写在最后

其实,测到这里,已经能够明显看出区别了。

Manus作为通用Agent,它什么都能做,但未必就什么都能做好。

在设计领域,Lovart作为专业Agent,显然要比Manus强不少。即使他们的底层模型都一样,但对于行业的理解、对于工作流的设计、对于交互的思考以及对提示词的设定,都会不一样,所以自然也就有能力的差异。

而生成速度上,Lovart则比Manus要快一到两倍。

作为垂类Agent,果然还是行业里的人会更懂一些,更懂Know-How,更懂用户。譬如,旅游行业的飞猪AI问一问,设计领域的Lovart Agent。

最近,大洋彼岸的红杉AI峰会上,几位大佬提出:「真正的AI产品,不是“有没有能力”,而是“有没有结果”;不是“你点它做了什么”,而是“它替你完成了什么”」。

从实际体验来看,Lovart Agent正在成为那个“替你完成”设计任务的智能伙伴。

不仅好玩,还好用,甚至值得信赖。

Prompt in,product out.

全部评论