修艳弘 拳交 从Manus到MCP:2025年AI的三大新趋势
修艳弘 拳交
2025 年开年以来,AI 发展汹涌澎拜,DeepSeek R1、OpenAI CUA、Manus 等进军转变比比皆是,头晕眼花。
这里我将最近一个月以来的想考归来一下,对 2025 年 AI 发展趋势作念几点预判。
一、Manus:Agent 元年的一次抢跑
Manus 推出之后,咱们第一时刻拿到了体验账号,进行了充分的体验测评。
先说论断:诚然 Manus 面前还有各类不足,但它的居品探讨想路创意满满,值得咱们赐与充分的信服。
Manus 的中枢架构基于"假造机 + 多 Agent 协同"模式,通过整合多个底层大模子的 API,齐备任务的动态分派与模子调用。
Manus 冲破了传统 AI 助手仅生成建议的局限,齐备了从"需求输入"到"效果拜托"的端到端闭环。
Manus 建议" Less Structure, More Intelligence "的交互理念,通过无代码化的当然言语接口裁减用户使用门槛。
与此同期,Manus 使用一个外置的 markdown 文献来照看 Agent 的任务方案,况且将阶段性的使命效果存储为安祥文献,这亦然一个相配道理道理的转变点。
二、Manus 的不足与劣势
Manus 在 MultiAgent 的谈路上提供了一种相配道理道理的想路,但面前依然存在一些不言而喻的不足之处。
最初是"幻觉累加"的问题。
Agent 的试验是屡次大模子问答的串并联。若是单次大模子问答的准确率是 90%,串联 10 次的话,最终 Agent 回复准确的概率是 0.9^10,唯独 1/3 傍边了。
不才面的案例中,Manus 的任务是针对某上市公司进行财务数据分析。Manus 很颖外乡 import 了 data_api 模块,准备从雅虎提供的接口中调取财务数据。
然则在 process_financial_data 函数中,manus 确切把 revenue、gross_profit 等数据径直"硬编码"到了代码中,让东谈主猝不足防。而且过程考证,这里的数据有部分是失误的。
若是原始数据出错了,那么后续岂论分析得何等深刻、图表作念得何等 fancy 齐失去了道理道理。
Manus 的第二个问题是可供大模子调用的器用不足。
底下这个例子中,Manus 的任务是写一篇对于"小米 Su7 "的商场分析敷陈 PPT。
Manus 齐全地拆分了任务,况且检索了开阔新闻,然则临了它无法生成一份 PPT,因为它无法调用 Office 软件。
面前 Manus输出的内容花式多为纯文本或者网页,还无法和东谈主类使命流进行齐全会通。
Manus 遭遇的第三个挑战是小院高墙的互联网生态。
互联网上有许多优质信息是存放在"围栏"中的。
比如当咱们让 Manus 去分析比较市面上通盘 AI 智能眼镜的性价比时,它颖外乡找到了对应商品的淘宝网页。
然则当 Manus 想要洞开具体居品页面获取价钱性能等密致信息时修艳弘 拳交,淘宝判定它为机器东谈主,并间隔了 Manus 的打听。
无专有偶,当咱们让 Manus 为一家非上市公司进行出具买卖分析敷陈时,Manus 为了获取公司的最新融资弘扬,打听了 CrunchBase 数据库。
然则 Manus 的打听被 CrunchBase 判定为机器东谈主,随后被冷凌弃地间隔了。
互联网看似公开透明,实则存在开阔雷同小院高墙的情况,优质信息时时就存放在这些高墙之内,Manus 无法径直获取,这无疑阻遏了 Manus 的使命效果。
尽管有着各类问题和挑战,Manus 依然给宇宙描摹了 MultiAgent 的庞大前程,打响了 Agent 元年的第一枪,值得咱们赐与充分的信服。
在 Manus 占据宇宙视线的同期,国外 AI 大厂究竟作念了哪些时期储备呢?
三、OpenAI CUA:一个会自主操作电脑的 Agent
在本年的 1 月底,OpenAI 发布了由其新模子 CUA 驱动的 AI 智能体 Operator。
CUA 模子会通了 GPT-4o 的视觉才气和通过强化学习齐备的高档推理才气,大要将任务明白为多表率标的,并在遭遇挑战时进行自我退换和篡改。
简而言之,CUA 等于一个会操作电脑的 Agent,它的运作道理相配直白且爽直,如下图所示。
最初,CUA 会同期接管两种模态的输入:其一是文本指示,其二是屏幕截图。
CUA 会同期处理这两种信息,况且生成一系列看成指示,比如"点击屏幕上坐标为 ( 300,200 ) 的点,况且输入 XXX,按回车"。
电脑领受到指示并完成操作后,会将新的屏幕截图与新的任务指示复返给 CUA,如斯周而复始,直到获取最终谜底。
那么 CUA 面前操作电脑的才气达到了何如的水平呢?
把柄 OpenAI 的官方测评,CUA 在操作电脑和操作浏览器这两个场景上,比较上一代 SOTA 齐有了庞大的性能擢升。
然则比较东谈主类而言,依然有着较大的差距。换句话来说,面前顶级的 Agent 依然莫得目的像一个成年东谈主相同正确地操作电脑,但我信托这个近况在本年内就会发生质变。
四、Anthropic MCP:AI 期间下的 TCP/IP 条约
刚才在分析 Manus 的劣势时,提到了"器用不足"的问题。
Anthropic 清醒也意志到了这个问题,并在昨年年底推出了 MCP 来从根源上处分这个问题。
MCP 的全称是 Model Context Protocol,它界说了诓骗表率和 AI 模子之间交换高下文信息的方式,这使得诞生者大要以一致的方式将多样数据源、器用和功能集结到 AI 模子。
MCP 之于 AI,有点雷同于 TCP/IP 之于互联网。
MCP 有三个进军特色:
双向通讯:AI 与器用之间的通讯是双向的,有现象的。AI 既能从器用获取数据,也能向器用发送指示。
现时越来越多的器用及工作驱动接入 MCP,呈现愈演愈烈之势,包括 Google Maps、PGSQL、ClickHouse、Atlassian、Stripe 等等。
在 Smithery 平台上你不错松驰查找不同功能对应的器用及工作。跟着越来越多的 Server 接入 MCP 条约,畴前 AI 大要径直调用的器用将呈现指数级增长,这能从根源上洞开 Agent 才气的天花板。
五、2025 年 AI 发展新趋势:后历练、RL、MultiAgent
这里我勾搭最近几个月以来的不雅察和想考,归来一下 2025 年 AI 发展的几点进军趋势。
第一,预历练行将斥逐,后历炼就为重心。
这其实也曾是行业共鸣。昨年年底时,Ilya 在 NeurIPS 大会上提到一个进军不雅点:数据是 AI 期间的化石燃料,因为咱们东谈主类唯惟一个互联网。
与此同期,在本年 DeepSeek R1 的论文中,提到了后历练将成为大模子历练管线中的进军构成部分。
第二,针对后历练而言,强化学习将成为主流,监督学习的进军性迟缓下落。
DeepSeek R1 带来最进军的启发是:纯粹的 RL 可能是通向 AGI 的正确旅途。
跟着 TTS 的增多,大模子会自我败显露复杂的推理活动,而无需刻意提醒。
如下边右图所示,横轴是大模子 RL 的迭代步数,纵轴是单次问答的 token 长度。咱们不错看到,跟着大模子 RL 步数的增多,大模子会自主地从"快想考"造成"慢想考",从最驱动每次回复 100 个 token,到临了每次回复接近 10000 个 token。
DeepSeek 团队将这种征象称为" self-evolution ",并合计它是" the emergence of sophisticated behaviors "。
哥也具体是哪些复杂活动的败露呢?DeepSeek 也给出了谜底,比如:self-verfication、reflection等。
这个发现对于咱们来说有着进军的启发。畴前监督学习在 AI 历练中究竟应该饰演何如的脚色?监督学习是否反而为止了 AI 处分问题的才气?
是否不应该让 AI 通过效法东谈主类的想维方式来获取智能,而是让 AI 发展出愈加原生的智能?
这些问题,齐有待通盘 AI 行业通过践诺来给出谜底。
第三,MutiAgent 是详情趣的大趋势。
若是将 AI 和东谈主脑进行类比的话,大模子就像是东谈主脑中的"前额叶"。
家喻户晓,前额叶主要肃穆高档通晓功能,比如戒备力的分派、想考推理、决策等。
然则只是有前额叶,大脑是无法处理复杂任务的。咱们需要有颞叶来进行听觉信号的解析,需要顶叶进行阅读和算术,需要小脑来进行主张协作,需要海马体来进行讲究索引。
MultiAgent 的界说正好等于让多个不同的模子之间相互协作,从单独的"前额叶"走向"完整的大脑",从而处理愈加复杂的现实任务。
在这个蓝图中,MCP 就起到了相配进军的作用:协作合资大模子与各器用之间的数据通讯接口。
结语:捏好扶手修艳弘 拳交,畴前已来
2025 年是 AI Agent 元年,Manus 的出现打响了第一炮。
岂论是 OpenAI 的 CUA 照旧 Anthropic 的 MCP 齐指向了一个共同的畴前,畴前二年 AI 的发展速率将相配陡峻。
捏好扶手,畴前已来!