对话生数科技首创东谈主兼首席科学家朱军：AI视频生成正迈入“高可控”时间

发布日期：2025-04-18 10:21 点击次数：77

　　大模子的发展日月牙异。

　　3月29日，在2025中关村论坛年会时辰举办的“畴昔东谈主工智能先锋论坛”上，清华大学东谈主工智能计议院副院长、生数科技首创东谈主兼首席科学家朱军晓示，生数科技认真发布业内首个高可控视频大模子Vidu Q1，并筹算于4月公共上线。

　　会后，在禁受媒体采访时，朱军谈到，2025年将是AI（东谈主工智能）视频生意化快速发展的一年。视频大模子的生意化旅途相较于言语大模子愈增多元，行业竞争情势也不同于“大模子内卷”态势。

　　朱军合计，畴昔视频大模子不会出现近似言语模子阛阓那样的“一超多强”情势，而是依赖握续蜕变才气，向更高质料、更万古长、更强叙事性的标的发展。

主持方供图

　　谈生意化：2025年将是AI视频模子生意化快速发展的一年

　　朱军先容，相较于生数科技在1月推出的Vidu 2.0，Vidu Q1在技巧层面完竣了要紧冲突，能够禁受空间布局信息手脚输入，极大栽种了视频生成的可控性，使视频生成走向“高可控”时间成为可能。

　　朱军指出，走向高可控为AI视频生成的发展找到了新旅途，了了指出了AI视频生成的痛点，通过技巧技巧引入多元素限制，它不再是莫得条理的“乱生成”，而是东谈主为可控，这就让AI视频生成与当下精雕细琢的制作缓缓趋向一致。

　　另一方面，高可控意味着AI视频生成的创意呈现更极致、更多元。朱军示意，已往Vidu不断在画面生成、生成速率、多主体一致等视频生成要害要领下功夫，当今，当“高可控”时间到来时，东谈主们将能够更粗拙地将我方头脑中的念念法变成推行。具体而言，Vidu Q1在多主体细节可控、音效同步可控、画质增强方面均取得见效。

　　关于多模态模子层面的探索，朱军在采访中示意，生数科技自建造之初便专注于多模态大模子研发，Vidu的基座自己即是一个多模态大模子，视频只是多模态技巧的其中一种推崇面貌。除此以外，公司还在探索音频及机器东谈主可控操作数据的期骗等多种模态。“对咱们来说底层架构基本上是一样的，莫得修改就不错去相宜多模态，只是面向用户的需求，在不同阶段会推出。”

　　朱军合计，畴昔多模态的发展标的是智能体与责任流的全面买通，这种买通亦然生数科技研讨的遑急标的。朱军示意，畴昔也需要通过推动智能体与责任流的买通，完竣不同模态之间的协同，以更好地干事各行业用户。

　　在生意化方面，朱军坦言，跟着AI视频技巧的生意价值不断栽种，成本阛阓对生数科技的关注要点也在发生变化。朱军示意，在公司早期阶段，投资东谈主更关注团队实力，而如今，除了技巧壁垒，生意化进展已成为中枢考量身分。“视频的价值密度更高，生意化进度也更快。2025年将是AI视频模子生意化快速发展的一年。”

　　目下，其SaaS（软件即干事）家具已掩饰公共200多个国度和地区，上线100天内用户冲突千万，增速位居公共第一。同期，在MaaS（模子即干事）端，AI视频技巧正在深远期骗于动漫影视、文旅、告白、游戏等多个行业，重塑骨子出产模式。

　　近期，OpenAI晓示在GPT-4o模子中集成了迄今为止起先进的图像生成器，并将其整合进ChatGPT中，畴昔，视频生成才气会否雷同被集成进大模子？朱军合计，当今谈这个问题为前锋早。

　　目下，视频生成的要点仍然是栽种视频生成的质料和着力，而跟着基座模子的不断优化，AI视频生成当然会冷静向交互式标的发展，但其中最中枢冲突点仍在于知道才气和可控性。朱军示意，惟有完竣委果的高可控生成，才能温暖畴昔交互式AI视频的需求。

　　在谈及高可控才气是否会影响创意抒发时，朱军示意两者并不冲突。相背，栽种可控性能够让创作过程愈加高效、精确，减少用户反复磨练的成本，提高创作体验。

　　“在AI视频创作中，用户的输入可能是图片或笔墨，咱们的任务是精确知道并完竣他们的需求。”朱军讲明注解谈，牛金所已往，AI视频生成频频带有较高的立地性，用户需要反复尝试才能取得理念念的末端。而高可控才气的引入，使模子能够更准确地知道并引申用户的创作意图，同期保握创意抒发的解放度，举例动作幅度、念念象力等方面依然不错充分理会。

　　谈行业：视频行业很难出现近似DeepSeek的模子

　　朱军在禁受采访时示意，2025年行业合座落地进展特殊快，举例在视频和音频限度，由于其期骗场景较为通用，阛阓禁受度更高，而言语模子的落地则频频需要衔尾行业专科学问，因此链路相对较长。不外，目下行业内雷同有期骗公司勤恳于鼓吹大言语模子的落地期骗。

　　谈及技巧冲突，朱军强调，目下阶段最遑急的仍然是通用基础模子的栽种。“它决定了咱们后端在限制和一致性方面的才气，所有这个词后端的完竣都依赖于基础模子的进展。”基于基础模子，生数科技也在不断探索，以完竣更高的模子一致性和可控性。

　　朱军合计，与言语模子不同，视频大模子的生意化旅途相对更快。他指出，视频的消耗需求特殊旷阔，因此，面前行业内来源的公司在视频大模子限度各具特点，并造成了不同的生意化布局。这一限度并不像言语模子阛阓那样“内卷”，而是呈现出更多元化的竞争情势。

　　目下，大言语模子行业冷静参加收购与被收购阶段，朱军合计，这与行业发展情景相关。言语模子的竞争依然参加深水区，来源企业在技巧和阛阓布局方面占据上风，而视频大模子则都备不一样，中国的视频大模子在公共边界内许多方面都有期骗，这与言语模子的发展情景霄壤之别。

　　畴昔，视频大模子行业是否会和言语大模子一样，只会留住几家专注于基础模子研发的公司？朱军合计，或者率不会出现一家独大的情况。一方面，视频大模子行业不算拥堵；另一方面，从东谈主工智能发展的历久来看，中枢身分在于团队是否具备握续蜕变才气。今天，模子的发展大部分是阶段性发展，尽管目下依然不错干事专科用户并生成高质料骨子，但合座上仍有很大栽种空间，包括着力、成本以及骨子密度等方面的冲突。

　　比拟于言语模子，视频生成模子的起步稍晚，但朱军合计，这种“后发”反而带来了更快、更强项的前跳跃伐。他提到，视频模子限度依然造成了对着力优化的共鸣。举例，生数科技在推出Vidu2.0时，就明确提议要作念“最高效、最低廉的高质料视频模子”。这种理念依然深远行业，因此，他判断视频限度很难出现近似DeepSeek在言语模子中“着力遥遥来源”的场面，而是更期待让视频模子朝着“更可控、更好用”的标的发展。

　　谈及开源，朱军示意，开源一直是东谈主工智能行业的遑急趋势，生数科技也会盛开部分蜕变举止供业界使用。相关词，他指出，大部分所谓的开源模子并未委果盛开中枢考验过程及数据。“DeepSeek之是以受到用户宽宥，中枢在于其出色的后果和高着力。对C端用户而言，最关爱的弥远是质料和着力，而非模子是开源照旧闭源。”

　　目下，视频生成模子大多鸠集在5秒以内的短视频，朱军合计，这主如果成本问题，而非才气为止。同期，用户的使用风气也影响了视频时长的采用。“现阶段，大部分用户风气于竖屏短视频，而如果要创作1分钟以上的骨子，就需要更完好意思的故事架构，波及到从案牍规划到骨子创作的完好意思历程，而不单是是蹧蹋的‘图生视频’。”

　　朱军合计，跟着基础模子才气的栽种，行业将冷静向更万古长、更具叙事性的场景拓展。“从短视频向更万古长、叙事性更强的标的发展，将成为畴昔的一个遑急趋势。”

上一篇：N胜科高开241.41%

下一篇：天津：鼎力发展本性冰雪旅游促进京津冀冰雪旅游一体化发展

让建站和SEO变得简单

对话生数科技首创东谈主兼首席科学家朱军：AI视频生成正迈入“高可控”时间