栏目分类
热点资讯
7788被窝电影网 抢跑Sora!腾讯视频大模子初体验:功能多,但不彊
发布日期:2024-12-07 20:51 点击次数:142
2024年2月15日,OpenAI认真对外公布文生视频大模子Sora,引得民众网友高呼“AI解构的确宇宙的时候到了”。关联词轻便10个月时候往时,Sora依然只存在于PPT上,反而是亚马逊云科技抢先OpenAI发布了Nova Reel文生视频大模子7788被窝电影网,谷歌则面向企业用户怒放了AI视频模子Veo。
国外互联网巨头忙于开发和布局AI生成视频的同期,国内互联网巨头们也莫得闲着,早前快手旗下的AI团队就打造出了视频生成大模子可灵,随后清华大学与北京数生科技联手打造了视频生成大模子Vidu,日前腾讯公司的AI团队也推出了混元文生视频大模子,并在腾讯元宝App上线。
行动国内知名度、市值最高的互联网公司,腾讯在游戏、即时通讯、挪动支付等边界申明显贵。往时常有东谈主质疑腾讯的工夫研发才能,如今腾讯与亚马逊云科技、谷歌等国外互联网巨头同期拿出了视频生成大模子,评释了我方的研发才能涓滴不弱。
不外,体验才是判断工夫实力的最终步调,腾讯视频生成大模子究竟好不好用,体验过才知谈。
混元视频模子初体验:功能多而不彊腾讯混元大模子参数目为130亿,是面前参数目最大的开源视频生成类大模子,公测期间用户每天可以得到4次步融合2次高品性视频生成契机,视频生成长度为5秒。
单纯看功能,腾讯混元文生视频大模子比小雷之前使用过的同类家具齐浅易易用,提供了丰富的视频类型开采,举例比例、格调、景别、色泽、镜头畅通、流通运镜、丰富动作、导演格式等。关联词,确实到使用阶段,小雷的体验却说来话长。
(图源:腾讯元宝App截图)
刚运转小雷并莫得给大模子上难度,以描画语“夕阳西下,青娥坐在靠窗的书桌前,目光不住地进取飘,嘴角微微上扬,似乎念念起了什么值得抖擞的事”生成一段视频,散伙如下图。
(图源:腾讯混元大模子生成)
腾讯混元大模子生成的视频画面可以,充足以伪乱真,仅仅与小雷脑补的画面有昭彰辞别,白东谈主女孩也有点“出戏”,而况书桌、窗户等细节并莫得弘扬出来,全体令小雷有点失望。按理说,掌捏了国内头部短视频平台视频号的腾讯,领有充足的视频数据可用于稽查大数据,散伙这个视频给我的嗅觉却是基于国外数据稽查。
随后,小雷又以“清明的太空,忽然乌云密布,继而陡然下起了暴雨7788被窝电影网,路上的行东谈主有的慌忙跑到房檐下避雨,有的把挎包顶在头上一起决骤”为描画语生成了一段视频。
(图源:腾讯混元大模子生成)
这段视频不细看还能采纳,但若仔细看就会发现视频存在昭彰的纰谬,如部分东谈主物要领有些概述,不像走在大地上,右侧有个红色的包“漂”了往时,可能是AI未能告成生成提包的东谈主。至于天气变化未能体现、莫得感受到鄙人雨等问题,小雷已无力吐槽。
终末一轮测试,小雷聘任了中景+拉近镜头,并以“宁静的海滩,朔月高悬在太空,微风吹动着海边的椰子树,发出哗拉拉的声息,一只小猫咪慵懒地躺在沙滩上,舔舐着前腿上的毛发”为描画语生成了一段视频。
(图源:腾讯混元大模子生成)
爸爸的乖女儿,打飞机,口交还让禸#萝莉这个场景相对较为浅易,莫得昭彰的景物变化,就东谈主类的脑补才能来说,比上一个要容易。关联词这则视频却露出了腾讯混元大模子的问题,我明明开采了拉近镜头,可视频莫得弘扬出镜头的动态变化。小雷提到的椰子树、猫咪舔舐毛发等物体和动作,也莫得体现出来。这段视频月亮和波浪细节可以,猫咪也很的确,但终究不是我念念要的散伙。
为考据大模子的一致性问题,小雷用该段描画语和镜头开采再次生成了一段视频。与上一段视频比拟,猫咪有了舔舐毛发的动作,椰子树也出当今画面中,可月亮因太大产生了无理感,猫咪动的时候,沙子永恒莫得变化也属于纰谬。
(图源:腾讯混元大模子生成)
小雷翻看了腾讯混元大模子给出的范例,大多数是使用大批要津字描画,而非如小雷给出的天然说话,后者难度昭彰更高。从实质弘扬来看,腾讯混元大模子一经可以相识东谈主类天然说话,并笔据描画的画面生成视频,团结段话两次生成的散伙也较为接近,仅仅细节方面有待擢升。
天然,腾讯混元大模子究竟达到了什么水平,照旧要对比事后才能知谈。因此,小雷使用Vidu和可灵两款大模子笔据第三段描画语分辩生成了一段视频。需要详细的是,这两款视频生成大模子天然未提供镜头截至功能开采,但可以在描画语后加入中景、拉近镜头等词语加以调控。
Vidu生成的视频将小雷描画中的风吹动椰子树、舔舐毛发、镜头拉近齐完整展现,与小雷脑补的画面较为接近。好意思中不及的是,这段视频中的月亮过于亮堂,搭配蔚蓝的全体色彩,更像早上太阳初升的时候,沙滩则过于平整,莫得任何沙子的嗅觉。
(图源:Vidu生成)
可灵生成的视频在小雷看来是这几个视频中最相宜预期的,波浪、风吹动椰子树、舔舐毛发等细节齐有,还加入了虚化和镜头拉近恶果,影子的精细变化更是惊喜。问题在于该视频依然存在细节方面的问题,莫得弘扬出朔月,更像是白昼。
(图源:可灵生成)
另外两段描画语,小雷也用Vidu和可灵进行了测试,限于篇幅问题,不再逐一展示。一言以蔽之,现阶段视频生成类大模子均已具备相识天然说话的才能,但濒临较为复杂的场景,依然会存在诸多纰谬,而在相对浅易的场景下,Vidu、可灵等“老牌”视频生成模子的弘扬略好,细节纰谬少一些,腾讯混元大模子仍有较大卓著空间。
混元视频大模子将来可期,但要腾讯充足意思从0到1的难度,可能比从1到2高得多,摸着石头过河的混元大模子在易用性、功能性方面更胜一筹,但AI大模子不同于其他行业,不但需要前东谈主引路,还需要工夫积存、算力范围、稽查数据。
领有腾讯行动后援,混元大模子不缺财力,可算力需要大批GPU和AI打算卡,更何况现时AI公司齐在争夺GPU和AI打算卡的产能,哪怕腾讯不缺钱,也需要时候堆算力、门径员优化算法、大批数据用于稽查。Vidu和可灵已升级至1.5版块,除了文生视频,还复古图片生成视频,刚出身不久的混元文生视频大模子略显稚嫩,生成的视频质地有一定的差距。
(图源:mockup套壳)
好在,混元大模子背后毕竟是国内互联网行业霸主腾讯,在腾讯工夫团队和资金的复古下,征服混元大模子能够以极快的速率成长。
从腾讯、亚马逊云科技、谷歌等企业的弘扬来看,2025年会是民众视频生成大模子爆发的一年,AI生成视频的长度也将从数秒擢升至分钟级,如亚马逊云科技的Nova Reel行将复古生成长达2分钟的视频。
与AI生成图文比拟,生成视频才能透彻目田念念象力,将咱们大脑中的念念法和脑补的画面升沉成推行。还有无数的网罗演义作者,但愿能够通过AI将演义升沉成动画或真东谈主视频。一朝AI生成视频工夫闇练,民众娱乐产业将际遇前所未有的变局。
视频生成大模子正井喷式涌现7788被窝电影网,2025年或将成为“视频生成大模子元年”,亦然决定关联企业成败的要津一年。从可灵、Vidu到腾讯混元大模子,国内企业已实时入场,把捏到了新期间的机遇。能否在新期间引颈民众视频生成大模子行业,能够很快就能见分晓。
举报/反应