体验爱诗科技最新发布的PixVerse V2：多片段可实现40秒、等待时间超5分钟_原创_科技频道首页_财经网

快手可灵AI宣布全面开放内测之日，爱诗科技也宣布全方位升级视频大模型。

7月24日，爱诗科技正式发布视频生成产品PixVerse V2，采用Diffusion+Transformer（DiT）基础架构，在时空建模方面引入了自研时空注意力机制，可提升复杂场景表现能力。

当日实测过程中发现，单片段可以实现8秒、多片段可以实现40秒视频生成；单个8秒视频生成等待时间均超5分钟；不符合预期效果可选择重新生成……具体生成效果，请看提示词和视频。

8秒视频，最长等待时间超10分钟

进入PixVerse的官方界面，需要登录已有账号或者用邮箱注册一个账号。登录成功后会直接进入主页，操作界面相对简洁明了，文本框、图片标识都很直观，输入提示词后点右下角即可生成。

首先体验了一下文生视频，输入提示词：一个60岁老奶奶在路边捡垃圾

WechatIMG1344

视频生成后，再次输入新的提示词：几只巨大的长毛猛犸象穿过一片白雪覆盖的草地

WechatIMG1343

第一个视频生成的时间等待了13分25秒，第二个视频生成时间等待了7分53秒，接着再输入了几次后，等待时间均超过了5分钟。

在提示词输入口的下方，可以看到有Scene1，后面的+号则代表在一致性的前提下，可生成多个片段。不论选择5秒还是8秒的单个视频时长，都可以增加至5个场景，则至多连续生成一个40秒视频。

在体验过程中，尽可能地使用了简单的提示词，五段分别为：

1、炎热的夏天，一个穿着白色老汉衫的大爷，

2、满头大汗地推着三轮车，在广场上卖西瓜，

3、有2个女孩看了一眼西瓜走了，

4、大爷推着车离开了广场，衣服后背都汗湿了

5、又推着三轮车里的西瓜，去了路边

WechatIMG1345

视频生成后，可以通过对每段视频进行微调，分别是主体、场景、动作。但为了更加客观地看到生成视频，生成的所有视频都未进行干预。

图生视频的操作方式也相对简单，点击右上角的图片标识，选择图片再输入提示词生成即可。值得注意的是，上传的照片尺寸需为16:9。

在体验过程中，选择了实拍单人、双人图片后输入的提示词。

提示词1：这名男子给对面的人飞吻

WechatIMG1342

提示词2：这两名女子亲在了一起

WechatIMG1341

注：图片均来自所生成视频截图

明星创业公司之一

据介绍，PixVerse V2采用了DiT模型架构。据晚点报道，爱是科技称自己2023年6月以来就尝试DiT架构，这是一种2022年底被提出的新型扩散模型，也被认为是Sora背后的架构。

爱是科技称，PixVerse V2以DiT架构为基础，实现了多项技术创新。具体分为三个方面，在时空建模方面，PixVerse V2引入了自研的时空注意力机制，不仅超越了传统的时空分离和fullseq架构，而且显著提升了对空间和时间的感知能力，使得在处理复杂场景时表现更为出色。

在文本理解方面，PixVerse V2利用了有更强大理解能力的多模态模型来提取prompt的表征，有效实现了文本信息与视频信息的精准对齐，进一步增强了模型的理解和表达能力。

此外，PixVerse V2 在传统 flow 模型的基础上进行了优化，通过加权损失，促进了模型更快更优地收敛，从而提升整体训练效率。

爱诗科技成立于2023年4月，创始人兼CEO为王长虎。公开资料显示，王长虎博士，曾深耕计算机视觉与人工智能领域20年，带领字节跳动视觉技术团队在巨量规模的用户数据下，解决了多个视觉领域的世界级难题，并从0到1支撑了抖音与TikTok等国民级视频产品的建设和发展。

另外据介绍，爱诗科技团队成员来自清华、北大、中科院等，曾任职于字节、快手、腾讯、微软研究院等核心技术团队，拥有世界一流的计算机视觉算法攻坚能力和解决系统工程问题的经验。

2024年1月，爱诗科技上线了视频生成产品PixVerse，用户在 PixVerse 网页版界面里输入文字或图片就能生成视频。彼时，PixVerse生成的视频时长为4秒。

进入2024年，AI视频如火如荼，爱诗科技作为视频大模型公司，也获得了资本青睐，成为明星创业公司之一，在今年已经完成两轮融资。

3月11日，爱诗科技宣布在近日完成亿级人民币A1轮融资，本轮融资由国内一线投资机构达晨财智领投，光源资本担任独家财务顾问。

不到2个月的时间，4月23日，《晚点 LatePost》独家获悉，蚂蚁集团已于近期独家投资了中国视频生成大模型公司爱诗科技的 A2 轮，该轮金额超过1亿元人民币。

综合自爱诗科技、晚点、界面新闻等