当前所在位置:首页 > 股票配资平台查询

东京街头视频流出,硅谷巨头不淡定了

7137

2024-05-26 【 字体:

唯物的中国芯片产业深度观察

必须承认,目前这个AI时代只有一位主角,OpenAI。

它的聊天机器人ChatGPT,不上法学院就通过了律师资格考试。现在,它的最新模型Sora,我们大胆想象一下,说不定某一天会拿到奥斯卡。

Sora于2月16日上线,根据文本提示,可创建长达一分钟的逼真视频。这些视频呈现“多个角色,特定类型的动作,以及充满细节的复杂场景”。

现在Sora还没有开放使用,未来会提供给“数量有限的创作者”,售价应该不便宜。

Sora首页/OpenAI

Sora面世后,如ChatGPT一样刷屏全球媒体。

OpenAI首席执行官山姆·奥特曼热情接受网友“点单”,在X上放送多个Sora绘制的精美视频。科技界大佬杨立昆、贾扬清、Jim Fan、谢赛宁、周鸿祎、李志飞等人竞相评论,马斯克直接感慨“人类愿赌服输”。

OpenAI的独角戏时代,对普通人而言是技术平权的好事,对AI从业者来说却是沉重的压迫。

最高兴的是谁呢?造芯片的。

Sora冲击奥斯卡

Sora得名于日语“天空”一词。研究团队成员蒂姆·布鲁克斯和比尔·皮布尔斯介绍,选择这个名字,是因为它能“唤起无限的创造潜力”。

官方网站贴出了Sora创作的东京街头视频。“美丽的、白雪皑皑的东京市,镜头穿过熙熙攘攘的城市街道,跟随几名行人享受美妙的雪天,有人在路边小摊购物。绚丽的樱花与雪花一起在风中飞舞。”

Sora制作的视频

另一个视频根据如下提示词产生,“几只巨大的、毛茸茸的猛犸象,踩着白雪皑皑的地面走近,风吹动它们身上的长长毛发,远处是白雪覆盖的高大树木和雄伟山脉,午后的光线营造出温暖的光芒。”

Sora制作的猛犸象视频/OpenAI

有了提示词,Sora就“知道”如何用镜头语言讲故事。

比尔·皮布尔斯用一个“海洋视频”举例,该视频根据“一个华丽的珊瑚礁世界”等描述创建,画面充斥着五颜六色的鱼类和海洋生物。Sora通过变化摄像机的角度和进程,创造出了“叙事节奏”。

“实际视频里有多个镜头变化——这些变化不是拼接在一起的,而是由模型一次性生成的,”皮布尔斯说。“我们没有告诉它这样做,它自动这样做的。”

Sora制作的视频

Sora最令人吃惊的本事,就是没有经过训练而自行创造的能力。

Sora模型基于Transformer架构,建立在DALL·E 3和GPT模型之上,这是OpenAI综合利用自家前沿技术方面的又一次突破。它有三大核心特点,“60秒超长长度”“单视频多角度镜头”,以及“世界模型”,一举打败所有同类竞品。

在此之前,AI视频生成领域的明星产品Runway和Pika,只能做3或4秒长的模糊视频,角色形象也很扭曲,还得用户输入图片——受技术水平所限。

Sora、Pika、RunwayML和Stable video用相似关键词得出的视频,结果显示Sora的视频更为流畅/@Gabor Cselle

像YouTube火爆的AI视频迷因“威尔·史密斯吃面条”,用网友的话说“完美地用视觉效果传达出洛夫克拉夫特式恐怖”——人物面目狰狞,看了一宿睡不着觉。

网络上流传的“威尔·史密斯吃面条”

而Sora达到了惊人的高清照片级真实感,“运镜”手法更令人难忘——围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。

虽然“东京街头飘雪”视频里,两个角色走着走着就要走进死胡同;“猛犸象”视频里,前头两只猛犸象有点“顺拐”;“戴墨镜的时髦女子”左手拇指比例不对;被咬了一口的饼干没有牙印……但Sora的整体视觉呈现效果依然无可匹敌。

Sora发布的同一天,谷歌DeepMind推出Gemini 1.5 Pro,几乎没抢到什么眼球。去年大火的Stability AI也发布了新视频模型SVD1.1,自觉“技不如人”,又火速删除了该条官方推文。

Stability AI发布了新视频模型SVD1.1后又删除官方推文

大力出奇迹

跟一年多以前横空出世的ChatGPT一样,OpenAI的秘诀一直是屡试不爽的Scaling Law(缩放定律)。只要模型足够“大”,根据特定算法,就会产生智能“涌现”的能力。

当然,一般的机构和公司,也没有能力达到OpenAI的水平。别小看“大力出奇迹”,前提是你得有那么“大力”。

Sora是一种AI模型,使用文本到视频的合成技术,按文本提示生成视频。这种技术将自然语言转换为视觉表示形式——图像或视频。

OpenAI在官网展示Sora的生成逻辑

深度神经网络依然是Sora的基础,它是一个带有Transformer骨架的扩散(Diffusion)模型,AI从数据中学习并执行复杂的任务。Sora就是从“学习”的大型视频数据集里学会了各种风格、主题和流派。

Transformer模型本质是一个编码器-解码器,输入原始语言,生成目标语言。扩散模型的原理是先给数据添加高斯噪声,再反向去除,从中恢复数据本貌。

简单粗暴地理解Sora的原理,就是翻译器+搜索引擎+概率制作(内容)。

首先,拿到提示词后,Sora先分析文本,提取关键字,比如主题、动作、地点、时间和情绪,再从它的数据集里搜索与关键字匹配的、最合适的视频。

Sora制作的视频/OpenAI

其次,Sora将数据集里合适的视频混合在一起,重新创建一个符合要求的视频。在“创造”的过程中,它要“知道”场景中有哪些对象和角色,它们的外形,它们如何运动,对象如何交互,以及受到环境影响后如何表现。

根据用户的喜好,Sora会修改视频的风格。假如用户想要一个35毫米胶片样式的视频,Sora会调整效果,更改图像的亮度、色彩和摄像机角度。这一点和MidJourney等“文生图”应用类似。

Sora可以生成分辨率1920x1080的视频。它也可以基于静止图片创建视频,使用新素材扩展现有素材。比如用户给它一张森林图片,它可以帮你加上鸟、兽、人。给它一张汽车行驶图,它能加上道路、交通灯、沿途建筑物和风景。

Sora将两段视频结合后产生的奇幻景象/OpenAI

“补丁”是新方法,类似于GPT里的Token——较小数据单元的集合。“补丁”叠加在一起,凑成完整内容。

“世界模型”这一核心特点,代表了文本生成视频领域的最高级研究方向:通过对真实物理世界的模拟,世界模型让计算机像人类一样全面、准确地“认知”世界。其最根本意义就是“言出法随”——你说什么,世界就是什么。

世界模型最早由图灵奖得主、Meta首席科学家杨立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模拟整个世界。

Runway宣布建造“通用世界模型”,并在官网首页介绍了该模型

然而,“果子”还是让OpenAI摘到了。

Sora面世后,杨立昆的看法值得思考。他发帖说,连接主义是有问题的,符号主义更有前途。意思就是重数据量和网络规模、轻抽象表示和物理结构是不行的;要反过来。

因为模型要学习符号逻辑和物理意义,才能进一步理解因果,理解物理现实,否则长视频上一定“露馅儿”。

“造芯”是硬道理

有Sora的能力,何愁“元宇宙”遥遥无期。

《头号玩家》的世界近在眼前:带上苹果Vision Pro,打开支持8K视频的Sora应用,想象一个美好的场景,生成白日梦,然后成瘾。

苹果Vision Pro宣传片

Sora也让电视剧《黑镜》里《Joan Is Awful》一集变为现实。女主角发现自己的生活与电视剧惊人相似。随着情节推进,她逐渐揭露真相,一个根据观众个性、喜好及生活经历生成的复杂系统,已经渗入普通人的生活。

《黑镜》第六季第一集《Joan Is Awful》展示了流媒体窃取用户信息等问题

随着Sora技术的更新和应用,新的娱乐时代近在眼前。所有的文化产品都不再是单向度的叙述和输出,而是能反应、适应每一位观众独特偏好的互动“游戏”。

当人工智能越发显现出无所不能的力量之时,基于人类作为社群而不仅仅是种群的生命经验、社会经验提出问题,解决问题,仍然是我们“老调重弹”的挽尊之道。

不过,在强调“想象力夺权”之前,最紧张的反而是芯片制造商:视频模型的竞争和语言模型相差不远,先是拼团队的工程化调参能力,最后就是拼算力。

除了文本生成视频外,Sora还支持图片生成视频。图为OpenAI首页展示的Sora“图像生成视频”

就在OpenAI首席执行官奥特曼开口“七万亿美元造芯片”前后,AI芯片赛道人满为患。

AI芯片传统三巨头里,占有98%市场份额的英伟达,凭借近年人工智能的东风,一个星期前市值达到1.78万亿美元,超越亚马逊,成为美股市值第四大公司,距离市值1.8万亿的谷歌一步之遥。AMD和英特尔还在紧追不舍。

Meta于2月公布最新的自研定制芯片计划。2月17日,软银集团创始人孙正义宣布筹措1000亿美元,成立AI芯片企业,以便与前几年收购的芯片设计公司ARM互补。

孙正义

据The Information统计,截至目前,全球有超过18家用于AI大模型训练和推理的芯片设计初创公司,包括Cerebras、Graphcore、壁仞科技、摩尔线程、d-Matrix等,融资总额已超过60亿美元,企业整体估值共计超过250亿美元。背后的投资方包括红杉资本、OpenAI、五源资本、字节跳动等。

各家争先“造芯”,最引人注目的还是OpenAI。

去年,CEO奥特曼就开始为代号Tigris的芯片制造项目筹钱,当时号称要筹集100亿美元,希望生产出类似谷歌TPU、英伟达H100等芯片。2023年9月,OpenAI还招募了搞软硬件协同的著名牛人Andrew Tulloch。

OpenAI

2024年1月,奥特曼到访韩国,会见韩国三星电子和SK海力士高管,寻求芯片领域的合作。2月,奥特曼被曝出与阿联酋政府谈判,计划筹集“7万亿美元”。

AI时代出寡头。

以前做技术,参与者总有身处浪潮之中的感觉。如今,从业者们眼巴巴看着黄仁勋、奥特曼呼风唤雨,也眼巴巴看着投资越来越天文数字,模型数据量也越来越天文数字,无处排遣“浓浓的科技主义阶级压迫感”——找到自己的机会,也变得越来越难。

文中配图部分来源于视觉中国,部分来源于网络

阅读全文
相关推荐

疑工程款不到位,惠州鹅城大桥通车时间或延迟

疑工程款不到位,惠州鹅城大桥通车时间或延迟
目前处于半停工状态,每日仅有约30人工作,而2023年高峰期曾有超过500人参与...

老北京地道小吃百余种,其中最经典的这6种,很多人没有吃全过

老北京地道小吃百余种,其中最经典的这6种,很多人没有吃全过
每个地方都有每个地方的特色小吃,今天我要说的是北京的地道小吃,说起北京小吃,自然...

现场检查覆盖面大幅提高,上市前“清仓式”分红成监管重点

现场检查覆盖面大幅提高,上市前“清仓式”分红成监管重点
现场检查已成为监管层强化全链条监管的重要手段,而上市前突击“清仓式”分红等情形,...

什么都没有做,怎么就得罪小人了呢?

什么都没有做,怎么就得罪小人了呢?
正因为什么都没做,所以才得罪了小人。什么都没做,说明日常很少主动做什么,日常是沉...

【ETF动向】7月31日博时中证红利低波100ETF基金涨147%,份额增加349999万份

【ETF动向】7月31日博时中证红利低波100ETF基金涨147%,份额增加349999万份
证券之星消息,7月31日,博时中证红利低波100ETF基金(159307)涨1....

绿地香港(00337HK):首七个月合约销售4843亿元

绿地香港(00337HK):首七个月合约销售4843亿元
格隆汇8月6日丨绿地香港(00337.HK)发布公告,2024年首七个月,集团的...

上海七宝万科广场易主,新东家是亚洲市值最大的房地产基金

上海七宝万科广场易主,新东家是亚洲市值最大的房地产基金
2月9日,亚洲市值最大房产信托领展房产基金(00823.HK,简称“领展”)公告...

深圳一芯片公司突然宣布停工停产,曾获国家级专精特新“小巨人”

深圳一芯片公司突然宣布停工停产,曾获国家级专精特新“小巨人”
7月22日,深圳市锐骏半导体股份有限公司(简称“锐骏半导体”或Ruichips)...

微软确认高通“独占期”即将结束:Copilot+ PC将扩展到x86平台

微软确认高通“独占期”即将结束:Copilot+ PC将扩展到x86平台
由于最初仅出现在搭载骁龙X系列处理器的Copilot+ PC,导致很多PC用户都...

哈尔斯(002615SZ):上半年净利润129亿元 同比增长18241%

哈尔斯(002615SZ):上半年净利润129亿元 同比增长18241%
格隆汇8月26日丨哈尔斯(002615.SZ)公布2024年半年度报告,报告期营...