kaiyun登录入口登录汽车摄像头摄像头图片素材会在AI领域被美国甩开吗？---

新闻资讯 | 2024-03-05 14:06

　　kaiyun登录入口登录最近这段时间，OpenAI公司的Sora火爆了，查了下时间是2月15日（美国当地时间）发布的。

　　当然了，每一次有新的东西出来，都是我们学习的机会，比如AGI这个词，最近因为Sora火了，我们就经常看到，但这个词是什么意思呢？平时我们不是都说AI（人工智能）吗，怎么又出来一个AGI。

　　像360的董事长周鸿祎就针对Sora的发布评论说“AGI线年的问题，可能一两年很快就可以实现”。

　　AGI是ArtificialGeneral Intelligence的的缩写，直译过来就是通用人工智能，直接点说就是能在各个领域都达到人类水平的人工智能。

　　人类是智慧的生物，所以一个人可以训练为医生，，司机，飞行员，士兵，工程师，快递员等等，表现出从事各行各业工作的通用性，对现实世界有强大的理解能力，而且还可以在工作中不断学习成长。

　　再比如我们汽车里面的各种车机对话机器人，什么理想同学，小艺，小P等等，它能做的就是听懂你说的指令然后打开空调，调温度，打开车窗，导航什么的。

　　我们现在登录一些程序的时候，经常会弹出一些图片，让你把它指定的选出来，比如汽车，自行车，女性，海边的男孩什么，这样做的目的是确认你是人类在登陆，因为人类有对世界的理解，我们脑子里不需要去存储记忆那么多海边男孩的画面，而是凭着对描述的这个画面的理解可以把相关图片筛选出来。

　　比如在相册里面搜索驾驶证，那么驾驶证的图片就可以很快的显示出来，我今天就在我的华为手机上用了这个功能，因为在试驾车需要出示驾照。

　　再比如有的AI画出来的画，或者做出来的视频，感觉就是怪怪的，和现实物理世界不一样，以至于人类可以分辨出这就是AI风格图片视频。

　　我过去的半年开了一些火热的国产新势力新能源车型，有时候让它放一首歌，它放出来的是错的，不是我想听的版本，那能不能做到我说话告诉它放出来的歌不对，什么版本才是我想听的，然后它下次就能把正确的歌放出来了？目前还不能。简单的说，就是没有记忆功能，就像是一个没有记忆的人。

　　如果能够达到AGI的话，我们就可以自己把车机聊天机器人越训练越聪明了，训练成我们想要的样子了。

　　这次Sora出来，之所以能够出现这么大的震撼，是因为在第二点上，也就是对世界的理解上实在是太惊艳了，根据文本生成的视频居然没有什么逻辑错误，和人类生存的物理世界表现一致，让人难以分辨这是AI生成的视频还是人类做出来的视频。

　　我们教AI来理解和模拟一个运动中的物理世界，目的是训练模型来帮助人们解决需要真实世界互动的需求。

　　接下来OpenAI公司说了下他们在邀请技术专业人士评估技术能力，包括对视觉艺术家，设计者以及影视从业者开放了使用，以获得他们的反馈来改进。

　　接下来说Sora能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅了解用户的要求，还了解这些东西在物理世界中是如何存在的。

　　然后说该模型对语言有着深刻的理解，使其能够准确地解释Prompt(也就是用户输入的文本），并生成令人信服的人物，表达充满活力的情感。Sora还可以在一个生成的视频中创建多个镜头，准确地保持角色和视觉风格。

　　最后说目前的模型还是有弱点。它可能难以准确模拟复杂场景的物理特性，也可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后，饼干可能没有咬痕。

　　该模型还可能混淆提示的空间细节，例如混淆左右，并可能难以准确描述随着时间的推移发生的事件，例如遵循特定的相机轨迹。

　　然后提到了安全的问题，这个比较长，简单的说主要就是想避免Sora的技术被滥用，不仅要通过专业团队测试来确保Sora能拒绝用户输入有害文本，而且还要确保Sora产生的视频中没有各种误导性，仇恨和偏见的有害内容，而且还在开发工具来检测产生的视频内容是否包含有害信息。

　　最后是一段关于技术的描述，很技术化，包括Sora是一个diffusion的模型，并且和GPT一样是Transformer架构，这个非技术人员不需要去了解细节。

　　但在最后提到，Sora除了能够仅根据文本指令生成视频外，还能够获取现有的静止图像并从中生成视频，从而准确地动画化图像内容，并注意小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。

　　最后说Sora是能够理解和模拟真实世界的模型的基础，我们相信这一能力将是实现AGI的重要里程碑。

　　看完OpenAI公司的介绍，我的感受是OpenAI公司强调的是对物理世界的理解能力，包括对人类语言（文本）的理解能力，以及生成的视频对物理世界的模拟真实度，相比之前有了很大的进步。

　　1 ：当前 AI的三个特点（弱点），只能用于特定领域，物理世界理解能力，自主学习能力这三项。

　　2：一项技术最后的价值是体现在商用，而Sora的潜在市场并不小，因为Sora最终商用的话，将极大的降低视频制作门槛

　　但就我想到的应用，就已经有广告，安全教育，电影，短剧，电视剧，自媒体文章，短视频平台作者发视频等等了。

　　其中尤其是广告市场是个极大的市场，像字节跳动，百度，快手，拼多多（没错，一个电商企业收入大头居然是广告），微博和谷歌等等的收入都是主要来自广告，靠着广告的收入，就能成为巨头企业。

　　2023年光是谷歌的总营收超过3000亿美元，其中大部分是来自广告，而视频是广告的主要形式之一。

　　例如作为播放广告平台的互联网公司，如果实现了超低门槛制作视频的话，为什么不可以向自己的客户提供广告视频制作服务呢？这可是巨大的市场。

　　不仅是给广告客户，而且互联网公司还可以把这项服务提供给普通用户，让普通用户可以极快的生成视频，这可能也会产生巨大的引流能力，像现在B站，西瓜视频，油管等等都有大量的自媒体视频作者，而视频制作本身有一定的技术门槛，

　　如果人人都能很容易生成视频，那可能会造成视频作者数量大大增加，那些率先实现低成本视频制作的互联网平台，可能会迎来大量的视频新作者，实现平台的繁荣，获得发展的机会。

　　比如理论上假设1万个用户输入同样的文本，那么Sora应该输出1万个不同的视频，因为用户不想要雷同重复的内容，那么当前Sora具备这样的能力吗？

　　同时不管是广告行业，还是电影行业，还是自媒体视频作者，客户的个性化需求极多，这就要求对视频进行各种调整，我前几个月就在当甲方做一段两分钟左右的演示视频，我回想了一下，由于负责做视频的人的理解和我要求的不一致，前后我提出的各种修改意见真的不少，Sora能够承担这种工作吗？还是只能用户自己手动调整？

　　如果Sora能够做到以上能力，那么价格是多少呢？能做到低成本吗？如果成本很高，还不如继续用人工呢。

　　而之前ChatGPT语言模型的发展已经给OPENAI公司带来了越来越高的收益，因为能够低成本的提供服务：

　　根据媒体的报道，OpenAI公司在2023年10月的年化收入（也就是当月收入*12）达到了13亿美元，

　　同时在 2023年12月的收入，乘以12之后达到了20亿美元的里程碑。算下来单月收入大约1.7亿美元。

　　今年的技术挑战显然比去年大，但我认为先不说技术水平如何，国内公司也会跟进并且较快的推出类似的产品。

　　其一是由于视频新技术可能会带来对视频平台，广告，影视等行业的改变，这就直接影响到国内相关互联网企业的未来发展，会让相关企业产生不确定感和危机感，有很大的动力去投入研发类似产品。

　　像广告，电商，游戏是互联网公司三大收入之一，如果广告行业因为新技术发生了改变，会不会影响到公司长期发展？

　　例如国内的各种视频平台已经不少了，从字节跳动，快手，腾讯（腾讯视频，视频号）等等，现在不管是制作长中视频还是制作短视频还是门槛较高的，很多人就不知道如何剪辑10分钟视频，如果技术变革了，门槛降低了，谁都能够更快的生成有趣的视频，会不会发生新的变革？

　　举个例子，我经常上B站，但是我自己从来没有自己做过视频并且在B站上传，为啥呢，因为剪辑视频费时费力而且收益又低，一个粉丝较多的up主一个月流量收入就几千块。

　　如果B站推出了新技术，我写文字就能够一键制作成视频，而且基本符合我的原意，而且成本还低，内容还不会和其他人重复，那我何乐而不为呢？这可能会大大的增加B站的up主活跃度。

　　再比如腾讯的视频号如果率先推出了这种低门槛低成本的文字生成视频技术，会不会导致大量用户涌向视频号发作品尝鲜，结果影响其他短视频平台的用户数量和时长？

　　所以我觉得应用市场大，其结果就是国内不少公司会受到影响，他们是有很大动力去把这个技术搞下来，毕竟跟他们的切身利益有关系。

　　不怕在技术上暂时的落后，落后是可以追赶的，怕的是国内没有相关公司，尤其是大公司投入这个赛道搞研发。好在中国的视频产业够大，也有足够的驱动力。

　　其二是中国在国家和省市层面都已经高度重视人工智能，算力中心的发展了。各种政策不断出台，我就不再一一列举了，这说明中国从政府到企业对人工智能的态度是一致的，而且是积极的。

　　会议明确中央企业要把发展人工智能放在全局工作中统筹谋划，加快布局和发展人工智能产业，把主要资源集中投入到最需要、最有优势的领域，加快建设一批智能算力中心，开展AI+专项行动。

　　4：要改造人类的物理世界，即使最终达到AGI也是不够的，需要有物理层面的感知，算力和执行，最终还是要有强大的制造业。

　　可以把人，比如我自己看成一个AGI，虽然我的头脑智力就是人类水平，比现在的人工智能还要先进，但没有物理层面的配合，仍然无法改造世界。

　　如果没有双手，以及我使用的各种物理工具和装备，就无法实现对世界的改造，当然也包括对物理世界的破坏。

　　英伟达因为AI的爆发现在如日中天，但其计算芯片当前100%由东亚地区制造，主要是台积电（其中H100更是100%来自台积电），少量由三星制造。

　　汽车方面电动化转型最好的特斯拉，上海工厂成为其全球最大工厂，实际上如果没有上海工厂的高速度扩产和销售，特斯拉能不能挺过当年的困境都不好说。

　　因为需要算力的关系，因此不管是英伟达这样的全球计算芯片巨头，还是华为等国产计算芯片公司都成为关键变量，尤其是现在国内已经买不到英伟达的先进计算芯片了。

　　自从去年8月底华为Mate 60系列发售，华为海思芯片已经可以在国内批量生产开始，我就非常关注华为旗舰手机的销量情况，因为华为的旗舰手机销量越大，那么国产高端手机处理器芯片的销售数量就越多，对上游国产芯片制造业的拉动也就越大，从而也会惠及到计算芯片的制造。

　　不管是上次的ChatGPT，还是这次的Sora，都在国内掀起了巨大的热潮，这是大好事，也说明了国内各方面认为这很重要。

　　同时它是个庞大的产业，最终还要在硬件设备上落地才能真正发挥改造世界的作用，因此美国其实挺难全方位的超越和领先，也意味着中国有赶超的机会kaiyun登录入口登录。

　　倒是那些上重视不多，投入资本也少，缺乏民间巨头企业参与的产业，我国追赶速度就很慢，比如科研用的科学仪器仪表，我查询了行业报告，每年国内市场就高达三千多亿人民币，这方面我国落后欧美就很多，大量依赖进口，虽然国家有部署专项国产化任务，但是缺乏民间巨头企业参与。

　　还有2018年之前的半导体生产设备和材料行业，国内都不重视国产化，反正能从美国日本荷兰等国买到，后来被美国制裁才被打醒了，下游企业开始大量采购和扶持国产设备和材料，从国家，企业到公众，对半导体产业链国产化的重视程度空前提高了，这才有了这几年的高速增长。

　　实际上对于我们个人而言，也要关注AI时代带来的变革，比如现在各种AI工具越来越多，能不能用这些AI工具提升我们的工作效率？

　　像我老婆给孩子买的学习机，只需要把作业本放在桌上上，学习机就可以通过摄像头识别作业本的内容，并且把作业本内容的图片显示在屏幕上哪些题做对了，哪些题做错了，大人轻松了很多。

　　我在想如果学校给老师配置了这种AI设备，老师批改卷子，作业是不是高效了很多？老师只需要看一眼屏幕，就知道哪个地方错了，知道该在卷子上哪个地方打叉，连分数都算出来了。

　　天天做PPT焦头烂额的社畜，被各种排版，素材，字体搞的很痛苦，有没有关注有哪款 AI工具可以帮助自动写PPT，你只需要输入文字内容就可以了？

　　有没有想过关注AI视频技术的发展，有没有哪款AI视频制作工具，可以把你拍摄的视频内容迅速自动剪辑好，配好字幕，这样你也可以当一个视频作者，通过视频分享自己的行业知识，在各个视频平台赚取流量费？

　　中国广大各行各业的大中小企业也是一样，要思考什么样的AI工具能够帮助自己的企业更加高效，更加高质量的运行，这不仅能给自己带来好处，反过来也是给国内搞AI的企业带来市场机会，拉动国产AI产业的发展。

　　面对AI技术的发展，包括美国AI技术的发展，不需要恐惧AI会不会把我的工作替代了kaiyun登录入口登录，也不需要担忧美国会不会又把中国远远甩在后面了。

　　人类的恐惧和担忧主要来自于未知，研究它，学习它，使用它，不仅能给我们带来极大的好处，而且各种恐惧和担忧也就烟消云散了。

kaiyun登录入口登录汽车摄像头摄像头图片素材会在AI领域被美国甩开吗？---

我们——专业

我们——可靠

我们——节省

我们——快捷

网站导航

友情链接

扫描二维码