最近一周时间在上海、深圳、北京见了近20位一线AI从业者,其中包括投资人,大厂AI业务&模型厂&应用厂的员工,独立开发者,fou

最近一周时间在上海、深圳、北京见了近20位一线AI从业者,其中包括投资人,大厂AI业务&模型厂&应用厂的员工,独立开发者,founder。很累,收获也很多。总结一下我觉得重要的共识和非共识,以下内容没有优先顺序,想到哪写到哪: 1.关于竞争:大厂、模型厂、应用厂 大厂没有逃脱局部兵力不足的问题,越是铺得广的厂这个问题越严重,字节的遍历填格子打法在业务相似度低的时候是人才密度不够的,战术上重视就行。反而阿里的通义因为更研究院模式,没有主核,分布式创新使得反而跑出来一些模型和应用侧有意思的东西,这个很值得大厂内部思考一下。 模型厂基于GPT-5迟迟不到,可能也判断出了,算力未必是万能解药,开始卷差异化,差异化对于tob的竞争尤为重要。但国内的模型厂还有一个不得不卷应用的任务,但不基于模型差异化的应用很难卷出用户体验增量,各位厂里的小伙伴都在努力地拉齐共识和内部创新的过程中。 应用厂,AI搜索的共识形成得太快了,其实没有留下太多保护期,大明牌的卷度会很激烈。反而是AI+every thing因为去年的过分乐观到今年的幻灭,留出了大量的创新保护窗口,给不迷信AI解决一切问题,但试图先用AI对具体领域做一些用户体验提升的公司留下了机会。 额外补一个硬件厂,世界上还有大量的数据没有被搜集,每个带有数据收集器的硬件厂都有属于自己的机会,但硬件厂目前很少有软硬一体的能力。补齐短板的玩家会可能会跑出来新东西。 2.关于模型能力 GPT-4o展示了快非常重要,快是核心体验之一,那么moe就必须得卷了,groq这种加速的基建也会变得非常有价值。如果大规模的智力代差比如3.5->4不会卷得那么快的话,代差之间可能更多是成本和速度的竞争。 长上下文很牛,但低成本的长上下文才有意义,基于长上下文成本急剧下降这个假设,能解决很多当前的用户体验问题。 多模态暂时在应用层的优势不明显,不考虑终态世界模型之类的,当前可能主要体现在一些之前没覆盖到的小CV场景。 fine - tuning不是净提升,是某类问题解决的更好,但通用问题更差的trade off,可以通过调整尽量降低负面影响,但从技术成本和数据成本来考虑,暂时很难作为可普及的常用武器库。 更细分的卷法,卷RAG,卷function call,卷代码能力,卷交互理解,卷情绪理解等等 可能真正值得卷的是意图识别,意图识别才是ai的推荐系统。 3.关于投融资 国内目前的情况是:创业者说市场温度低难拿钱,投资人说好项目少没法投。回到本质还是大家想用钱干什么,如果是为了加速市场形成,烧出一个煊赫盛世应该是不太可能了,因为各有各的难处,但如果真的想要构建一个未来5-10年在AI世界有独特社会分工的企业,大家还是很认可的。但目前市面上能持之以恒解自己的题的人很稀缺。 海外听到了多种说法,鉴于没有一手信息就不评价了,但如果做海外市场,还是建议谨慎考虑融资动作。 4.关于用户需求 PMF对还是TMF对?还是前者对,但现在加了一层技术可行性的约束,使用门槛很高,但体验提升巨大,也有机会。 工具效率/工作流,这是目前AI落地得最好的部分,但目前最大公约数已经挖完了,而AI目前远达不到数字员工的级别,很长一段时间基于某个职业的AI工作流copilot应该都是主要落地形式。tob和toc在这个领域都能持续跑出来赚钱的东西。 情感陪伴/内容消费,成本下不来,质量上不去,商业模式讲不清楚(付费逻辑只有hs内容能跑通,免费逻辑留存一直上不去)。 AI也不是唯一主线,AR眼镜等硬件对原本手机场景的分割,电话、拍照、翻译。还有web3。基于满足用户需求来思考,AI未必是唯一的锤子。 5.关于长期主义的优劣势 这回出来有一个比较深的感受是,基本上可以把founder分为偏长期主义和不偏长期主义两类,而这两类似乎都有其生存空间和价值。 因为我的个人偏好,所以说明一下长期主义的优劣势: 优势是,长期主义在各类决策上,难度都会降纬,因为长期主义代表你对于未来世界是有一个大概想象的,你知道五年之后想要什么,所以对于判断做什么不做什么会变容易,对于招谁不招谁也会变得容易。单一目标的决策总是比多目标的决策好做。 劣势是,早期找PMF切入点可能会非常难且漫长,对于耐力、定力和资源的要求会更高,是的,长期主义是更消耗资源的,因为反馈周期会更长。

相关推荐

封面图片

,主要为本科生高年级、硕博研究生、AI系统从业者设计。

,主要为本科生高年级、硕博研究生、AI系统从业者设计。 这个开源项目英文名字叫做 Deep Learning System 或者 AI System(AISys),中文名字叫做 深度学习系统 或者 AI系统。 本开源项目主要是探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 系统全栈的内容。 课程主要包括以下五大模块: 第一部分,AI基础知识和AI系统的全栈概述的AI系统概述,以及深度学习系统的系统性设计和方法论,主要是整体了解AI训练和推理全栈的体系结构内容。 第二部分,硬核篇介绍AI芯片,这里就很硬核了,从芯片基础到AI芯片的范围都会涉及,芯片设计需要考虑上面AI框架的前端、后端编译,而不是停留在天天喊着吊打英伟达,被现实打趴。 第三部分,进阶篇介绍AI编译器原理,将站在系统设计的角度,思考在设计现代机器学习系统中需要考虑的编译器问题,特别是中间表达乃至后端优化。 第四部分,实际应用推理系统,讲了太多原理身体太虚容易消化不良,还是得回归到业务本质,让行业、企业能够真正应用起来,而推理系统涉及一些核心算法和注意的事情也分享下。 第五部分,介绍AI框架核心技术,首先介绍任何一个AI框架都离不开的自动微分,通过自动微分功能后就会产生表示神经网络的图和算子,然后介绍AI框架前端的优化,还有最近很火的大模型分布式训练在AI框架中的关键技术。 第六部分,汇总篇介绍大模型,大模型是全栈的性能优化,通过最小的每一块AI芯片组成的AI集群,编译器使能到上层的AI框架,中间需要大量的集群并行、集群通信等算法在软硬件的支持。

封面图片

Sora 详细的技术报告发布了,相关从业者可能都需要看看。

Sora 详细的技术报告发布了,相关从业者可能都需要看看。 里面有 Open AI的训练思路以及 Sora 详细的技术特性,我从里面找了一些要点,详细的可以去看完整内容。 简单来说 Sora 的训练量足够大也产生了类似涌现的能力。 技术特点: 三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。 模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力 长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。 与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。 训练过程: Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。 Sora实际上是一种扩散型变换器模型(diffusion transformer)。 首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。 训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。 对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。 随着 Sora 训练计算量的增加,样本质量有了显著提升。 Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。 针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

封面图片

《从零到一:AI工具造富指南文案专家篇》|简介:聚焦于帮助文案领域从业者借助AI工具实现财富增长,从基础的AI文案创作工具使用开

《从零到一:AI工具造富指南文案专家篇》|简介:聚焦于帮助文案领域从业者借助AI工具实现财富增长,从基础的AI文案创作工具使用开始,深入讲解如何利用AI优化文案内容、提升文案产出效率,以及借助AI开拓新的文案业务领域,实现从新手到能利用AI创造高额收益的文案专家的转变|标签:#AI文案造富指南#文案创作#AI工具应用#财富增长| 文件大小 NG |链接:

封面图片

感谢Linkloud和@High宁 ,很好的分享,作为一线运营从业者非常赞同。一些自己的感受:

感谢Linkloud和@High宁 ,很好的分享,作为一线运营从业者非常赞同。一些自己的感受: 用“AI全球化”代替“AI出海” 1. 为什么说AI全球化? AI在23年快步迈入全球化,这在word of the year中可见一斑,不管是英语:剑桥(hallucinate),柯林斯(AI),牛津(prompt),韦式(authentic),麦考瑞(generative AI),还是其他语种:汉语(chatGPT),俄语(нейросеть),德语(KI-Boom),法语(prompter) 语言上的反映代表着AI是一场全球尺度下的分工: 2. 为什么AI要全球化? 从23年末就陆续和多个媒体及投资人朋友讨论过这个问题,仅就国内企业而言: 关于HeyGen的猜想: 国内基金对AI投资的疲软(爱看-多聊-慎投): 其他可能原因:中国市场产品高同质化带来的内卷;SaaS模式本身的“水土不服”;海外用户更高的付费意愿和能力;更友好的社区和生态所带来的快速IMF;国内合规性和算法备案问题;第一批AI出海初创团队/个人开发者(参考@哥飞 社群)/海外华人团队尝到了红利所带来的从众效应等 3. 全球化 or 本地化 尽管AI/科技时代英语霸权更强了: 但依旧会遇到本地化功能,支付,法规,推广逻辑等一系列挑战:比如支付,虽然欧美等发达国家支付系统很成熟,但那是高竞争下的存量市场,面对中东,俄罗斯,印度,东南亚和其他新兴国家的增量市场,定价和付款方式依旧是一个需要思考的问题:

封面图片

谷歌发文解释为什么要在Chrome中内置本地AI模型:为开发者提供设备端应用

谷歌发文解释为什么要在Chrome中内置本地AI模型:为开发者提供设备端应用 谷歌目前已经尝试在 Chrome 浏览器中内置 AI 模型,该模型需要下载到本地后使用,模型版本为 Google Gemini Nano 版。这个模型并不是面向普通用户提供的,主要是给开发者使用,让开发者可以在网站或 PWA 应用里调用本地 AI 模型执行运算,而不需要调用某些云端模型。最重要的是经过谷歌的优化,Gemini Nano 版可以在本地使用硬件加速功能,无论是 GPU、NPU 甚至是 CPU 都可以用来运算。使用本地模型的好处有很多:本地处理敏感数据:设备端 AI 可以改进隐私保护,例如处理敏感数据时可以通过端到端加密为用户提供 AI 功能。流畅的用户体验:在某些情况下无需来回往返服务器即可获得近似实时的回答。对 AI 的访问权限更高:设备端可以承担一些处理负载,以换取对功能的更多访问权限,即如果使用云端 AI 用户可能需要额外付费分摊开发者的 token 费用,如果仅在本地处理那么这些费用就可以省了。离线使用 AI:显然设备端的本地 AI 是可以在离线状态下使用的,这意味着某些 PWA 类应用在离线情况下也可以处理内容。亦或者采用混合架构:对于简单的任务使用本地 AI 处理是可以的,但如果需要进行复杂的任务开发者应当考虑使用服务端实现,也就是继续调用云端 AI。第二种是保持 AI 功能的弹性,当网络连接顺畅的情况下开发者可以调用云端 AI,如果网络不畅或者离线则可以回退到本地 AI 处理。第三种是安全回退:采用内置 AI 的浏览器需要一定的时间,而且某些型号或某些太旧的设备可能无法使用本地 AI,这种情况下开发者可以继续调用云端 AI。Chrome 内置 AI 为所有开发者提供通用模型:现阶段开发者通过浏览器运行 AI 要么直接调用云端 AI 要么需要下载本地模型,而不同的开发者和不同的网站采用的 AI 模型不同,用户可能需要下载一大堆模型。Chrome 内置 AI 模型为所有开发者提供通用模型,这些模型一次下载即可使用,在用户已经下载过模型的情况下,调用模型的 PWA 应用可以做到开箱即用。这种方式应该可以大幅度提高 PWA 应用对 AI 功能的采用率,提高用户体验的同时也可以减少开发者很多繁杂的工作。 ... PC版: 手机版:

封面图片

你打折、我免费 本土AI大厂怎么突然打起了价格战?

你打折、我免费 本土AI大厂怎么突然打起了价格战? 在这里,先跟不太懂的差友科普下,不少大模型厂商们,都会把 API 接口开放出来,赚个其他企业或者开发者们调用的钱,其中,它们卖的,就是token 数,像咱跟模型对话的时候,消耗的就是 token 。最先打响token 价格战的,其实是个大模型创业公司幻方,它率先把每百万 token 的价格达到了一两块钱的级别。打个比方,把 token 换算成汉字,原来一块钱咱只能买得起两万来字的短篇,现在同样的价格,能把整套《 三体》打包下来,还绰绰有余。很快,智谱 AI 也拿起了刀,对着自家大模型 GLM-3 Turbo 唰唰来了好几下。原来 5 块钱 100 万个 token ,直接打两折,只要 1 块。本来新用户注册送的 500 万个 token 数,也连着翻了五个跟头,提升到了 2500 万。有趣的是,智谱还直接贴着阿里和百度两个大厂的脸开大,做了个价格对比图……这还没完,紧接着,上周字节在火山引擎原力大会上,把价格战又推进了一步。它给出的折扣比幻方和智谱还要大,他们家的豆包大模型, 8 毛钱就能买到 100 万个 token 。而且同样拉来了阿里和百度来做对比,就差指着它们的鼻子说 “ 轮到你们了 ” 。到这时,大厂之间的大模型价格战,算是正式拉开了序幕……被拉着鞭尸了好几次的阿里和百度,终于也坐不住了,就在昨天,前后脚官宣了 “ 大降价 ” 的消息。世超瞅了眼阿里的降价名单,一出手就是连降九个模型,从开源的到商业化的大模型,通通都打骨折。同样级别的模型,同样的 token 数,比上面提到的那些都还要便宜。像是 GPT-4 级别的 Qwen-Long ,五毛钱就能买下 100 万个 token 。百度这边呢,虽然没啥降价的模型,但也先直接宣布了有两个基础的模型能免费调用。而就在世超写稿子的时候,腾讯也甩出了自家的大模型 618 降价方案,打折力度五折起。估计照这架势,各位企业和开发者们离 token 自由都不远了……当然,咱也别担心大模型厂商是不是赔钱,或者倒贴钱搞价格战。火山引擎总裁谭待在降价的时候,就直接亮明了底牌,说是不亏钱。而能打得起这场价格战,在世超看来,很大一部分原因是,大模型厂商们有这个本钱和实力。这次宣布降价的,基本上都是手里实打实握着算力资源的企业,不是云厂商,就是手里有大把大把的显卡。字节有火山引擎云服务平台,阿里有阿里云,就连初创企业幻方 DeepSeek ,他们也有自己的 AI 智能超算集群,里面有1 万来张英伟达的 A100 。另外这几年,大模型厂商们也都攒下来了一波技术红利,训练和推理的成本也都降下去不少。像是 GPT-4o 都已经慢慢开始向咱白嫖用户开放, API 的价格对比 GPT-4 Turbo 也是几乎腰斩。零一万物的李开复也预测过,未来大模型的推理算力,每年降个十倍是没啥问题的。还有,在最最底层的算力调度上,各个云厂商们这两年的长进也不小。还拿阿里云来说,它搭了个非常强大的AI 算力调度系统,在训练的时候,系统知道怎么调度算力才最有效率,和之前相比,能节省一半的算力资源。今年年初,大伙应该就已经感受过一次它的冲击,当时阿里云带头挑起了云服务价格战,全线产品直降 20% ,有的直接降价一半,惹得腾讯云、京东云等等都出来卷价格了。甚至阿里云和腾讯云还跑去直播间带货,去卖云服务器和云存储产品。除了技术成本确实降下来之外,世超还觉得,大模型厂商们搞出这个价格战,可能恰恰是为了赚更多的钱、抢占更多的市场。也就是说,大模型降价可能就是叠醋,得花大价钱的饺子还在后头。这么说吧,虽然大家嘴里吆喝的,都是大模型降价、 token 降价,但实际打骨折价的,就只有模型推理用的 token 。就拿差评编辑部来说,要想用大模型炼个专属自己的写稿 AI ,肯定不能只买推理的 token ,还得用咱们的文章数据把模型再炼一炼,等训练好之后还得再把新 AI 部署到生产环境中。后面的这两道程序,要花的钱和推理就不在一个量级……就拿阿里的 qwen-turbo 模型来说,百万个 token 用来推理,只要 2 块钱,而要是训练,就得 30 块,部署的话,还得分包月和小时费。而且,这次大模型价格战打得最狠的,都是阿里云、百度云、腾讯云等等各种带 “ 云 ” 的厂商。世超有理由怀疑,这次大模型价格战,其实只是云服务价格战的延伸,它们最终的目的,还是想把大伙引到自家的云服务生态上。总的来看,价格战最终卷到大模型领域,大伙们的看法也都是五花八门的,有人觉得,白菜价的大模型会降低门槛,助力企业们加速创新。也有不少人觉得,要是控制不好降价的力度,最后也可能一地鸡毛,没赢家。但无论怎么说,照这价格战的发展态势,似乎就只有大厂们才能玩得起了。至于最后它们到底会怎么收场,咱只能走着瞧了…… ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人