今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。

今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。 我试了下,上传2小时视频的话,5分钟就生成了笔记,还可以设置成一个插件,在线看啥视频都能够扒下来逐字稿,深度学习一位up主的文案撰写能力。 当然了,我还是劝学习达人省点用,每个人可以领100小时以上的免费转写时长(目前每天上线能领俩小时)。 听悟链接: 很适合深度学习者、自媒体达人、音频存证(撕逼or维权)使用,普通人也可以去玩一下,体验还是挺新潮的,转需咯~

相关推荐

封面图片

网站通义听悟网站功能:AI语音转写

网站通义听悟 网站功能:AI语音转写 网站简介:阿里云推出的一款聚焦音视频内容的工作学习AI助手。 ◉ 支持实时录音和音视频转文字 ◉ 支持多种语言的同步翻译 ◉ 在转写过程中,能够智能识别并区分不同的发言人 ◉ 能够自动生成会议纪要,包括章节速览、待办事项等 目前只有网页端与浏览器插件。公测期(截止7月31日)可体验所有AI功能,每天签到可获得2小时转写时长,绑定阿里云盘账号可获取200G云盘存储空间。 网站网址:点击打开

封面图片

刚刚又想到@通义听悟 可以把在web播放的视频转写成文字,可以把这些文字整理以后导出,然后丢给克劳德2分析,这样就算你注意力不集

刚刚又想到@通义听悟 可以把在web播放的视频转写成文字,可以把这些文字整理以后导出,然后丢给克劳德2分析,这样就算你注意力不集中也能在ai加持下快速提炼要点,提高学习效率。 但是,通过昨天的测试,我发现可能听悟依赖于视频播放转写,会受网络波动影响比较大,导致转写的录音完整性和文字准确度会有较大程度损失,另外安装听悟chrome插件以后,我的chrome无征兆黑屏过两次,这是之前从来没有遇到过的,不知是否插件的原因导致。 受版权和其它限制,目前应该没有可以直接在线分析一些平台自家视频的产品吧?

封面图片

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。 一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。 而且不局限于写实的人像,3D 模型、 二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然: 通过阅读EMO的论文发现,他们在talking head领域首次提出了weak condition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。 他们在算法pipeline中加入了face locator和speed layers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。 表情、口型的一致如何保证: 模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

封面图片

199元的AI课卖了5000万 起底清华博士李一舟

199元的AI课卖了5000万 起底清华博士李一舟  不过,《科创板日报》记者了解发现,李一舟其实出自清华美院,与AI、深度学习等专业毫不相关。2013年的一篇清华大学官网报道显示,李一舟是美院学生,当年是其在清华美院的第五年博士生涯。2月21日,《科创板日报》通过李一舟的抖音视频号发出采访请求,但截至发稿,未获回复。一位FA人士对《科创板日报》记者表示,由于李一舟目前不融资,因此很少联系。记者获得了一份李一舟的联系方式,拨打电话后,却一直无人接听。清华博士卖AI课ChatGPT火了之后,看来又是“卖水人”先赚到第一桶金。飞瓜数据显示,李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套,销售额约5000万。该课程原价为999元,现价为199元。而在抖音上,李一舟早已收获一众粉丝。作为财经自媒体,李一舟的个性签名为:清华大学博士、三家科技公司创始人、融资数千万、职业经理人、擅长解决AI人工智能、商业模式、知识IP和流量问题。从清华大学博士到三家科技公司创始人,再到融资数千万,及职业经理人等,无论哪个“title”,都让李一舟的AI课看起来颇有吸引力。创道投资咨询总经理步日欣在接受记者采访认为,卖课之所以可以赚到大钱,源于知识付费的脱实向虚。“每次toC销售的成功,其实都源于抓住了客户的恐惧心理或者渴望心理,或者是二者的结合体。”不过,在步日欣看来,想卖出课也并非想象中那么容易。如果不是有众多粉丝积累的普通博主,即使各种渠道宣发大半个月,真正能吸引上来付费的用户也不会太多,从投入产出比看,不如去第三方平台讲一两个小时划算。在第三方视频号上,记者也看到,李一舟的每篇视频内容,都能收获上千、甚至上万个点赞。在“人工智能商业机会”这一内容上,点赞数达到6093个。普通人如何通过AI赚钱?李一舟认为有三大路径:一是AI图文带货。博主们可以通过AI大规模制作视频,达到出爆款的可能,但红利期只有3个月;二是TO B业务。学会调模型和提示词之后,与企业合作,微调出一条适合TO B公司的大模型,替客户做销售;三是用AI在多平台上开设账号,通过AI绘图和高级视频,以及精美物料,通过3-6个月的流量红利期,实现精准收获。总之,在李一舟看来,所有人都需要学习AI,因为在工作效率上AI具有无法比拟的优势。卖课前三次创业卖课之前,李一舟经常用创业、投资、打工人作为标签,谈及自己的感受。确实,李一舟有过三次创业。清华大学官网显示,李一舟的创业项目包括“魔镜”APP、“微蜜”APP和12sleep匙悟科技。其中,“魔镜”APP能够对镜子发出声波指令,让镜子成为“照相机”;“微蜜”是把人本身当成导体,通过手机屏幕上测算出皮肤角质层的饱和度,推荐今天该使用哪一类护肤品。12sleep匙悟科技,则应该是李一舟真正意义上的创业。数据显示,匙悟科技完成过3轮融资:2016年启迪之星创投、知卓资本、夏鼎资本参与A轮融资。2014年-2015年,匙悟科技完成过数百万美元的Pre-A轮,以及数百万人民币的天使轮融资。启迪之星创投的前身,本来就是清华创业园孵化器平台,专为清华大学科技园企业提供服务。有了启迪之星等投资机构的加持,又是清华系创业者,12sleep匙悟科技吸引了雷军的关注。《科创板日报》记者注意到,12sleep匙悟科技进入过小米生态链。2016年,米家上线的一款众筹产品智能睡眠传感器Lunar,即为匙悟科技的新产品。 按李一舟的话说,匙悟科技的目标是年轻人,这类人群的家庭入口应该是卧室,匙悟科技将开放蓝牙协议给智能和非智能设备,成为“卧室媒体入口”。截至目前,12sleep匙悟科技依然存续,李一舟为实控人,而萁出任总经理的另一家公司北京一舸科技有限公司,则被北京悦米科技有限公司持股,尚势资本也在其中,持股比例为9.9992%。值得一提的是,尚势资本投资过睡趣科技。李一舟称,“创业公司被收购后,作为副总裁,负责产品和供应链,帮助过另一家小米生态链拟上市公司,1年半销售额过10亿元”。AI课程群疑被解散从清华博士到“创业的公司被收购”,李一舟的早期经历亦算是顺利。此次,引起公众好奇的“199元的AI课程卖了5000万元”事件,将李一舟推至聚光灯下。不过,李一舟的AI课程群却疑被解散。一张网络截图显示,一舟AI人工智能实战训练营B已“无法在已解散的群聊中发送消息”。有网友甚至说,李一舟的AI课程是诈骗。记者通过B站看到了李一舟的部分AI课程内容,发现课程其实是对大模型、AI、ChatGPT概念、入门知识的梳理和讲解。严格意义上说,清华美院毕业的李一舟对AI专业知识也是门外汉。但李一舟的核心词是:设计和用户体验、AIoT、创业干货、副业落地。创道投资咨询总经理步日欣认为,AI课程其实是收消费者的智商税,抓住了部分消费者焦虑未来、渴望新知的心理。“从卖课经验看,一部分讲的是‘创业艰辛和融资逻辑’,另一部分就宣传‘上完课半个月搞定融资’,知识与情绪的差别可能就造成了课程的大卖。本来,从用户体验上讲,学知识本来就很累人,谁愿意付费受累,但’上一次AI课就能跟上时代、不被淘汰‘的宣传,则抓住了现代人的焦虑心理。”步日欣说。李一舟也在视频号上表示,普通人无论是否通过AI赚钱,但都必须跟上时代,否则饭碗可能不保。 ... PC版: 手机版:

封面图片

字节偷偷盯上AI硬件?

字节偷偷盯上AI硬件? 字节在这场AI浪潮中颇为活跃。据Sensor Tower,截至今年4月,字节推出的豆包应用在苹果iOS平台一年内的下载量接近900万次,超过了百度文心一言的800万次。前不久,OpenAI发布GPT-4o,字节旗下火山引擎紧随其后发布豆包大模型家族,并将价格打至最低0.0008元/千tokens。此举登时引发连锁反应,阿里云宣布通义千问主力模型Qwen-Long的API输入价格降至0.0005元/千tokens,降幅97%,百度拿出两款主力大模型免费对外,腾讯也公布大模型升级方案,其中主力模型之一的混元-Lite也调整为免费。此外,在OpenAI 2月公布文生视频大模型Sora之前一周,原抖音集团CEO张楠辞职,转而挂帅剪映。三个月后,剪映全量上线AI作图和AI视频生成工具即梦。但在大模型软件商业化迟迟无法打开局面之下,硬件,正成为一众大模型玩家输出AI能力的新载体。手机厂商和PC厂商争相将传统智能终端改造成AI硬件,推出AI手机、AI电脑。苹果被传和OpenAI、Google等沟通,想要将大模型放入下半年即将公布的新品中。微软也已经宣布其Windows 11 AI PC计划,Copilot全面引入操作系统,成为随时陪伴用户的全能助手。OpenAI也宣布要开发并制造自己的AI硬件,形态无人知晓。包括智能眼镜在内的小众硬件也成为一些企业投注的品类。Meta和雷蒙合作的智能眼镜已经塞进了多模态版本的Llama3,华为智能眼镜则接入了盘古大模型。智能眼镜轻便,且可以兼顾视(镜片)和听(镜架扬声器)。而Oladance在开放式耳机方面的技术,恰吻合后者的需求。不过,部分AI硬件的创新先驱者已经开始遭遇危机:别在胸前的AI Pin、完全没有APP的Rabbit 1被推出后都曾惊艳一时,但前后脚翻车Rabbit R1被质疑套壳Android,AI Pin使用感受不佳,背后公司Humane被曝已经在寻求出售。被字节收入囊中的Oladance,在开放式耳机设备和出海两方面都有丰富的经验。Oladance主攻开放式耳机,也就是挂在耳朵上、不入耳的耳机。甚至现在常用的OWS(Open Wearable Stereo开放式穿戴立体声)概念本就是Oladance提出的。这种耳机和传统入耳式耳机的最大区别在于,使用者在私享音频的同时,可以保持与外界的联通,与人交谈、收听环境音等场景不受影响。Oladance这家公司非常年轻,2019年成立于深圳,名字很豪放:深圳市大十未来科技有限公司。创始人李浩干本身就是BOSE的前高管,创业时带了数位BOSE工程师。不同于先本土再出海,融资、推产品、再融资的路径,2021年7月,Oladance的第一款全开放式耳机以众筹的形式,登陆北美Kickstarter网站,1小时拿下15万美元(约合人民币105万元),收官于39.7万美元(约合人民币278万元)。其后才开始在中国销售。次年6月,Oladance进入日本市场,第一站也是众筹网站Makuake,上线2小时完成众筹目标,收官于1.05亿日元(约合人民币484万元)。自登陆北美市场后的两年时间,Oladance的产品就已经销往全球超过30个国家和地区。顺带一提,Oladance的产品定价不低,属于中高档价位的耳机。目前Oladance京东自营旗舰店在售耳机中,最便宜的也要999元,最贵的要1499元(目前正是618期间,页面显示“直降400”),单独的充电仓价格在300元以上。用创始人李浩干在36氪WISE2023未来消费大会上的话说就是“我们的产品比苹果卖得还贵”。在海外市场,Oladance已经小有名气,YouTube网站上的相关评测视频有数万甚至上百万的观看量,还曾获评亚马逊2022年年度创新品牌。到了2023年8月,Oladance传出天使轮融资的消息,规模千万美元,由蓝驰创投、黑蚁资本领投。据36氪,李浩干曾透露Oladance预计2024年营收超10亿美元。字节收购一家耳机公司,醉翁之意很有可能不在音频市场。耳机市场已经是一片红海,传统TWS真无线耳机的市场在经历高增长后已经开始萎缩,全球出货量增速从2021年的70%,降至2022年的25%,2023年就只有8%。OWS耳机增长迅速,但规模总体较小。据市场调研机构Canalys,2023年第四季度开放式耳机占个人音频市场的份额增长了68%,但总体占比只有2.9%。据Global Information的报告,2023年全球OWS市场规模约19亿美元。相比之下,Oladance在字节更有可能的用武之地在AI硬件。字节是这一波AI浪潮中深受影响的科技大厂之一。去年8月,字节发布类ChatGPT应用豆包。本月(2024年5月)OpenAI公布GPT-4o,字节旗下火山引擎紧随其后发布豆包大模型家族,并将价格打到0.0008元/千tokens,一时间掀起国内大模型的价格战。此外,抖音前CEO张楠挂帅剪映,并在不久前推出AI作图和AI视频生成工具“即梦”,追随OpenAI视频模型Sora的脚步。在核心技术大语言模型、落地应用之外,承载AI的硬件也成了科技企业的圣杯谁都不能准确说出未来的AI硬件到底是什么形态,但是谁都不敢不去尝试。传统智能终端纷纷AI化,AI手机和AI电脑已经成为厂商的必备新品。微软前不久才在新品发布会上宣布推出“更快、更智能”的Windows PC品类:Windows 11 AI PC。其内置OpenAI的GPT-4o,并且将AI助手Copilot全面引入系统。微软CEO萨蒂亚·纳德拉(Satya Nadella)更是直接叫板苹果,称期待Windows与Mac能够“重新展开真正意义上的对决”。XR设备也是AI的热战场,其中以智能眼镜最为突出。Meta早在2021年就和雷朋眼镜合作,推出过智能眼镜。去年9月,双方再次合作推出Ran-Ban Meta智能眼镜,最大的亮点是内置Meta AI,今年还升级支持多模态版本Llama 3大模型。这意味着用户不仅可以用“Hey Meta”唤起一个助理,而且这个助理除了语音交互之外,还可以通过眼镜摄像头识别环境,和用户沟通。Meta的CEO马克·扎克伯格(Mark Zuckerberg)自己在Instagram上发视频宣传,戴着智能眼镜的他拿起一件衬衫,询问Meta AI该怎么搭配裤子。就连Google联合创始人谢尔盖·布林都感叹,智能眼镜是最新公布的Project Astra的“完美硬件”。可惜Google发布智能眼镜是在10年前:“不幸的是,我们搞错了时间。我真希望实际能把握得更好一些。”如今,已经有众多企业入局智能眼镜,并将大模型带入其中。如华为把盘古大模型塞进了华为智能眼镜2里,不支持XR功能,可以视为智能音频眼镜。前天猫精灵产品总经理茹忆创业,创办的李未可科技有限公司也已经推出了首款AI智能眼镜,搭载了自研大模型WAKE-AI。智能眼镜一般会在镜架设置扬声器,要尽量降低漏音、提高通话降噪能力,这与开放式耳机的技术不谋而合。但AI硬件并不好做,或者说各家都尚在摸索阶段,试错也许在所难免。这几天还有另一个关于AI硬件的消息,不过是个坏消息:Humane正在寻求出售。Humane这个公司名本身不出圈,但要说其产品AI Pin,相信很多人都不陌生。这款可穿戴AI设备没有屏幕,配有传感器、生成式AI和小型投影仪,用户把它挂在胸前进行语音交互,还可以直接将信息投影在手心。新颖的交互方式让AI Pin一经推出就备受瞩目,毕竟大家都在聊AI硬件,但真正做出一个不同于手机、PC的产品的还真没有几家。然而,AI Pin的实际使用体验却不尽如人意,户外日光下看不清投影内容、语音交互延迟等硬伤一大堆。5月,彭博社报道称Humane已经在寻找下家,期望以7.5亿美元到10亿美元出售,目前正处于早期阶段。初创企业寻求出售倒也不新鲜,但“下一代iPhone”横空出世不过一个月,公司就要卷铺盖离场,也算是给AI硬件创新泼了一盆冷水。字节做硬件并非没有经验,但缺少大获全胜的经验。去年11月,字节旗下VR部门PICO宣布裁员,涉及员工300余人,占比23%。字节于2021年以数十亿元收购PICO并大力发展VR头显业务,巅峰时期PICO员工总数曾突破20... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人