今天阿里云的通义大模型上线了AI新品:“通义听悟”，能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。

今天阿里云的通义大模型上线了AI新品:“通义听悟”，能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。我试了下，上传2小时视频的话，5分钟就生成了笔记，还可以设置成一个插件，在线看啥视频都能够扒下来逐字稿，深度学习一位up主的文案撰写能力。当然了，我还是劝学习达人省点用，每个人可以领100小时以上的免费转写时长（目前每天上线能领俩小时）。听悟链接: 很适合深度学习者、自媒体达人、音频存证（撕逼or维权）使用，普通人也可以去玩一下，体验还是挺新潮的，转需咯～

在Telegram中查看

相关推荐

网站通义听悟网站功能：AI语音转写

网站通义听悟网站功能：AI语音转写网站简介：阿里云推出的一款聚焦音视频内容的工作学习AI助手。 ◉ 支持实时录音和音视频转文字 ◉ 支持多种语言的同步翻译 ◉ 在转写过程中，能够智能识别并区分不同的发言人 ◉ 能够自动生成会议纪要，包括章节速览、待办事项等目前只有网页端与浏览器插件。公测期（截止7月31日）可体验所有AI功能，每天签到可获得2小时转写时长，绑定阿里云盘账号可获取200G云盘存储空间。网站网址：点击打开

刚刚又想到@通义听悟可以把在web播放的视频转写成文字，可以把这些文字整理以后导出，然后丢给克劳德2分析，这样就算你注意力不集

刚刚又想到@通义听悟可以把在web播放的视频转写成文字，可以把这些文字整理以后导出，然后丢给克劳德2分析，这样就算你注意力不集中也能在ai加持下快速提炼要点，提高学习效率。但是，通过昨天的测试，我发现可能听悟依赖于视频播放转写，会受网络波动影响比较大，导致转写的录音完整性和文字准确度会有较大程度损失，另外安装听悟chrome插件以后，我的chrome无征兆黑屏过两次，这是之前从来没有遇到过的，不知是否插件的原因导致。受版权和其它限制，目前应该没有可以直接在线分析一些平台自家视频的产品吧？

【分享】通义阿里自研满血版Qwen3上线顶尖AI技术打造

【分享】通义阿里自研满血版Qwen3上线顶尖AI技术打造【软件名称】通义最新满血无限制版完全免费【软件版本】3.38.1 【软件大小】59.5mb 【适用平台】安卓【软件简介】软件定义及功能通义，由阿里云推出的一款超大规模预训练模型，旨在为用户提供全方位的协助，覆盖日常办公、学习提效、生活娱乐等多个方面。其主要功能包括： •日常办公文档撰写与实时记录：帮助用户高效完成文档撰写和实时记录任务。音视频速读与代码生成解释：具备强大的音视频速读能力，能一键速读大量资料，并实现跨文档的摘要、分析和内容创作。同时，提供代码生成及解释服务，提升编程效率。 •学习提效图像与视频理解：在线解析网页、论文与图书，实现多文本摘要和结构化总结。实时翻译能力：支持中文与多种语言的互译，助力用户快速获取知识和信息。 •生活娱乐趣味玩法：提供全民舞台、万相AI生视频、照相馆等趣味玩法，让用户在AI的帮助下创作有趣的图片和视频，记录生活美好时刻。 •智能体创建简单易上手的智能体配置创建：用户可以根据需求创建所需的工具或聊天角色，满足个性化需求。最主要的AI生图和AI视频等！！可玩性太高【下载地址】链接：高速下载不限速备用链接: 提取码:fx9c 拿走吱一声禁止白嫖怪拿走吱一声禁止白嫖怪

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了，体验了一下非常强。

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了，体验了一下非常强。一张简单的照片加上克隆的语音模型，就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频，并且算力成本也很高，这个直接是免费的。明天开放公测，想要提前体验的同学可以找我要一个内测邀请码。而且不局限于写实的人像，3D 模型、二次元漫画都可以生成视频，生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然：通过阅读EMO的论文发现，他们在talking head领域首次提出了weak condition（弱控制）的设计，即剔除掉了任何针对人脸的显示表征建模，转而采用一些相对较弱的控制条件来引导diffusion去噪过程，这一点其实灵感来源于文生图模型中，采用粗粒度的prompt描述来生成图片。他们在算法pipeline中加入了face locator和speed layers，分别用来控制人脸的生成区域（人头摆动幅度）与人头的动作频率。通过这些操作，可以最大化地保留diffusion模型强大的生成创造能力，由于没有针对表情的显示表征的限制，所生成的人脸表情都会有较高的丰富度，从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制，人物会做什么表情，头部会如何运动，都是由模型从数据中学习到相关的知识决定。表情、口型的一致如何保证：模型会在训练中找到音频特征与图像中像素的对应关系，从而放大音频特征对于这些相关像素的影响，比如嘴部，眉眼等位置的像素，让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练，不仅仅找到了audio中具体发音与人像口型的匹配关系，更重要是发现了音频中的语气特征与人物表情的关联性，从而将音频中的语气特征，甚至暗含的情绪色彩反映到了人物微表情上，它模型在训练中慢慢学习并编码了人类表达情绪的能力。

免费GPT-4o来袭音频视觉文本实现“大一统”

免费GPT-4o来袭音频视觉文本实现“大一统” 此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与Google明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原Twitter）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。那么，GPT-4o 是否真的如 Sam Altman 所说，是 OpenAI 带来的“新魔法”呢？1多模态实时语音助手更快更全更有情感登台后，Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI，紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上，Mira Murati 与团队成员 Mark Chen、Barret Zoph一起，重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现，尤其展现了其语音能力。若用关键词加以总结，搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时，用户不必等 ChatGPT 说完，可以随时插话；模型能够实时响应，不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后，ChatGPT 还会提醒需要冷静情绪，识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事，它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力，用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是，打开摄像头后写下一道数学题，ChatGPT 还会一步步引导该如何解下一步，其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑，OpenAI 团队还在现场展示了一波英语和意大利语的实时互译，中间实现零延迟。更有意思的是，ChatGPT 在对话中还会使用语气词，甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后，ChatGPT 甚至会在发出撒娇的声音后，再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中，Barret 让 ChatGPT 猜测自己的情绪，在他开始露出笑脸后，ChatGPT 直接语音回复“你看起来很开心，笑容灿烂，还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手（如 Siri ）的困境，即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段：语音识别（ASR），将音频转换为文本，例如 Whisper；大语言模型（LLM）规划接下来的话语，将第一阶段的文本转换为新的文本；语音合成（TTS），将新文本转换回音频，如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行，就会产生巨大的延迟，特别是当每一步都需要等待几秒时，用户体验就会急剧下降，哪怕合成的音频听起来非常真实，也会让用户格外“出戏”，就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此，依赖三个独立模型工作，平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)，语音助手也总会出现信息丢失，既不能判断语调、多个说话者或背景噪音，也不能输出笑声、唱歌或表达情感。而现在，GPT-4o 的音频输入响应时间最短为232毫秒，平均响应时间为320毫秒，与人类在对话中的反应时间极为相似。作为一个全新的单一模型，GPT-4o 能端到端地跨文本、视觉和音频，所有输入和输出都由同一个神经网络处理，直接一步到位，在用户输入后（文本、语音、图像、视频均可）直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示，GPT-4o 最棒的地方在于，它将 GPT-4 的智能提供给每个人，包括免费用户，将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni，在拉丁语词根中是“全”的意思，是涵盖了文字、语音、图片、视频的多模态模型，接受任何模态的组合作为输入，并能生成任何模态的组合输出。据 OpenAI 官网，GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平，而且在 API 调用上速度更快，价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是，GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面，GPT-4o 的语音识别（ASR）也比 OpenAI 的语音识别模型 Whisper 性能更佳（越低越好）。与 Meta、Google的语音转写模型相比，GPT-4o 同样领先（越高越好）。若落实到实际生活的使用中，GPT-4o 究竟能给普罗大众带来什么变化呢？OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如，在输入人物图片、海报元素以及想要的风格后，GPT-4o 就能给用户生成一张电影海报。或者，根据输入的诗歌文本，GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后，GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天，有 1 亿人使用 ChatGPT 来创作、工作、学习，以前这些高级工具只对付费用户可用，但现在，有了 GPT-4o 的效率，我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外，OpenAI 研究员 William Fedus 透露，此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”，就是本次登场的 GPT-4o 。截至2024年3月，OpenAI 在不到十年的运营时间内，已经完成了10轮的融资，累计筹集资金超过了140亿美元，其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值，OpenAI 的技术版图已经横跨了多个 AI 的关键领域，形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务，并通过对话、量化、分析、微调等高级功能，为开发者提供技术支持；ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域，OpenAI 也有一定的技术积累，比如经过训练的深度神经网络 MuseNet，可预测并生成 MIDI 音乐文件中的后续音符，以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora，更是让网友们感叹“现实，不存在了。”毋庸置疑，OpenAI 是大模型这场擂台赛中当之无愧的擂主，其技术与产品的迭代更是整个行业的风向标，不少大模型创业者都遇过“OpenAI 不做，没人投；OpenAI 一做，人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”，不少 AI 行业从业者开始对 OpenAI 祛魅，认为“大模型护城河很浅，一年就赶上了。”现在看来，OpenAI 果然还是 OpenAI。 ... PC版：手机版：

199元的AI课卖了5000万起底清华博士李一舟

199元的AI课卖了5000万起底清华博士李一舟不过，《科创板日报》记者了解发现，李一舟其实出自清华美院，与AI、深度学习等专业毫不相关。2013年的一篇清华大学官网报道显示，李一舟是美院学生，当年是其在清华美院的第五年博士生涯。2月21日，《科创板日报》通过李一舟的抖音视频号发出采访请求，但截至发稿，未获回复。一位FA人士对《科创板日报》记者表示，由于李一舟目前不融资，因此很少联系。记者获得了一份李一舟的联系方式，拨打电话后，却一直无人接听。清华博士卖AI课ChatGPT火了之后，看来又是“卖水人”先赚到第一桶金。飞瓜数据显示，李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套，销售额约5000万。该课程原价为999元，现价为199元。而在抖音上，李一舟早已收获一众粉丝。作为财经自媒体，李一舟的个性签名为：清华大学博士、三家科技公司创始人、融资数千万、职业经理人、擅长解决AI人工智能、商业模式、知识IP和流量问题。从清华大学博士到三家科技公司创始人，再到融资数千万，及职业经理人等，无论哪个“title”，都让李一舟的AI课看起来颇有吸引力。创道投资咨询总经理步日欣在接受记者采访认为，卖课之所以可以赚到大钱，源于知识付费的脱实向虚。“每次toC销售的成功，其实都源于抓住了客户的恐惧心理或者渴望心理，或者是二者的结合体。”不过，在步日欣看来，想卖出课也并非想象中那么容易。如果不是有众多粉丝积累的普通博主，即使各种渠道宣发大半个月，真正能吸引上来付费的用户也不会太多，从投入产出比看，不如去第三方平台讲一两个小时划算。在第三方视频号上，记者也看到，李一舟的每篇视频内容，都能收获上千、甚至上万个点赞。在“人工智能商业机会”这一内容上，点赞数达到6093个。普通人如何通过AI赚钱？李一舟认为有三大路径：一是AI图文带货。博主们可以通过AI大规模制作视频，达到出爆款的可能，但红利期只有3个月；二是TO B业务。学会调模型和提示词之后，与企业合作，微调出一条适合TO B公司的大模型，替客户做销售；三是用AI在多平台上开设账号，通过AI绘图和高级视频，以及精美物料，通过3-6个月的流量红利期，实现精准收获。总之，在李一舟看来，所有人都需要学习AI，因为在工作效率上AI具有无法比拟的优势。卖课前三次创业卖课之前，李一舟经常用创业、投资、打工人作为标签，谈及自己的感受。确实，李一舟有过三次创业。清华大学官网显示，李一舟的创业项目包括“魔镜”APP、“微蜜”APP和12sleep匙悟科技。其中，“魔镜”APP能够对镜子发出声波指令，让镜子成为“照相机”；“微蜜”是把人本身当成导体，通过手机屏幕上测算出皮肤角质层的饱和度，推荐今天该使用哪一类护肤品。12sleep匙悟科技，则应该是李一舟真正意义上的创业。数据显示，匙悟科技完成过3轮融资：2016年启迪之星创投、知卓资本、夏鼎资本参与A轮融资。2014年-2015年，匙悟科技完成过数百万美元的Pre-A轮，以及数百万人民币的天使轮融资。启迪之星创投的前身，本来就是清华创业园孵化器平台，专为清华大学科技园企业提供服务。有了启迪之星等投资机构的加持，又是清华系创业者，12sleep匙悟科技吸引了雷军的关注。《科创板日报》记者注意到，12sleep匙悟科技进入过小米生态链。2016年，米家上线的一款众筹产品智能睡眠传感器Lunar，即为匙悟科技的新产品。按李一舟的话说，匙悟科技的目标是年轻人，这类人群的家庭入口应该是卧室，匙悟科技将开放蓝牙协议给智能和非智能设备，成为“卧室媒体入口”。截至目前，12sleep匙悟科技依然存续，李一舟为实控人，而萁出任总经理的另一家公司北京一舸科技有限公司，则被北京悦米科技有限公司持股，尚势资本也在其中，持股比例为9.9992%。值得一提的是，尚势资本投资过睡趣科技。李一舟称，“创业公司被收购后，作为副总裁，负责产品和供应链，帮助过另一家小米生态链拟上市公司，1年半销售额过10亿元”。AI课程群疑被解散从清华博士到“创业的公司被收购”，李一舟的早期经历亦算是顺利。此次，引起公众好奇的“199元的AI课程卖了5000万元”事件，将李一舟推至聚光灯下。不过，李一舟的AI课程群却疑被解散。一张网络截图显示，一舟AI人工智能实战训练营B已“无法在已解散的群聊中发送消息”。有网友甚至说，李一舟的AI课程是诈骗。记者通过B站看到了李一舟的部分AI课程内容，发现课程其实是对大模型、AI、ChatGPT概念、入门知识的梳理和讲解。严格意义上说，清华美院毕业的李一舟对AI专业知识也是门外汉。但李一舟的核心词是：设计和用户体验、AIoT、创业干货、副业落地。创道投资咨询总经理步日欣认为，AI课程其实是收消费者的智商税，抓住了部分消费者焦虑未来、渴望新知的心理。“从卖课经验看，一部分讲的是‘创业艰辛和融资逻辑’，另一部分就宣传‘上完课半个月搞定融资’，知识与情绪的差别可能就造成了课程的大卖。本来，从用户体验上讲，学知识本来就很累人，谁愿意付费受累，但’上一次AI课就能跟上时代、不被淘汰‘的宣传，则抓住了现代人的焦虑心理。”步日欣说。李一舟也在视频号上表示，普通人无论是否通过AI赚钱，但都必须跟上时代，否则饭碗可能不保。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人