回一下 @Szhans 之前的邀请

回一下@Szhans之前的邀请有很多人将ChatGPT与iPhone的诞生视为同一种性质的变革，通常这类变革需要具备以下条件：•改变了人们的生活或工作方式•满足市场需求：iPhone与ChatGPT满足了消费者对于更便捷人机交互形式的需要•全球性的影响•技术突破……我们可以从人机交互的转变，或是从技术创新等视角去看iPhone与ChatGPT带来的变革。在这里我想从助理概念的角度出发，去挖掘这两者之间相通的地方。首先工具和助理的差别：工具概念上是指任何帮助人们完成特定任务的物品或程序；助理则指帮助人们完成任务并管理信息的程序或设备，助理可以利用工具或工具集合来帮助完成工作，但更多指代协助人们进行信息或任务的计划、组织和管理。所以在这里将iPhone和ChatGPT分类到助理而不是工具，是因为工具更多是指完成某种特定任务的定义。从一个比较底层的角度看待设备的演进，iPhone到iPad到Mac的发展路线恰好是助理形态的深化过程，iPhone服务更生活化和日常的主体，例如Todos，时间管理，大设备的功能性扩展（PC&Mac），内容获取，碎片化娱乐和信息处理等等，iPhone发展到现在，一直是占据着人们时间线中片刻性质、突发的、弹性的行为和交互。iPad则定位稍许有些不同，涉及了一些基础创作的交互和行为，甚至在现在或将来，作为更纯粹的创作工具，尤其是偏向通用的以文本、图片、音频或是视频等经典富媒体格式生产。Mac则不同，它正是综合了几乎全部能力的通用型设备。iPhone中的Siri则正好是一种它助理人格化隐喻的最佳体现，它甚至成为iPhone/iPad/Mac的理想化形态的化身。Siri的交互中关键的信息容器元素（即对话盒子），可以承载多格式多形式的信息，而人们只用通过类似搜索的语义化交互就可以唤起这种信息查询。实际上已经可以完整承载各种GUI交互结构和逻辑了。说到GUI，我认为当今的GUI存在的核心问题是，它在完成任务过程中，更多指向了一种「操作技术」的逻辑，例如我要在PS中将彩色照片修改为黑白图片，我需要打开该软件，找到图像相关的操作，然后找到图像色彩相关操作，接着要进行数值的调整，然后才能确认该处理结果，GUI看似让事情变得简单，同时也把问题变得复杂，甚至有时候复杂到抢夺了人们对事情本身的关注。我一直认为GUI与信息可视化是有边界的，信息可视化的交互逻辑是「展开更多信息」，而现存的GUI则是「操作」兼展开更多信息。这其中的操作有很多类型，中间涉及了屏幕中各种交互组件与外置的输入设备（键盘，触控屏/板，鼠标）之间的映射，以及要适应或解决映射造成的认知提升的成本及可用性问题——相关研究：•ReducingCognitiveLoadintheClassroom:ThePromiseofPersonalizedAdaptiveLearning"byPhilipJ.Guo,JuhoKim,andRobRubin(2014)•SimplifyingMobileSearchInput:AFieldStudyofVoiceandGestureInput"byDanielVogel,YangLi,RavinBalakrishnan,andAnthonyTang(2013)•AStudyontheEffectofVoiceInterfaceonMobileUserExperience"byYuexinMa,ShuaiWang,XiaojuanMa,andYananLi(2017)……iPhone/iPad/Mac这类设备的发展历程，正是在人机交互发展到以PC为标准的模型基础上，不断简化的成果，即是在GUI为基础上，去掉映射，可用性问题，冗余操作……等等的过程，让人们能够更快速有效的「展开更多信息」从而更短时间，更小成本实现用户目标。GUI另一个问题是，它带来了颇有局限性的「技术化思维」，它打造了一个又一个封闭的技术部落，虽然创造了各种工种及就业机会，但也影响了技术创新的进程，人们要为不同技术之间的信息阻隔付出多余的代价，并且这种技术引用逻辑，成为了创造行为中一个又一个的断点（人们不得不在创造过程中花费更多金钱和时间引入各种外包技术支持）打断了创造的流畅性。这里交互的核心区别在于：•GUI永远给你的都是一个空白元素，例如空白画布，空白的文本输入框，空白的文档等等，它预设人们天生具备「填充空白」的耐心、能力、成本。•ChatGPT代表的下一代人机交互，在创作一开始就通过提示快速给出一个大致的结果，如果不满意，可以不断的通过指令或提示去修正到满意为止，这极大解决了大家对创造的恐惧。也是为什么我认为，它更像一种真正意义上的「人机交互技术革新」，也更能体现「生成式交互」的野心。技术化思维的弱点还在于，它本身的技术逻辑导致了各方面成本的成倍增加，甚至可以说随着人类社会的发展，大部分的任务逻辑已经超出了以往水平，更多是系统化的、有机的，开放的任务组合，要处理的复用、异常、关联的逻辑越来越多，越来越复杂，可以这么说，在过往的工具认知体系中，我们用「众包」的形式精简复杂性，催生出了现有的社会分工机制，但同时，技术逻辑/技术型社会加深了社会的分化，另外，某种技术的发展受到其他技术发展与技术文化的限制，导致因技术发展不均等而产生的创新疲软和重复发展等各种问题，最大的问题在于人与社会与自然的矛盾得不到积极地推动和解决，即所谓大的课题、大的命题得不到解决，，社会/技术发展被锁死在「历史问题堆」里，现有的技术发展滞后使得精英与民众的裂缝增强，人们因许多基础的民生及供需矛盾得不到保障导致对大课题产生失望甚至厌恶的情绪和态度。这大概就是技术逻辑和工具思维导致的一些恶果。ChatGPT的发展和iPhone的发展逻辑是反着来的，iPhone是先提供平台，然后细化人们的工具需求，一个巨大的问题是因为细化的过程是单独的，所以App之间是封闭的，导致许多有关联价值的数据和信息无法流通，也就代表着因数据和信息无法流通而导致的更深层次的分化现象，ChatGPT和搜索引擎其实都基于语料，但搜索引擎的语料无法自主地生成交互，搜索引擎为了解决这个问题，直接指向语料提供方所有的交互逻辑中，核心只提供了链接，中间却多了很多障碍，出错的机会以及各种安全风险。我对ChatGPT抱有很大兴趣的点是在于，语义化交互天生具有「可生成性」，我认为GUI核心也是在表达语义，不过过程过于曲折冗余，这里面的中介对象几乎就是一个开发团队的规模（产品、调研、研发、设计、测试、运营）。类似的探讨可以查关键词：CLIvs.GUI。NoamChomsky说——人类是「语言动物」。记得和朋友聊到搜索的本质时，我们都认为最干净透彻的交互也就是如此了，我搜索的即是我表达的、我表达的即是我需要的、我需要的即是我要达成的，曾经接近这一理念的是Google，但问题就是，它无法在过程中解决一致性人体，人们因为不一致产生了太多不必要的麻烦和花销。我们甚至认为「交互的最终目的就是干掉交互」，交互的极致就是用最低成本达成最大目标。人们发现创造的过程从原来的「众包/分包/外包」通通转变为「引用」，人们在该引用的地方，注释上相关的Prompt或链接，就能快速生产出有效内容。工具从技术黑箱变为真正意义上的内容节点，创作的轻而易举加强了人们沟通和表达的清晰度和准确度，这也许能启动一系列飞轮效应，在这样的背景下人们重新面临大课题大命题时，也许就不再那么手足无措。当今社会最大问题也许是「分化」，信息的流通、开放、祛魅与解蔽也许就是克服分化的良药。而GPT就像是将iPhone还没有完成的愿景推进下去，在一种更新的理念、环境基础上，在新的起点上，提供一种新的可能性。

在Telegram中查看

相关推荐

[图]iPhone相机变迁：主摄从200万到1200万能明显看到变化

[图]iPhone相机变迁：主摄从200万到1200万能明显看到变化自初代iPhone发布的2017年开始，智能手机的摄像头有了明显的改进。在线评论网站SimpleGhar发布了一个交互式比较工具，让用户可以比较从第一部到最新的iPhone13ProMax的每部iPhone的拍摄效果。为了进行比较，SimpleGhar收集了有关从iPhone到GoogleAndroid产品等一系列设备上智能手机摄像头技术规格的数据。然后根据这些数据创建了多个拍摄样张，以了解相机硬件对拍摄效果的影响程度。此外，还有一个交互式工具，可以绘制照相手机的历史和演变图表。您可以比较第一款拍照手机夏普J-SH04和最新最好的旗舰智能手机的图像质量。此外该工具还使用智能手机智能服务的销售数据来列出过去几十年最畅销的设备。不过该工具只专注于后置摄像头，并消除了任何没有拍摄样张可供提取的设备。该公司的网站上提供了有关智能手机相机发展的交互式工具和其他信息。PC版：https://www.cnbeta.com/articles/soft/1308421.htm手机版：https://m.cnbeta.com/view/1308421.htm

钉钉总裁叶军：AI 技术已成新时代分界线， AI 可以 “+” 一切

钉钉总裁叶军：AI技术已成新时代分界线，AI可以“+”一切2024亚布力中国企业家论坛年会上，叶军谈到，当前的AI技术已经成为开启类似电力革命这样新时代的分界线，AI可以“+”一切。谈到AI和钉钉这样的协同工具融合将带来何种改变，叶军表示会有三个变化：首先，交互方式会在原先纯粹的GUI基础上增加LUI，交互会变得“所想即所得”；其次，AI会让分解任务的过程智能高效，因为AI了解谁适合干什么、哪个系统适合来做；最后，执行层面会涌现出更多行业小模型和专属模型。“钉钉这样具有场景、具有数据的系统，执行会非常具有确定性，特别适合匹配中小型模型，未来空间大有可为。”

苹果iPhone屏下Touch ID专利获批：可实现血氧、脉搏测量

苹果iPhone屏下TouchID专利获批：可实现血氧、脉搏测量根据专利信息，利用短波红外波技术，用户将手指按在屏幕时会产生泛光照明，屏幕下方的元件可以接收和量化由短波红外波段中的泛光照明引起反射，实现屏下指纹识别的功能。同时，该技术也能够用于检测用户的血氧、脉搏等身体体征，并可以判断用户是否佩戴手套、手指干湿等信息。通过这一硬件的加入，iPhone能够实现更为多元的人机交互。不过，通过屏下短波红外线进行血氧、脉搏检测的准确度仍是一个未知数。...PC版：https://www.cnbeta.com.tw/articles/soft/1348407.htm手机版：https://m.cnbeta.com.tw/view/1348407.htm

AITViewer：跨平台3D数据可视化交互工具包

AITViewer：跨平台3D数据可视化交互工具包特征易于使用的Python界面。加载SMPL[-H-X]/MANO/FLAME序列并在交互式查看器中显示它们。内置可扩展GUI（基于DearImGui）。预构建的可渲染图元（圆柱体、球体、点云等）。渲染当前加载序列的视频。无头/离屏渲染。支持实时数据馈送和渲染（例如，网络摄像头）。基于现代OpenGL着色器的高性能渲染管线（通过ModernGL/ModernGLWindow）。#工具

简单体验了一下AI 生产力工具 Flowith，太强了。

简单体验了一下AI生产力工具Flowith，太强了。很开心有人能对AI原生产品的UI和交互有如此深入的思考。整个产品在生成式UI的探索上比现在的所有产品都要靠前。而且很好的结合了无线画布和思维导图的优势，巧妙的用卡片来承接对应不同数据格式的展示，卡片样式的适配也非常多。在输入的时候还会巧妙的利用光效对用户进行引导。一个小问题，Midjourney图片生成的时候传输的提示词貌似有问题，不应该直接传输中文。这里尝试：https://flo.ing/

LayerDiffusion 这个可以直接生成透明背景图片的项目已经可以在forge的扩展上使用了，试了一下确实非常牛批。#ai

LayerDiffusion这个可以直接生成透明背景图片的项目已经可以在forge的扩展上使用了，试了一下确实非常牛批。不仅支持直接生成透明的图片元素，还支持在已有图片上生成跟环境融合的透明图片，这个就可以做很多事情了。不得不怀疑老哥只支持forge是为了推广他的项目，哈哈forge是WebUI的一个分支操作逻辑和交互完全跟WebUI一样不过进行了一些底层修改，让生成速度更快，插件运行时会自动下载模型。你可以在这里下载LayerDiffusion扩展：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人