美图推出 AI 视频短片创作工具 MOKI
新闻概要:2024 年,美图公司推出了 AI 视频短片创作工具 MOKI。MOKI 是一个专注于辅助视频创作者打造多种类型视频内容的平台,包括动画短片、网文短剧、故事绘本和音乐视频等。它基于美图自研的奇想智能大模型,通过智能剪辑、自动配乐、音效添加和字幕生成等功能,大幅简化视频制作流程,提高创作效率。用户可以在 MOKI 的官方网站申请内测,通过一系列操作,如准备脚本、设置角色和风格、自动生成分镜图等,最终输出高质量的视频文件。MOKI 的工作流程在多个方面提升了效率,为视频创作者带来了极大的便利。来源: 美图公司
1.9 亿月活、260 亿估值的 Canva,想借助 AI 挑战 2300 亿的 Adobe
新闻概要:Canva 是一个在线设计平台,由 Melanie Perkins 在大学教设计时创立,旨在让设计变得协作化、在线化和简单化。如今 Canva 估值 260 亿美元,月活用户 1.9 亿,员工超过 4500 人。它致力于解决设计工具昂贵、难学的问题,将设计民主化,填补市场空白。Canva 不仅在消费市场表现出色,还进军企业市场,与 Adobe 等竞争。其产品不断创新,如整合生产力工具、实现本地化等。同时,Canva 积极应对 AI 带来的挑战,平衡创意与安全,明确 AI 生成内容的界限。未来,Canva 希望继续赋能每个组织和企业,朝着“让世界都能设计”的目标前进。来源: 极客公园
具身智能机器人隐藏冠军上新:领狗进家门,多模态 AI 那种
新闻概要:2024 年,蔚蓝科技推出具身智能新品,包括四足机器人新系列、开发者版本机器人及人形机器人。其中四足机器狗 BabyAlpha A2 最吸睛,它长相可爱有辨识度,具定制化领养、Super Chat、AI 绘本、共享相册等功能。开发者版本四足机器人适合工程师等群体,可编程。人形机器人为 Office 版,可承担行政等简单任务,租售结合。新产品上新即量产开卖,初代产品销量扛打,线上线下、国内海外全覆盖。蔚蓝科技成立于 2019 年,目标打造通用型机器人,其产品选用一流供应链体系。创始人刘维超师从知名学者,带领团队实现产品自主研发。来源: 量子位
国内空间智能创企连获三轮融资,要将视频生成提升至 4D 世界模型
新闻概要:2024 年 9 月 26 日,空间智能公司“极佳视界”宣布完成近 5000 万元天使及天使+连续两轮融资,此前已完成数千万元种子轮融资。该公司致力于将视频生成提升到 4D 世界模型,走向通用空间智能,对影视游戏、元宇宙及自动驾驶等领域有巨大价值。其创始人黄冠为清华人工智能博士,核心团队成员均为业内顶尖专业人士。在物理空间,发布自动驾驶世界模型,服务多家头部主机厂;在虚拟空间,推出超长时长视频生成模型,与影视等行业深度合作。本轮融资后,极佳视界将加快技术研发和市场拓展。来源: 智东西
重庆特斯联冲刺 AIoT 第一股!3 年 29 亿营收,超六成来自 AI 产业数智化
新闻概要:2024 年 9 月 26 日,来自重庆的特斯联向香港联交提交招股书,正式赴港上市,冲刺中国 AIoT 第一股。报告期内三年营收 29 亿,2023 年营收超 10 亿,超六成来自 AI 产业数智化。公司产品已被全球 150 个城市超 800 个客户部署。其业务涵盖多个场景,包括 AI 产业数智化、AI 城市智能化等。研发投入占比较高,研发团队占总人数 52.2%。特斯联以 TacOS 系统为核心,采用分层设计,包含五层架构。大模型与 AIoT 融合,助力多场景落地,特斯联作为先行者受资本青睐。来源: 量子位
OpenAI CTO 和两位技术大咖都跑了!据悉董事会要给 CEO 奥尔特曼 7%股权
新闻概要:OpenAI 首席技术官米拉·穆拉蒂、后训练研究副总裁 Barret Zoph 和首席研究官 Bob McGrew 宣布离职。OpenAI 正讨论给予 CEO 奥尔特曼 7%股权并重组为营利性企业,此举引发关注。OpenAI 估值高达 1500 亿美元,随着多位核心人员离职,内部分歧问题凸显。华人陈信翰将领导 OpenAI 模型研发。OpenAI 视频模型 Sora 因效果不佳正在改进,其未来研究路径引发质疑。来源: 钛媒体
Meta 发布 AR 眼镜 Orion,有望成下一个 10 亿级消费电子产品
新闻概要:2024 年 9 月 25 日,Meta 在加州 Menlo Park 举办的年度开发者大会上,CEO 扎克伯格展示了名为 Orion 的 AR 眼镜原型产品。该眼镜使用腕带组件接收用户神经信号,可用大脑控制。AR 眼镜能提供大屏多屏显示、第一用户视角及解放双手等特色,有望替代智能手机功能。中银国际认为其有望成为 10 亿台级别的新型消费电子硬件产品。西部证券表示,AR 眼镜有望成为端侧 AI 落地最优解,出货有望加速。相关上市公司中,天键股份有已量产的 AR 眼镜产品,中科创达在互动平台表示具备 AR 眼镜相关技术、产品和方案。来源: 财联社
HuggingChat macOS 版发布,开启智能聊天新体验
新闻概要:2024 年 09 月 27 日,Hugging Face 宣布开源聊天应用程序 Hugging Chat 的 macOS 版本现已发布。该版本具有强大的模型支持,用户可一键访问多个顶尖开源大语言模型。功能丰富,内置网络搜索和代码高亮等实用功能,未来还将推出更多增强功能。完全免费,所有功能均可免费使用。为 Mac 用户量身打造了直观易用的界面,确保流畅使用体验。应用快捷键为 ⌘ + Shift + Return。目前处于测试阶段,诚邀社区成员参与测试并提供反馈,测试内容包括登录和引导流程、聊天功能及自定义选项等性能表现。此外,还有隐藏的复活节彩蛋。欢迎 Mac 用户下载试用并反馈以改进产品。来源: Hugging Face
字节跳动豆包大模型:强大功能引领多领域应用
新闻概要:字节跳动推出的豆包大模型家族包含多种强大模型。通用语言模型支持长文本且可精调,适配丰富场景。视频生成模型可通过文本和图片创作高质量视频。还有角色扮演、语音合成等多个模型,各具特色功能。产品官网为 volcengine.com/product/doubao。使用时需明确需求、选择合适模型、注册访问火山引擎等步骤。产品定价按 tokens 使用量或模型单元付费等方式。其应用场景广泛,涵盖内容创作、客户服务、教育、娱乐等多个领域。来源: MeoAI
ChatGPT 高级语音助手正式上线!OpenAI:50 多种语言、9 种声线可选
新闻概要:2024 年 9 月 25 日消息,OpenAI 宣布面向所有付费订阅 ChatGPT Plus 和 Team 计划的用户开放类人高级人工智能语音助手功能“高级语音模式”(AVM)。该模式将在未来几天逐步推出,首先在美国市场上线,下周向 OpenAI Edu 和 Enterprise 计划订阅者开放。AVM 提高了部分外语对话速度、流畅度并改进口音,新增自定义指令和“记忆”功能,语音方面有五种新声音,可选声线达九种。AVM 可用超 50 种语言表达特定语句,目前仅适用于 GPT-4o 模型。今年 5 月首次展示该语音产品,7 月曾面向有限数量用户开放,此次上线的版本缺少 5 月展示过的计算机视觉功能。来源: 财联社
谷歌发布两款 Gemini 1.5 升级生产级模型,性能提升价格砍半
新闻概要:2024 年 9 月 25 日消息,谷歌发布了两款更新后的可投入生产的 Gemini 模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。这两个模型基于最近的实验性模型发布,包含对 5 月份在 Google I/O 发布的 Gemini 1.5 模型的重大改进。在生产环境中更好、更快、更具成本效益,性能在更具挑战性的 MMLU-Pro 和数学、视觉、代码生成用例中均有提升。此外,谷歌还降低了这两个模型的输入和输出费用,自 10 月 1 日起生效。来源: 腾讯新闻
腾讯发布轮足式机器人“小五”,照顾老人与自我收纳兼备
新闻概要:2024 年 9 月 25 日消息,腾讯发布轮足式机器人“小五”。它集合了腾讯多代机器人研发的核心能力,采用四腿轮足复合设计,感知和控制能力强,能在不同地形快速行走、越障,还可伸缩腿部处理不同高度作业。软件方面有统一控制框架,具备灵敏感知和灵巧操作能力。此外,小五可自主折叠展开,减少空间占用。它还融合了四代机器人的多项能力,能在养老院服务老人,如抱扶老人、推轮椅并躲避障碍等。这展示了机器人加速发展并逐渐融入日常生活的趋势。来源: 智东西
美团再投人形机器人公司宇树科技,80 亿估值能否撑起“中国版 Figure AI”?
新闻概要:2024 年 9 月 25 日消息,宇树科技近期完成数亿元人民币 C 轮融资,由北京机器人产业投资基金等机构领投,美团龙珠等参与投资。这是美团第二次投资宇树科技,其旗下公司为宇树科技第一大外部股东。宇树科技成立于 2016 年,是国内四足及人形机器人创业公司,被认为对标美国 Figure AI。创始人王兴兴曾在大疆任职,公司产品涵盖四足机器人和人形机器人,后者虽已量产但售价较高,商业落地效果欠佳。目前人形机器人行业出货量暴增节点还需 3 – 4 年,科研教育是主要买家来源之一。国内人形机器人公司竞争激烈,纷纷进入量产阶段,而相比海外大规模量产进度,国内仍有差距。来源: 钛媒体
17 岁高中生做 AI App 不到 4 个月入账百万美元,独立开发者迎来春天?
新闻概要:2024 年,AI 时代叠加经济下行,独立开发者渴望成功。17 岁高中生 Zach 开发的 Cal AI 是一款扫描食物热量的 App,仅 3 人运营,不到 4 个月入账百万美元,ARR 有望达 300 万美元。其成功关键在于解决真实问题和新营销方式。刚大学毕业的 Blake 是关键第三人,靠 ChatGPT 做了多款百万美元 ARR 的 App,如 Umax。他们总结了成功经验,包括提前制定策略估算 CPM、选择 underrated 创作者等。此外,“快应用”趋势初露端倪,如 Rayz 团队快速推出多款应用,以低成本推广争取试错机会。独立开发者虽面临挑战,但仍有机会。来源: 微信
OpenAI 奥尔特曼罕见发长文:超级 AI 可能在几千天内实现
新闻概要:9 月 24 日凌晨,OpenAI CEO 奥尔特曼发表长文博客《智能时代》,推特浏览量已突破 100 万人次。他认为技术进步将使未来几代人能完成前人认为不可能的事,AI 将成为解决难题的工具,人人拥有 AI 团队将成为可能。奥尔特曼预测超级 AI 可能在未来几千天内实现,强调深度学习路线是进入超级智能时代的钥匙,降低算力成本和建立基础设施对普及 AI 至关重要。他还表示未来人们将能实现如今看来像魔术一样的事,共同繁荣也将实现。来源: 钛媒体
PixVerse 全新 UI 正式发布👑
新闻概要:2024 年 9 月 24 日,PixVerse 全新 UI 重磅发布。此次更新带来诸多亮点,万能创作浮板让用户在产品任意界面都能即刻创作,集多功能于一身,避免频繁切换模块。首页灵感库精选全球创意视频,支持一键套用模板,助力每个人轻松复刻爆款。创意工作台可高效管理已生成视频,单视频视图精准处理,多视频视图快速梳理创作历程。同时,更好的兼容性优化了生成步骤和功能布局,在 PC、IOS 和 Android 设备上都能提供丝滑创作体验。登录 https://pixverse.ai/ ,即可享受全新创作之旅。更多精彩,敬请期待。来源: 爱诗科技
“SocialAI:独特的 AI 社交网络应用引领社交新潮流”
新闻概要:2024 年,一款名为 SocialAI 的 AI 社交网络应用引发广泛关注。它由 Friendly Apps 公司开发,模拟社交媒体平台,所有互动来自 AI 机器人。用户可发布状态更新,获得定制化回复与互动。其主要功能包括状态更新与回复、提供私人空间、定制化对话、可作治疗与支持工具、拥有 AI 社区、提供情绪反馈、保护隐私、多语言支持、个性化设置及无广告体验等。用户能在苹果 App Store 下载安装,使用 Apple ID 注册,并选择 AI 追随者类型。SocialAI 应用场景广泛,可作个人日记、提供情感支持、促进自我表达、辅助语言练习、助力心理治疗及激发创意。来源: 量子位
阿里推出免费通义万相 AI 视频生成工具
新闻概要:2024 年 9 月,阿里推出通义万相 AI 视频生成工具,该工具完全免费,支持文生视频和图生视频两种方式。用户可通过输入文字提示词或上传图片,AI 自动创作出具有影视级画面质感的高清视频,最长 6 秒。它支持多种艺术风格,能处理多语言输入,自带“音频生成”和“灵感扩写”功能。使用时,用户需访问官方网站注册登录,选择功能后输入提示词或上传图片,设置参数即可生成视频。该工具适用于影视制作、动画设计、广告创意等多个领域,为用户带来极大便利和创作自由度。来源: Meo AI导航
阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama
新闻概要:2024 年 9 月 19 日,在云栖大会上,阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5。该模型涵盖多个尺寸的语言、多模态、数学和代码模型,总计上架 100 多个。其中旗舰模型 Qwen2.5 – 72B 号称性能超越 Llama 405B。除部分版本外,通义千问开源模型采用 Apache 2.0 许可证。截至 9 月中旬,通义千问开源模型累计下载量已突破 4000 万,成为世界级模型群。此外,阿里云还宣布通义千问推荐模型全线降价,最高降幅可达 85%。来源: IT之家
3 个月 9 次升级,可灵 AI 惊艳众人
新闻概要:自 2024 年 6 月正式发布以来,可灵 AI 在短短三个月内进行了 9 次迭代和升级。9 月 13 日,快手高级副总裁盖坤透露可灵正在内测 1.5 版本基础模型,预计在图像质量、美学表现等方面有显著提升,还引入了“运动笔刷”功能。可灵 1.5 版本在清晰度、语义理解能力和运动表现合理性上都有很大进步,比如生成视频分辨率更高、对 Prompt 的理解更准确、能更好地呈现复杂场景等。此外,可灵此次迭代围绕用户创作进行,提高了生成效率和视频长度。目前已有超过 260 万人使用可灵 AI,累计生成超 2700 万个视频。来源: 极客公园
豆包大模型全新发布视频生成模型,9 月 24 日见!
新闻概要:2024 年 9 月 18 日,火山引擎发布消息称豆包大模型将全新发布视频生成模型,定于 9 月 24 日与大家见面。火山引擎一直致力于推动人工智能技术的发展,此次视频生成模型的发布备受期待。这一创新举措有望为用户带来更加丰富和高效的内容创作体验。同时,文章中还提到了豆包大模型助力 PingCode 打造智能化研发管理平台以及火山引擎 AI 创新巡展·深圳站倒计时 5 天等内容。来源: 火山引擎
阿里通义将发布 AI 视频生成大模型,支持文生视频、图生视频
新闻概要:2024 年 9 月 14 日消息,阿里通义将于 2024 云栖大会(9 月 19 日至 9 月 21 日)期间发布 AI 视频生成大模型。目前通义 App 频道和通义万相 PC 端已上线“视频生成”入口,仅支持用户预约,未开放使用。该模型由通义实验室自主研发,包含“文生视频”和“图生视频”两种创作模式。预约成功后,阿里通义会在用户获得使用资格时进行通知,并赠送给用户 66 灵感值(有效期 30 天)。来源: IT之家
全球著名文生音乐模型 Suno 推出重磅功能“Covers”,一键翻唱引关注
新闻概要:2024 年 9 月 16 日,全球著名文生音乐模型 Suno 发布重磅功能“Covers”。该功能可帮助用户一键翻唱任意风格的歌曲,通过识别上传歌曲的乐谱、乐器、节奏和旋律等,生成全新翻唱版本,保留原歌曲核心灵魂。除上传音乐外,还支持用一小段声音样本完成音乐创作。目前已向所有 Pro 和 Premier 订阅用户开放,处于早期测试阶段。网友们对该功能震惊不已,认为它将彻底改变音乐行业。从专业音乐制作人到普通人都能从该功能中受益。来源: 腾讯新闻
元象发布中国最大开源 MoE 模型,255B 参数无条件免费商用
新闻概要:2024 年 9 月 14 日,元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B,总参数 255B,激活参数 36B。该模型训练时间减少 30%,推理性能提升 100%,每 token 成本大幅下降,在多个权威评测中效果超越同类模型。MoE 是混合专家模型架构,可在扩大模型规模时不显著增加计算成本。元象此次推出的模型在效率和效果方面进行技术创新,包括采用 4D 拓扑设计、专家路由与预丢弃策略等。此外,元象的模型训练借鉴“课程学习”理念,实现动态数据切换和优化学习率调度策略。元象大模型已与多个平台深度合作与应用探索。来源: 量子位
OpenAI 推出最强推理 AI 大模型 o1
新闻概要:2024 年 9 月,OpenAI 发布最强推理系列 AI 大模型 OpenAI o1,包括 o1-preview 和成本更低的 o1 mini 版本。该模型通过强化学习训练,具备复杂推理能力,引入“思维链”机制,可模拟人类思维过程,解决数学、编程和科学研究等问题。在多个专业基准测试中超越以往模型,如在 AIME 考试中表现优异。其工作原理包括预训练与微调、强化学习、思维链推理等。产品定价公布,同时介绍了使用方法和应用场景,涵盖科学研究、软件开发、教育辅导等多个领域。来源: Meo AI导航
安卓版谷歌 Gemini Live 免费上线,开启在线 AI 语音畅聊
新闻概要:2024 年 9 月 13 日消息,安卓版谷歌 Gemini Live 免费上线,开启在线 AI 语音畅聊。科技媒体 9to5Google 于昨日发布博文称,谷歌在 1 个月前面向 Advanced 订阅用户推出后,正逐步面向所有安卓用户免费开放 Gemini Live。IT 之家曾在 8 月报道,谷歌在 Pixel 9 系列手机发布会上发布了该服务,它提供了移动对话体验,可与 Gemini 自由流畅对话。Gemini Live 对标 OpenAI ChatGPT 的 Advanced Voice 模式,采用增强型语音引擎,能展开更连贯、有情感表达力和逼真的多轮对话。目前,所有使用英语的 Android 版 Gemini 移动应用用户可访问,而 iOS 平台尚未推出 Gemini 应用。来源: IT之家
夸克推出 CueMe AI 智能对话助手,开启多场景写作新潮流
新闻概要:2024 年 9 月,夸克推出 AI 智能对话助手 CueMe。CueMe 基于先进的 AI 技术,能理解和生成多种体裁文本,最长可达 2 万字。它支持上千种写作需求,如研究报告、课程论文等,并提供个性化文风定制。CueMe 具备长文本理解、专业知识检索等能力,还能进行内容深度优化。其使用方法简便,通过访问官方网站注册登录后,可直接输入需求,选择文风并提供详细信息获取结果。CueMe 应用场景广泛,涵盖学术研究、教育学习、内容创作、商业文案、个人助理和语言学习等领域。来源: Meo AI导航
融资超 50 亿元的中国 AI 芯片独角兽“壁仞科技”启动 IPO 上市辅导,估值达 155 亿
新闻概要:2024 年 9 月 12 日,中国 AI 算力芯片企业壁仞科技提交“首次公开发行股票并上市辅导备案报告”,启动科创板 IPO 上市辅导,辅导机构为国泰君安证券股份有限公司。壁仞科技成立于 2019 年,致力于开发通用计算体系,提供智能计算解决方案。其 2022 年发布的 BR100 芯片创出全球算力纪录。公司已完成多轮融资超 50 亿元,合作客户众多。壁仞科技无控股股东,估值达 155 亿元,一旦上市有望超过此估值。2023 年被列入美国“实体清单”,今年 9 月发布中国首个三种异构芯片混训技术。来源: 钛媒体
估值 1500 亿美元!OpenAI 据称正洽谈新一轮融资
新闻概要:全球人工智能领军企业 OpenAI 正商谈以 1500 亿美元估值向投资者筹集 65 亿美元,同时还在洽谈以循环贷款形式从银行筹集 50 亿美元。新估值高于今年早些时候要约收购中的 860 亿美元估值,巩固其全球最有价值初创公司之一的地位。本轮融资据悉将由兴盛资本领投,微软、苹果和英伟达也在就投资事宜进行谈判。OpenAI 首席财务官上月末表示公司正寻求新融资,将用于获得更多计算能力及其他运营费用。OpenAI 成立于 2015 年,其聊天机器人 ChatGPT 引发投资狂潮。该公司成立之初为非营利组织,2019 年转为营利性初创企业,微软共投资 130 亿美元,拥有 49%股份。来源: 财联社
李彦宏最新内部讲话:不同模型之间的差距只会越来越大
新闻概要:近日,李彦宏在百度内部面向员工发表讲话,内容涵盖大模型的能力壁垒、开源模型问题及百度强调智能体的原因。李彦宏指出,外界对大模型存在诸多误解,榜单得分超 Open AI 的产品不代表与 Open AI 模型差距小。不同模型在理解、生成和逻辑等基本能力及使用成本方面有差距,且差距会越来越大。他认为开源模式在大模型时代不成立,解决不了算力问题,在商业领域无优势。此外,李彦宏强调智能体是大模型重要发展方向,门槛低,每周有上万个新智能体在文心平台被创造。来源: 界面新闻
Adobe Premiere Pro 将集成视频生成功能,年底前推出
新闻概要:2024 年 9 月 12 日消息,Adobe 宣布将于今年年底前推出由 Adobe Firefly Video 模型驱动的视频生成功能,用户可在 Premiere Pro 测试版应用和独立网站上体验。目前正在内部测试生成续帧、文本转视频和图像转视频三种功能。生成续帧可将现有视频延长两秒,后两者能根据文本提示或输入图像生成时长五秒的视频。近年来,生成式人工智能模型层出不穷,但早期工具可控性较差。Adobe 认为其 Firefly 人工智能工具的可控性是优势,且在拼写方面表现出色。初期出于安全考虑,屏蔽裸露、毒品和酒精等内容生成,也不以公众人物为训练对象。Adobe 尚未透露这些人工智能视频功能的定价。来源: IT之家
晚点独家丨字节再试硬件:探索 AI 耳机、眼镜等产品,与豆包大模型联动
新闻概要:字节跳动正探索将大模型与硬件结合,AI 硬件相关团队负责人 Kayden 带领团队开发与豆包大模型和 App 联动的智能耳机,同时推动豆包大模型与其它手机厂商智能助手合作。字节还在探索 AI 眼镜方向,可能投资新公司或组建内部团队,已有互联网公司前大模型核心人物参与研发。此外,除耳机、眼镜等新 AI 硬件外,PICO 也在研发多款搭载豆包大模型的穿戴设备,字节也尝试和更多外部硬件公司合作。字节此前硬件尝试不算成功,但对 AI 有野心的科技公司不会放弃硬件业务,因硬件被认为是大模型落地重要方向之一。来源: 晚点LatePost
曝 OpenAI 神秘大模型“草莓”两周内发布!
新闻概要:据外媒报道,OpenAI 的新模型“草莓”将在未来两周内作为 ChatGPT 服务的一部分发布。“草莓”项目是盛传已久的神秘 Q*模型,被传是 OpenAI 政变大戏的关键原因之一。该模型最大特点是会在回答前进行“思考”,持续 10 – 20 秒,初代版本为纯文本模型。其定价可能有速率限制,且可能更擅长处理复杂问题,无需“思维链提示”。但“草莓”也存在一些问题,如回答简单问题时可能错误地花费太长时间,在记忆整合聊天记录方面有时也有问题。OpenAI 面临日益激烈的竞争,“草莓”能否助其恢复势头令人拭目以待。来源: 智东西
突破!面壁联合梧桐科技,高效端侧模型落地芯算一体 AI 座舱
新闻概要:2024 年 9 月,面壁智能与梧桐科技合作,将 MiniCPM 车载多模态大模型应用于芯算一体 AI 座舱方案,实现舱驾协控功能控制,这也是该端侧多模态模型首次支撑汽车智能座舱系统底座。梧桐科技为国内最早布局智能空间领域的科技公司,与众多主机厂合作,产品装机量超三百万辆。MiniCPM 端侧多模态模型显著提升座舱和乘客交互能力,支持复杂多轮对话,学习多模态数据提供主动服务,提升车内车外全场景识别能力。智能座舱端侧大模型时代到来,大模型将为新汽车带来交互智能与服务智能的深刻变革,而面壁智能的高效端侧模型因极致高效蜚声全球,此次合作意味着 MiniCPM 端侧模型进入全新应用领域。来源: 面壁智能
317 笔融资揭示中国 AI 投资之王
新闻概要:2024 年,AI 领域投融资虽被认为冷清,但仍有不少投资机构逆势下注。产业资本成 AI 浪潮坚定投资者,占出手三次及以上机构超 35%。其中头部 AI 公司和互联网巨头积极投资 AI 初创公司,如智谱 AI、科大讯飞、商汤、百度、阿里等。VC 和 PE 在 AI 领域出手谨慎且对通用大模型投资有分歧。地方产业基金也是重要投资方,北京产业基金积极参与,北京成 AI 投资高地。总结得出产业资本坚定投资、VC 和 PE 谨慎分歧、地方产业基金重要等结论。来源: 腾讯新闻
美国商务部公布新规要求 AI 公司报告模型训练进展,声称将阻止外国使用美国技术|钛媒体 AGI
新闻概要:2024 年 9 月 9 日,美国商务部下属工业与安全局发布“建立先进人工智能模型和计算集群开发的报告要求”拟议规则,并向公众征求意见。该规则要求美国先进 AI 开发商和云计算提供商报告基础模型开发情况,以确保技术安全性并抵御网络攻击。规则明确指向大模型军事用途,旨在确保美国公司生产的军民两用基础模型可供国防工业使用,并阻止外国敌手和非政府实体使用。目前预计不超过 15 家美国公司需履行报告义务,且随着技术发展,受影响公司数量可能增加。美国此举引发中国商务部严重关切和坚决反对。来源: 钛媒体
AI超级周期开启,AMD苏姿丰称将加速推出 AI 芯片
新闻概要:2024 年 9 月 12 日消息,美东时间周一,AMD 董事长兼首席执行官苏姿丰表示,人工智能的超级周期才刚刚开启。AMD 将瞄准英伟达在市场的主导地位,加速推出高性能人工智能芯片。今年晚些时候,AMD 将推动 MI325 人工智能芯片上市,明年推出 MI350,2026 年推出 MI400。新一代 MI 系列芯片内存高达 192GB,晶体管达 1530 亿个,可用于训练大型语言模型。苏姿丰称到 2024 年底,仅 MI300 芯片销售额就可能达 45 亿美元,华尔街也对 AMD 的 AI 芯片前景充满信心。来源: 财联社
苹果发布史上首台 AI iPhone,按键成最大亮点
新闻概要:2024 年 9 月 10 日,苹果发布史上首台 AI iPhone。此次发布的 iPhone 16 系列最大亮点是按键,它不仅能充当快门键,还可呼出相机变焦等参数并启用视觉智能。iPhone 16 系列外观有变化,如标准版摄像头变为纵向排列,新增多种配色。全系支持 Apple 智能,但更多 AI 功能暂未完全启用。价格与上一代相比不变,9 月 13 日晚 8 点起接受预购,9 月 20 日发售。此外,Apple Watch Series 10 屏幕尺寸增大,有全新外观和新功能,AirPods 4 支持降噪。苹果欲靠 AI 为 iPhone 开启新周期。来源: 爱范儿
国内 RISC-V AI 芯片设计公司知合计算完成 A1 轮融资,源码资本领投
新闻概要:2024 年 9 月 9 日消息,国内基于 RISC-V 架构的 AI 芯片设计公司知合计算宣布完成数亿元人民币规模的 A1 轮融资,由源码资本领投,领航新界、云九资本等跟投。知合计算成立于 2022 年 10 月,致力于开发针对 AI 智算场景的高性能、可扩展计算芯片。公司董事长严晓浪教授是浙江大学教授等,开创我国自主指令集研发先河。CEO 孟建熠拥有浙江大学博士学位和 20 多年处理器架构等经验。首款基于 RISC-V 架构的 AI 计算芯片产品有望于 2025 年推出。本轮融资将用于加速产品研发等。来源: 钛媒体
荣耀赵明谈苹果 AI:让行业变得清醒,快餐式创新适得其反
新闻概要:2024 年德国柏林消费电子展上,荣耀 CEO 赵明宣布发布行业首个跨应用开放生态智能体并将在荣耀 Magic7 系列落地商用。赵明表示,手机厂商不能仅靠集成第三方 AI 服务标榜产品,未来趋势是系统层级的 AI 重构。他认为苹果对 AI 的方向有助于行业清醒,快餐式推进 AI 可能适得其反。与苹果封闭系统不同,荣耀在海外与 Meta 等厂商合作。成本是 AI 智能体发展挑战,未来 AI 商业化将成必然。手机厂商应注重真实创新,深度整合 AI 技术打造真正智能手机。来源: 第一财经
蚂蚁全面加速“卷应用”,加入 AI 混战
新闻概要:2024 Inclusion·外滩大会上,蚂蚁集团全面加速 AI 应用。发布三个 AI 管家,包括 AI 生活管家“支小宝”、AI 金融管家“蚂小财”和 AI 健康管家,分别在管事、管钱、管健康方面为用户提供服务。同时推出智能体开发平台“百宝箱”,开放生态,让合作伙伴参与。蚂蚁集团不随大流“卷”热门方向,而是依据自身基因和禀赋,用 AI 服务普通人生活场景需求。在科技圈全员“All in AI”的 2024 年,蚂蚁走出了自己的“AI in All”之路。来源: 极客公园
特斯拉获 xAI 模型授权,双方商讨未来收入协议
新闻概要:2024 年 9 月 8 日消息,据华尔街日报报道,马斯克旗下 xAI 公司与特斯拉讨论了分享未来收入的协议。根据拟议安排,特斯拉将获得 xAI 模型授权,以助力开发“完全自动驾驶”(FSD)系统,并可能在电动汽车内安装类似 Siri 的语音助理以及为人形机器人 Optimus 提供动力的软件。收入分享协议条款部分取决于特斯拉对 xAI 技术的依赖程度。此外,马斯克于 9 月 3 日宣布 xAI 打造的超级 AI 训练集群 Colossus 已正式上线,未来几个月还将再增加 10 万张 GPU。来源: IT之家
智谱清言 App 视频通话功能面向所有用户限时免费开放
据智谱 AI 官方消息,智谱清言视频通话功能现已面向所有用户全面放开,限时免费。该功能在上周开启测试,用户可以直接通过视频对话的方式和 AI 进行自然交流,获得更好的交互体验。智谱清言不仅可以使用自然语言沟通,还可以识别各种物品、标签、文字等。用户在清言 App 点击首页右下方的打 Call 按钮,便可以开启视频通话。来源: 智谱 AI
蚂蚁集团推出 AI 金融管家蚂小财,智能理财助力用户
新闻概要:2024 年,蚂蚁集团推出 AI 金融管家蚂小财。蚂小财是基于自研大模型技术的智能理财助手,拥有实时热点解读、个性化服务、图文版财报解读等多项功能。它在支付宝 App 内全量对外,并在蚂蚁财富 App 内提供 Pro 版,支持语音控制和定制简报服务。截至 2024 年 8 月,蚂小财已拥有 7000 万月活跃用户,其中 45%来自三线及以下城市。蚂小财可应用于日常理财咨询、财报分析、市场热点追踪等场景,为用户提供投资决策支持、金融知识教育和风险管理等服务。来源: Meo AI导航
“算力版滴滴”发布 AI 云新品,PPIO CEO 预测三年模型推理成本将下降 1000 倍|钛媒体 AGI
新闻概要:2024 年 9 月,PPIO 派欧云发布专为 AI 推理场景设计的 Serverless 产品,被形容为“算力版的滴滴”。PPIO 整合企业侧闲置碎片化算力,提供多种服务。CEO 姚欣预测未来三年 AI 大模型推理成本将下降 1000 倍以上,认为分布式算力将成为重要推动力。目前,中国正加大 AI 算力投资力度,智能算力占比不断提高。姚欣还谈到了算力供需平衡、AI 泡沫等问题,并强调公司重视与开源模型整合,为不同规模客户提供定制化服务。来源: 钛媒体
腾讯发布新一代大模型“混元 Turbo”:推理效率翻倍,成本减半
新闻概要:2024 年 9 月 5 日,在腾讯全球数字生态大会上,腾讯正式发布新一代大模型“混元 Turbo”。该模型采用 MoE 架构,推理效率较上一代提升 100%,成本降低 50%。其价格也比混元 Pro 降低 50%,输出价格为 0.05 元/千 tokens,输入价格为 0.015 元/千 tokens。在中文大模型测评基准 SuperCLUE 的《中文大模型基准测评 2024 年 8 月报告》中,混元新一代大语言模型预览版在理科、文科均居第一。目前腾讯内部近 700 个业务及场景已接入,腾讯混元的云上版本多样,在专属模型上也有诸多开放功能。来源: IT之家
零一万物推出开源 AI 编程助手 Yi-Coder,助力编程效率提升
新闻概要:2024 年 09 月 05 日消息,零一万物推出开源 AI 编程助手 Yi-Coder。该模型提供 1.5B 和 9B 两种参数规模版本,支持 52 种主流编程语言,能处理长达 128K tokens 的上下文,有效捕捉代码间长期依赖关系。在多个代码生成基准测试中表现突出,尤其在 LiveCodeBench 平台上,9B 参数版本在 10B 以下模型中通过率领先。Yi-Coder 具有多语言支持、长序列处理、强大的代码生成等功能,在代码编辑和补全、数学推理能力方面也表现出色,且易于部署。其技术原理基于深度学习和自然语言处理领域最新进展,采用 Transformer 架构、预训练和微调等策略。应用场景广泛,包括代码生成、补全、理解、调试等。来源: MeoAI
“ChatGPT 之父’新公司成立 3 个月融资 10 亿美金,估值超 350 亿
新闻概要:OpenAI 联合创始人、“ChatGPT 之父”伊利亚·苏茨克韦尔联合成立的新公司 SSI 成立仅 3 个月便完成 10 亿美元融资,估值已超 350 亿。此轮投资方包括多个知名投资机构。SSI 将利用这笔资金进行人才搭建和技术投入,开发安全 AI 系统。伊利亚·苏茨克韦尔是 AI 领域极具影响力的技术专家,曾与他人共同发明卷积神经网络 AlexNet 等。他因领导团队研发出 ChatGPT 被称为“ChatGPT 之父”。他于今年 5 月离开 OpenAI 后,6 月创立 SSI。来源: 钛媒体
智源研究院推出全球首个文生视频模型对战评测服务
新闻概要:2024 年 9 月 4 日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval 大模型角斗场。该服务覆盖国内外约 40 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。评测过程采取匿名机制,网页端引入主观倾向阶梯评分体系,更能精确揭示模型性能差异。用户提交评分后可立即查看结果,最终形成角斗场榜单。该服务可支持多款国内外文生视频模型,用户可从预设问题中选择。智源研究院持续迭代优化 FlagEval 大模型评测体系,未来将对全链路数据开源,促进大模型评测生态发展。来源: 腾讯新闻
OpenAI被曝将筹资数百亿美元打造 AI 基础设施
新闻概要:2024 年 9 月 4 日,有消息称 OpenAI 首席执行官 Sam Altman 计划吸引全球投资者筹资数百亿美元,用于打造 AI 基础设施。重点先在美国各州启动,项目类型包括建设数据中心、提高能源容量和传输以及扩大半导体制造。加拿大、韩国、日本和阿联酋的投资者可能参与其中,其他私营公司也有望加入。微软公司虽未具体评论该项目,但表示知情并可能参与任何与基础设施相关的广泛努力。这一举措将对全球 AI 发展产生重大影响,为 AI 技术的进一步突破奠定基础。来源: 第一财经
英特尔推出新一代 AI PC 芯片,宣称全面压过高通旗舰一头
新闻概要:2024 年 9 月 4 日,财联社消息,英特尔推出新一代酷睿 Ultra 笔记本电脑芯片,宣称在 CPU、GPU、AI 等方面全面压过高通旗舰 X Elite 芯片。该芯片有 9 款,统一为 8 核,内存直接封装在芯片中,消费者只有 16GB 和 32GB 两种选择,且取消了超线程技术。首批搭载该芯片的笔记本电脑将于 9 月 24 日上线。英特尔称其在多线程性能/功耗曲线中与苹果 M3 打平手,图形能力和 AI 性能优于高通竞品。但对于其实际表现,科技媒体建议消费者等评测,且首发时不会搭载微软 Copilot Plus AI 功能。来源: 财联社
智谱荣耀 AI 大模型技术联合实验室揭牌
新闻概要:2024 年 9 月 2 日,智谱和荣耀在北京正式签署 AI 大模型技术联合实验室战略合作协议。智谱 COO 张帆、荣耀产品线总裁方飞等代表出席签约仪式。智谱专注通用人工智能基座大模型创新,荣耀是消费电子领域平台级 AI 技术先行者。双方此次合作将探索端侧 AI 智能体验,推动智能终端领域大模型技术和应用创新,通过荣耀折叠屏手机等产品为用户带来智慧便捷的 AI 服务。此次合作标志着双方战略合作迈向新阶段,双方领导均表示将以用户为中心,推动技术进步与产业升级,加速智能终端与人的交互变革。未来,双方将积极推动大模型等前沿技术在消费级终端产业落地。来源: 腾讯新闻
OpenAI 首颗芯片:1.6nm,台积电造
新闻概要:2024 年 9 月消息,据报道,苹果已预定台积电 A16 埃米(1.6nm)制程的首批产能,OpenAI 也加入预定。OpenAI 与博通、迈威尔等美国芯片厂商合作开发基于该制程的定制芯片,有望提升 Sora 的视频生成能力。OpenAI 曾洽谈合作建设专用晶圆厂但搁置。其自研芯片将在台积电 3nm 家族与后续 A16 埃米级制程投片生产。OpenAI 转向该制程或有深层次原因,可能推动与苹果进一步合作。Sora 或成苹果 AI 卖点,若进行算力升级将提升用户使用意愿。A16 是台积电最先进制程节点,预定 2026 下半年量产且先在台湾进行。来源: 智东西
“8 岁小孩用 AI 制作游戏引围观,AI 让编程更简单?”
新闻概要:8 岁小孩在没有编程经验的情况下,利用 Claude AI 工具和 Cursor,在两小时内制作出游戏及多个应用,引来 50 多万人围观。孩子的父亲是在线学习提供商 DesignCode 的创建者,他仅帮助孩子设置了 Cursor、Git 和 Netlify。小孩此前对工程学很着迷,有丰富的创作经历。这一事件引发网友质疑,但其父亲晒出孩子简历以证独立完成。AI 编程工具 Cursor 因能快速将简单想法转化为功能性代码而备受赞誉,它默认使用 Claude – 3.5 – Sonnet 模型,有独特的代码补全功能。目前 Cursor 提供三种订阅模式。来源: 机器之心
烧钱换增长,AI 产品的流量玩法还走得下去吗?
新闻概要:2024 年,国内 AI 产业竞争逻辑因一款名为 Kimi 的大模型产品爆火而改变,其通过投流推动用户增长,引发全行业参与营销游戏,使国内大模型市场出现短暂“繁荣”。但随着时间推移,问题逐渐显现,当用户增长成为重要指标,大模型产品竞争回到移动互联网逻辑,大厂的流量和资金优势明显。同时,AI 产品网络效应有限,变现以订阅为主,付费逻辑未完全跑通下烧钱圈用户作用存疑。目前,大模型产品竞争向大厂倾斜,而付费率、复购率等反映付费转化的指标更能体现 AI 产品价值。来源: 钛媒体
华人 AI 视频工具 OpusClip 获北美风投 3000 万美元,革新视频编辑
新闻概要:2024 年,华人 AI 视频工具 OpusClip 在由 Millennium New Horizons 主导的 A 轮融资中获 3000 万美元投资,Samsung Next、GTMfund 和 DCM Ventures 等参与。该公司致力于将长视频转变为可在社交媒体平台传播的短片,其创新平台能自动转换视频,适应不同平台。OpusClip 利用人工智能调整剪辑,提取亮点并重新排列。新功能 ClipAnything 为用户提供更大灵活性,可指导 AI 剪辑视频。自 6 月推出已吸引超六百万用户,提供多种订阅计划。公司不断改进 AI 模型,积极改变视频内容创作格局。来源: 腾讯新闻
MiniMax大模型日均交互时长排名第一 每日处理超 3 万亿 token
新闻概要:2024 年 8 月 31 日,“2024 MiniMax Link 伙伴日”活动在上海举行。MiniMax 创始人闫俊杰分享了基于 MOE 和 Linear Attention 的新一代模型技术应用及音乐、视频模型研发成果。MiniMax 大模型日均交互时长排名断层式第一,每日处理 3 万亿文本 token,生成 2000 万张图片及合成 7 万小时语音等。公司成立于 2021 年 12 月,自主研发多模态通用大模型并推出多款原生应用。活动中,各界代表共同探讨前沿科技成果与产业创新升级路径。MiniMax 持续技术探索,在文本、语音、视频模型上均有突破,有望成为国内第一家实现类 GPT – 5 能力的大模型公司。同时,MiniMax 宣布打造“MiniMax Link 创新生态圈”,推动人工智能产业可持续发展。来源: 新浪财经
OpenAI ChatGPT 被曝将新增 8 种新语音
新闻概要:2024 年 9 月 3 日消息,科技媒体 testingcatalog 昨日发布博文称,通过逆向工程 ChatGPT 应用,发现 OpenAI 即将扩充添加语音。据悉,OpenAI ChatGPT 被曝将新增 8 种新语音,每种语音都有独特代号且可能逐步推出。这些新声音能更自然地表达声音,包括动物叫声等非语言声音,在朗读加粗或斜体文字时还能传达或强调特定情绪。不过,需要注意的是,这些仍是文本到语音的语音,与目前处于 alpha 阶段的高级语音模式可能无关。来源: IT之家
Runway 发布 Gen-3 Alpha Extensions 功能,视频时长延长至 40 秒
新闻概要:2024 年 9 月 2 日,Runway 宣布发布 Gen-3 Alpha Extensions 功能。该功能可将视频时长延长至 40 秒,用户仅需简单的图片或文字输入,即可制作完整故事情节或广告内容。这一突破对广告制作、短视频创作等领域影响深远,能大幅提升创作效率。目前,该功能已面向所有用户开放。这一创新举措为创作者们提供了更多的发挥空间,有望推动相关领域的进一步发展。来源: 品玩
‘无问芯穹’完成近 5 亿元 A 轮融资,成立仅 16 个月吸纳近 10 亿丨36 氪首发
新闻概要:2024 年 9 月 2 日消息,「无问芯穹」宣布完成近 5 亿元 A 轮融资,此轮融资由社保基金中关村自主创新专项基金、启明创投和洪泰基金联合领投,众多机构跟投。成立仅 16 个月,「无问芯穹」累计融资额已近 10 亿元。该公司从异构算力难以有效利用的难题切入,通过软硬件联合优化和多元异构算力适配技术,提升芯片算力及集群算力利用率。其自研推理加速技术已适配多个主流开源大模型,还发布了大规模异构分布式混合训练系统。「无问芯穹」在商业化方面进展迅速,打造了 Infini-AI 异构云平台,提供算力服务及开发工具链服务,已有多个头部客户使用。此外,公司在端侧大模型和 LPU IP 领域也有布局。来源: 36 氪
昆仑万维推出 AI 音乐创作平台音疯,引领音乐创作新潮流
新闻概要:2024 年 9 月,昆仑万维推出 AI 音乐创作平台音疯。音疯基于人工智能技术,简化音乐创作流程,用户只需输入歌词或提供参考音乐,即可一键生成原创歌曲。平台支持多种音乐风格,如流行、说唱、R&B 等,满足不同用户创作需求。其主要功能包括 AI 一键成歌、相似生成、旋律动机、风格多样化、赚取收益和作品管理。音疯产品官网为 yinfeng.cn,使用方便。产品定价有每日免费赠送积分及多种会员套餐。音疯适用人群广泛,包括音乐创作初学者、独立音乐人、内容创作者、社交媒体用户以及音乐教育者和学生。来源: Meo AI导航
MiniMax 加入视频生成混战,大模型未来走向引关注
新闻概要:2024 年 8 月 31 日,国内独角兽 MiniMax 在上海举办“MiniMax Link 伙伴日”活动,正式对外宣布推出视频生成模型 video – 1 和音乐模型。video – 1 具有压缩率高、文本响应好和风格多样等特点,目前仅提供文生视频功能,未来将迭代图生视频、可编辑、可控性等功能。大模型创始人闫俊杰认为大模型厂商需输出多模态内容,视频生成赛道难度大但可能是行业共识。启明创投预测未来 3 年内视频生成将全面爆发,改变影视等生产模式。当前视频生成结果远未达用户预期,面临诸多挑战。来源: 腾讯新闻
讯飞版「Her」全民开放,引领智能语音交互新潮流
新闻概要:2024 年 8 月 31 日,讯飞版「Her」横空出世并全民开放。这款讯飞星火版的「Her」具有极速响应、自由打断的特点,即使随时插话,也能秒回,如同真人对话般自然流畅。它对情绪的感知敏锐,能与用户情绪产生共鸣并贴心回复,情商秒杀部分人类。还可控制数十种情感、风格、方言及变换语速。拥有百变人设,能模仿多种角色音色和语气聊天。其采用端到端跨文本、音频模型新模型,以知识对齐表征方式传递信息,大大缩短对话响应时间且信息无损贯穿。科大讯飞表示未来新系统将朝着更多模态、更多语言、更好体验拓展,有望收获产业红利,引领中国 AI 语音新时代。来源: 腾讯新闻
千亿市值上半年营收仅 6476 万,寒武纪六个月亏了 5 个亿
新闻概要:寒武纪作为 AI 芯片领域的重要企业,2024 年 8 月 30 日晚间发布半年报。报告显示,上半年营收 6476.53 万元,同比下降 43.42%,净利润亏损 5.3 亿元。其营收下滑主要受供应链不利因素影响,且公司为保持技术优势持续进行大量研发投入。目前,寒武纪正在押注大模型领域,掌握先进工艺下的关键技术,对新智能处理器微架构和指令集进行研发并优化大模型场景,软件训练平台也增加对主流网络的支持。尽管研发投入占比较高且存在大额股份支付风险,但寒武纪作为国内主要 AI 算力公司,今年股价波动上涨。来源: 第一财经
360AI 助手更新,大模型竞技场见真章
新闻概要:2024 年 8 月 22 日,360AI 搜索与 360AI 助手同步更新。360AI 助手优化了首页和问答页切换不同大模型的功能,新增了不同尺寸、适合不同场景的大模型。同时重磅上线大模型竞技场功能,支持最多三个大模型对比测评,可自定义提问和选择预设题库,还能显示各大模型性能详细数据、支持追问、评价生成效果等。360AI 助手接入国内领先大模型,混合模型能力超越 GPT – 4o,应用场景广泛,涵盖教育、医疗等多个领域,推动各行业数字化转型。来源: 360 社区
阿里巴巴达摩院开源视觉多模态AI模型Qwen2-VL
新闻概要:阿里巴巴达摩院开源的视觉多模态AI模型Qwen2-VL备受关注。它具备高级图像和视频理解能力,支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频内容。在多语言文本理解、文档理解等任务上表现卓越。Qwen2-VL具有多种强大功能,如出色的图像理解、视频理解、多语言支持等。其技术原理包括多模态学习能力、原生动态分辨率支持、多模态旋转位置嵌入等。在性能指标方面,不同规模模型各有优势。它在多个视觉理解基准测试中取得领先表现,能理解长视频和多语言文本。应用场景广泛,涵盖内容创作、教育辅助、多语言翻译与理解等众多领域。来源: Meo AI导航
智谱发布新一代基座模型,多项创新成果引领行业发展
新闻概要:智谱在 KDD 2024 大会上发布新一代基座模型,包括语言模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像/视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX 等,这些模型在各自领域均达国际第一梯队水平。语言基座模型 GLM-4-Plus 在语言理解等方面性能全面提升。文生图基座模型 CogView-3-Plus 性能接近最优模型。图像/视频理解基座模型 GLM-4V-Plus 已上线开放平台,成为国内首个通用视频理解模型 API。此外,“清言 APP”上线视频通话功能,GLM-4-Flash API 免费开放并提供微调服务。智谱秉持创新理念,为行业发展贡献力量。来源: Meo AI导航
谷歌推出首个 AI 游戏引擎 GameNGen,或颠覆游戏产业
新闻概要:谷歌推出的首个 AI 游戏引擎 GameNGen 备受瞩目。它能以每秒 20 帧的速度实时生成逼真的 DOOM 游戏画面,高逼真度令多数玩家难以区分真假。GameNGen 无需编程,简化开发流程,还能根据玩家行为提供交互式体验。其技术原理包括神经网络、扩散模型等,通过大量游戏数据训练。该引擎不仅适用于游戏开发、测试,还能在教育与培训、自动驾驶等多领域发挥作用,有可能大幅改变 2000 亿美元规模的游戏产业,甚至对其他相关行业产生深远影响。来源: Meo AI导航
提速 6 倍,VR 可用,书生·天际 3.0 实景三维大模型更近了
新闻概要:2024 年 3 月,书生·天际 2.0 实现“单卡可用、实时渲染”。日前,书生·天际 3.0 开源发布,实现渲染效率提速近 6 倍,同时将应用方式拓展至 VR 设备。其拥有更全尺度场景的 3D 建模能力,可覆盖单个物体、室内布局及城市场景。相较于上一代模型,综合渲染效率提升 5.84 倍,还提出连续渲染静态重用技术等,保证成像流畅度。此外,研究团队构建了首个支撑城市级大场景重建训练和实时渲染的系统,实现算法兼容,为用户提供高效、高质量的实景三维重建体验,在城市规划等领域具备广阔应用潜力。来源: 书生·天际
AI 图像生成公司 Midjourney 宣布进军硬件领域,苹果前硬件经理加盟
新闻概要:2024 年 8 月 29 日,知名 AI 图像生成公司 Midjourney 宣布涉足硬件领域,并在社交媒体 X 上发布消息邀请人才加入新成立的硬件部门。Midjourney 创始人 David Holz 曾任 Leap Motion 首席技术官,具备丰富硬件经验,近期招募了前同事 Ahmad Abbas 担任硬件部门负责人。Abbas 曾在苹果工作五年,参与 Vision Pro 头显研发。目前 Midjourney 未透露将开发的硬件设备类型,只表示有多个项目在进行,强调有更多形态可能性,但具体时间表尚未公布。Midjourney 是众多探索 AI 驱动硬件领域的公司之一,其新产品形态备受期待。来源: IT之家
英伟达三个月净赚 1100 亿,但市值一夜跌出 3000 亿美金,发生了什么?
新闻概要:英伟达公布 2025 财年第二财季财务数据,营收 300 亿美元,净利润 166 亿美元,均超预期。数据中心业务营收 263 亿美元再创新高,中国市场竞争激烈但仍是重要贡献者。然而,尽管业绩利好,但其股价在盘后先涨后跌,市值一夜减少超 3000 亿美元。主要原因是对 AI 泡沫化的担忧,以及 Blackwell 产量不及预期、收入放缓等。黄仁勋透露公司在测试生产阶段未对 Blackwell 处理器进行功能更改,预计四季度批量出货该产品。年初至今,英伟达股价仍上涨 160.76%。来源: 钛媒体
净利润大涨 80%,AI 这一波,美图真的翻身了?
新闻概要:2024 年 8 月 28 日,美图发布 2024 年中期业绩,1 到 6 月收入 16.2 亿元人民币,同比增长 28.6%,经调整归母净利润 2.78 亿元,同比增涨 80.3%。7 月曾因业绩预期引发股价大涨。美图在 AI 技术加持下,推出多款产品,在国内转向 B 端用户的生产力工具,涵盖热门赛道,动作频频。但与各赛道第一梯队产品相比仍有差距。在海外,ToC 端以老产品加入 AI 功能为主,ToB 只有 Vmake 一款产品,成绩难言出彩。总体来看,美图中期业绩亮眼,未来能否在海外市场取得突破是保障收入的关键。来源: 腾讯新闻
Kimi API 功能上新:带来省钱新途径与多项更新
新闻概要:Kimi API 迎来功能上新。其中,moonshot-v1-auto 模型上线,这是一项能根据上下文占用的 Tokens 数量自动选择恰当模型的新功能,使用方式与普通模型无异,效果也无差别,计费方式依最终所选模型而定。平台功能也有多处更新,包括支持账号密码登录方式、账号手机号换绑,以及账号余额预警。此外,Kimi API 即将推出联网搜索功能,令人期待。来源: Kimi 开放平台
Freepik Mystic:Magnific AI 与 Freepik 联合打造的全高清 AI 图像生成器
新闻概要:Freepik Mystic 是 Magnific AI 和 Freepik 联合推出的先进 AI 图像生成工具。它结合 Flux 基础模型和微调技术,能够直接生成 1,664 x 2,432 分辨率的全高清图像,图像类型丰富多样,包括写实肖像、动物、风景等。其图像由顶尖艺术家策划,内部专家微调优化,能很好地遵循提示词生成符合要求的图像。目前可通过 Freepik Premium 订阅使用,未来还将登陆 Magnific AI 平台。该工具适用于数字艺术家、设计师、广告和营销专业人士、内容创作者、游戏开发者等,为他们提供高质量的图像生成服务,助力个人作品创作和商业项目开展。来源: AI工具集
谷歌发布 3 款 Gemini 实验 AI 模型,1.5 Pro 冲榜第二,1.5 Flash 排名大幅上升
新闻概要:8 月 28 日,谷歌 AI Studio 产品总监洛根·基尔帕特里克在 X 平台宣布推出 3 款 Gemini 实验性模型,分别为 Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Pro Exp-0827 主要增强编程和复杂提示词,在各方面优于 8 月初发布的实验型号,在 LMSYS 上排名第 2,仅次于 OpenAI 的 GPT-4o-latest 模型。Gemini 1.5 Flash Exp-0827 版本性能提升明显,在 LMSYS 上的排名从第 23 位升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这两个模型。来源: IT之家
智谱AI推出开源AI视频生成模型CogVideoX
新闻概要:智谱AI最新推出开源AI视频生成模型CogVideoX,其与商业产品“清影”同源。CogVideoX支持英文提示词,能生成特定参数的视频,推理需16-36GB显存,目前不支持量化推理和多卡推理,项目还包括用于视频重建的3D Causal VAE组件及丰富示例和工具。该模型具有AI文生视频、高显存需求、视频参数定制等主要功能,其技术原理涵盖文本到视频生成、3D Causal VAE等多种技术。通过自动和人工评估相结合确保生成视频质量,在多个应用场景中具有广阔前景,如创意视频制作、教育、广告、游戏、电影编辑、虚拟现实和增强现实等。来源: Meo AI导航
Anthropic 向所有 Claude 用户开放 Artifacts AI 功能
新闻概要:2024 年 8 月 28 日,AI 科技公司 Anthropic 宣布面向所有 Claude 用户开放 Artifacts 功能。Artifacts 于今年 6 月推出预览版,用户已创建数千万个。它相当于动态工作区,在用户与 Claude 对话生成文档、代码、矢量图、游戏等过程中,会出现在聊天界面旁边,方便实时查看、迭代和创建作品,还能一键点击在专用窗口展示成果。从代码片段、流程图到 SVG 图形等,Artifacts 能帮助各团队以前所未有的速度创建高质量工作产品,如开发人员绘制架构图、产品经理创建原型、设计人员构建可视化功能、营销人员设计仪表板、销售团队可视化销售管道等。来源: IT之家
OpenAI“草莓项目”最快今年秋季发布,AI圈子高度关注
新闻概要:OpenAI 的“草莓项目”新一代推理模型最快将于今年秋季发布。该项目引发业界高度关注,因其代表着人类追寻通用人工智能(AGI)的步伐又迈进了一步。推理 AI“草莓”处于实现 AGI 的第二层,能处理更复杂任务,能力更全面。其产品形式可能是 ChatGPT 升级的一部分,能解数学题、编程及回答主观问题等。“草莓模型”有多个版本,规模缩小简化版用于聊天机器人,完整版本为下一代旗舰大模型生成训练数据。不过,其推理能力提升以反应速度为代价,主要适用于对反馈速度需求不大的应用。来源: 财联社
中国 AI 芯片龙头燧原科技启动 IPO 上市辅导,腾讯持股超 20%
新闻概要:2024 年 8 月 27 日消息,中国 AI 芯片龙头企业燧原科技已完成上市辅导备案登记,正式启动科创板 IPO 上市。该公司成立于 2018 年 3 月,聚焦 AI 算力产品,已发布两代训练和推理产品,涵盖多种硬件及软件系统,拥有原始创新研发能力。公司联合创始人赵立东和张亚林履历丰富。截至目前,燧原科技融资近 70 亿元,腾讯持股超 20%。公司商业化成果显著,拥有众多客户和落地场景。过去两年收入达到科创板上市门槛,未来发展前景看好。来源: 钛媒体
智谱AI推出首个免费大模型API——GLM-4-Flash
新闻概要:智谱AI推出了首个免费大模型API——GLM-4-Flash。它不仅支持多轮对话和多语言处理,还具备网页浏览、代码执行等高级功能。该模型在速度和性能方面优势明显,提供了极具成本效益的AI解决方案。其多轮对话支持128K上下文,最大输出长度4K,能进行连贯交流;支持包括中文、英语等在内的26种语言;生成速度约为72.14 token/s,约等于115字符/s 。此外,它还能解析网页内容,具备理解和执行代码的能力,以及自定义工具调用功能。在使用上,需注册认证、获取API Key、准备环境、编写代码并进行调用。其应用场景广泛,涵盖聊天机器人、内容创作、语言翻译、教育辅助、编程辅助等领域。来源: Meo AI导航
独家 | 字节成立大模型研究院,疯狂氪金 AI 人才
新闻概要:据独家消息,字节跳动正在秘密筹备成立大模型研究院,并积极从外部重金招揽人才。原序智科技创始人秦禹嘉、原零一万物核心成员黄文灏已加入字节大模型团队,目前暂不清楚是否归属在大模型研究院。字节从去年开始陆续公布大模型相关工作进展,2023 年 8 月自研底层大模型「云雀」上线并推出 AI 对话产品「豆包」,同年 11 月成立专注于 AI 应用层面研究和开发的 Flow 项目。2023 年 12 月底,海外产品 Coze 上线,2024 年初其国内版“扣子”也正式上线。过去字节大模型团队人才多来自内部业务线,如今大模型研究院人才方法论不同以往。来源: 腾讯新闻
虹软科技披露半年报:PSAI产品正拓展国际市场 经营现金流量净额同比降130.82%
新闻概要:2024 年 8 月 26 日晚间,虹软科技披露半年报。今年上半年,其营业收入 3.81 亿元,同比增长 11.97%;归母净利润 6145.89 万元,同比增长 22.82%;扣非净利润 5379.43 万元,同比增长 21.7%。单季度方面,二季度归母净利润 2729 万元,同比增长 24.9%,环比下降 20.13%。公司营收、净利润增长得益于移动智能终端和智能驾驶等业务增长及利息收入增加。PSAI 产品相关算法通过备案,正拓展国内主流电商平台合作,并迈向国际电商平台市场。研发投入方面,上半年研发费用 1.94 亿元,占营业收入 50.93%。不过,经营活动产生的现金流量净额为-6284.63 万元,较上年同期减少 130.82%,原因是部分客户上年度提前支付销售款致本期销售款收回减少。来源: 财联社
xAI Grok-2 强势崛起,跻身聊天机器人排行榜第二名紧追 GPT-4
新闻概要:据品玩 8 月 26 日讯,大模型排行榜 lmsys 官方消息称,xAI 的聊天机器人 Grok-2 已成功挤进聊天机器人排行榜第二名,紧追 ChatGPT 4。在 6000 份社区投票中,Grok-2 表现出色,超越了 GPT-4(5 月),与最新的 Gemini 并列。Grok-2-mini 也取得了排名第五的好成绩。Grok-2 在数学方面排名第一,在硬提示、编码、遵循指令等各方面均排名第二,展现出强大的实力。来源: 品玩
一句话生成《黑神话:悟空》3D资产,胡渊鸣创业项目Meshy上新,免费试用
新闻概要:胡渊鸣创业项目 Meshy 迎来新进展,其最新的 Meshy-4 版本能够为用户提供更出色的 3D 生成能力。该版本在几何网格质量、文本到 3D 工作流、重试功能以及模型选择等方面均有显著改进和创新。例如,生成的 3D 模型具有更干净、充满细节的几何网格,新的文本到 3D 工作流将建模和纹理阶段分离,方便用户控制生成结果。此外,还增加了重试功能,不过仅限订阅用户使用。Meshy 团队成员来自全球知名机构,他们希望此工具成为增强创造力的工具,而非完全取代艺术家和设计师。来源: 机器之心
亚马逊 CEO 安迪・贾西:AI 助手 Amazon Q 大幅提升开发效率,节省约 4500 个开发人员一年工作量
新闻概要:2024 年 8 月 24 日消息,亚马逊 CEO 安迪・贾西称,将生成式 AI 开发助手“Amazon Q”集成到内部系统后,其代码转换功能显著缩短了应用程序升级到 Java 17 的时间,从开发人员的 50 天左右缩短至几个小时,估计节省了约 4500 个开发人员一年的工作量。软件开发团队中,更新基础软件的任务乏味但关键,Amazon Q 为其带来了曙光。去年 11 月 29 日推出的 Amazon Q 是新型聊天机器人和生成式 AI 辅助服务,可帮助员工利用公司数据和专业知识解决问题、生成内容等,并能根据企业客户业务定制,还能分析现有代码、提出修改建议并实施修改。来源: IT之家
快手可灵 AI 推出会员订阅计划:支持 AI 图片/视频,首月 19 元起
新闻概要:2024 年 8 月 23 日消息,快手可灵 AI 推出会员订阅计划,连续包月首月最低价 19 元、次月 58 元,可生成一定数量的视频或图片,并享受多项会员专属功能。同时,针对 B 端同步开启 OpenAPI 企业用户招募。快手刚发布的二季度财报显示,可灵 AI 已有超百万用户,累计生成超千万视频。快手联合创始人程一笑表示未来将升级可灵大模型并实现商业化变现,该模型为快手 AI 团队自研,采用类似 Sora 的技术路线。来源: IT之家
AI 搜索初创公司 Perplexity 计划四季度投放广告
新闻概要:人工智能搜索初创公司 Perplexity AI 于 8 月 23 日宣布计划于第四季度在其搜索应用程序上投放广告。该公司将采用 CPM(每千次展示成本)模式,价格超 50 美元,远超桌面展示广告和移动视频的通常 CPM。其主要广告类别最初包括科技、健康和制药、艺术和娱乐、金融、食品和饮料等主题。Perplexity 成立于 2022 年,定位为 AI 搜索引擎公司,是用户增长最快的生成式 AI 应用之一,近期完成 2.5 亿美元新融资,估值从 4 月的 10 亿美元增至 30 亿美元。但随着其受欢迎程度提升,数据收集技术引发争议,公司对引用来源方式进行了修改,上个月还推出收入分享模式,与多家媒体签订合作协议。来源: 财联社
微软 Azure AI 语音服务推出支持文本转视频的虚拟人形象
新闻概要:2024 年 8 月 23 日消息,微软 Azure AI 语音服务最新推出了文本到语音虚拟人功能。该服务允许开发者构建多语言生成式 AI 语音应用,能将简单文本转换为人类自然说话视频,输出视频分辨率为 1920 x 1080,每秒 25 帧。Text to Speech Avatar 具有多种功能,包括自然声音的文本转语音视频转换、提供不同人物预设形象、声音由 Azure AI 文本转语音生成、使用批量合成 API 异步或实时合成视频、在 Speech Studio 中提供无需编码的内容创建工具,还能通过实时聊天头像工具启用实时人像对话。定价按视频输出长度计算并按秒收费,目前已在部分地区推出。来源: IT之家
李彦宏披露大模型成绩单:日均调用量超 6 亿次,18%搜索结果由 AI 生成
新闻概要:8 月 22 日晚间,百度创始人李彦宏在财报后的电话会议上公布一系列 AI 大模型相关数据。文心大模型日均调用量超 6 亿次,日均处理 Tokens 文本约 1 万亿,半年增长超 10 倍。百度核心业务搜索中 18%搜索结果由 AI 生成,智能体日均分发超 800 百万次。AI 带动百度云业务增长,非美国会计准则下智能云持续盈利。本季度百度总营收 339 亿元,净利润 55 亿元。此外,自动驾驶、移动生态等业务也有新进展。来源: 第一财经
独家|抖音再战搜索,推出第4款搜索APP
新闻概要:Tech星球独家获悉,抖音于近期推出第4款搜索类独立APP“抖音搜索”。该APP主要展示博主创作的短视频、图文等内容,用户通过搜索栏输入关键词或句子可获取综合频道下的相关内容,还细分有视频、图文经验、商品等搜索频道。但目前其短视频搜索精准度有待提高,存在一些不足。抖音在搜索业务上发展曲折,此前推出的三款搜索APP均已关闭下架。此次推出的抖音搜索走短视频、图文内容搜索生态路线,能否破局仍待观察。来源: 36氪
腾讯会议上线 17 种语言实时翻译功能
新闻概要:2024 年 8 月 22 日,腾讯会议迎来重要升级,上线了 17 种语言的实时翻译功能。该功能基于腾讯混元大模型和腾讯翻译,支持将声源语言翻译为中文、英语、日语、韩语等 17 种语言。腾讯会议企业版、商业版用户在会议中的字幕、实时转写以及会议后的录制页中均可使用这一功能。此功能有助于与会者在跨国协作中更准确地理解会议内容,推动远程工作顺利开展,为跨语言交流提供了极大便利。来源: 量子位
《Top 100 Gen AI 消费者应用程序的最新洞察》
新闻概要:本文介绍了每半年更新一次的Top 100 Gen AI消费者应用程序的最新情况。创意工具在吸引消费者方面表现出色,52%的网络公司专注于此,且多种模态发展迅速。ChatGPT在网络和移动领域仍占据领先,但竞争对手增多,如Perplexity和Anthropic的Claude。Bytedance积极进军AI产品领域,多款应用上榜。新类别美学和约会应用出现。此外,Discord流量常是应用排名上升的领先指标。可见AI原生产品和公司发展迅速,未来十年AI有望支撑起定义类别的公司。来源: a16z
豆包大模型综合能力提升 20.3%,火山引擎成立零售大模型生态联盟,加速企业 AI 落地
新闻概要:2024 年 8 月 21 日,火山引擎 AI 创新巡展在上海举办。会上,豆包大模型的综合能力相比三个月前提升 20.3%,多个垂类模型也有大幅升级。此外,火山引擎携手多点 DMALL 成立零售大模型生态联盟,汽车大模型生态联盟持续壮大。火山引擎还发布对话式 AI 实时交互解决方案,宣布举办 AI 创造者大赛。同时,火山引擎公布一系列产品升级,包括全周期安全可信方案、联网和内容插件能力升级等,以帮助企业更便捷地落地大模型。来源: 火山引擎
IDC 首次发布大模型平台及应用市场份额报告,百度、商汤、智谱前三
新闻概要:2024 年 8 月 21 日,IDC 首次发布《中国大模型平台市场份额,2023:大模型元年 —— 初局》。报告指出 2023 年中国大模型平台及相关应用市场规模达 17.65 亿元人民币。过去一年,行业对大模型多为早期投入或观望。市场格局主要由百度、商汤、智谱、百川等早期投入者构成。2024 年头部互联网公司加大投入并发起价格战,给初创企业带来竞争压力,未来 2—3 年市场格局将多变。其中,百度智能云以 3.5 亿元位居第一,商汤科技位居第二,智谱 AI 位居第三。报告还提到大模型的现状与未来发展面临的挑战。来源: IT之家
Midjourney网页版全面开放,每人25次免费试用机会
Midjourney 网页版现在对所有人开放了,每位新用户提供 Midjourney 最先进模型V 6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。来源: Meo AI导航
星尘智能发布 AI 机器人助理 Astribot S1,功能多样引关注
新闻概要:2024 年 8 月 21 日消息,星尘智能于 8 月 19 日发布 AI 机器人助理 Astribot S1。该机器人采用刚柔耦合传动机构,自主研发关键零部件,搭载软硬件一体化系统架构。它支持泡茶、做饭、弹琴、练咏春拳等,还能 VR 遥控。如能完成舀面糊、合盖、旋钮、巧力翻锅等做饭操作,能自主泡功夫茶并实时调整力控,还掌握弹琴节奏和精准力。发售信息暂未公布,星尘智能由创始人兼 CEO 来杰于 2022 年底在深圳创立,核心 6 人团队出自腾讯 RobticsX 实验室,来杰拥有丰富机器人研发经验。本月初,星尘智能完成数千万美元 Pre-A 轮融资。来源: IT之家
谷歌开放 HeAR AI 模型 API:用 1 亿条咳嗽声训练辅助肺结核诊治
新闻概要:8 月 19 日,谷歌公司宣布通过 Google Cloud API 向研究人员开放健康声学表征(HeAR)AI 模型。该模型在各项任务中表现出色,尤其在捕捉健康相关声学数据的有意义模式方面能力卓越。谷歌研究团队利用 3 亿条音频数据,其中约 1 亿条咳嗽声对其进行训练。HeAR 应用领域广泛,例如印度的呼吸保健公司正探索用其增强现有模型以早期检测肺结核。此模型能在不同麦克风和环境中通用,可对多种呼吸系统疾病进行低成本、无障碍筛查,有助于全球医疗界开发创新解决方案,推动声学健康研究进步。来源: IT之家
OpenAI 开放 GPT-4o 定制功能,助力企业打造专属 AI 助手
新闻概要:2024 年 8 月 21 日消息,OpenAI 推出新功能,允许企业客户使用自身数据定制其最强大的 AI 模型 GPT-4o。所谓定制即“微调”,可针对特定任务或领域优化现有 AI 模型。此前,OpenAI 仅允许用户微调较小模型,此次开放 GPT-4o 和 GPT-4 的微调功能,使企业能更直接优化最强模型,操作流程得以简化。企业需将数据上传至 OpenAI 服务器微调,平均耗时一到两小时,目前仅支持基于文本的数据。来源: IT之家
售价 4299 元起!PICO 发布“中国版 Vision Pro”,搭载的 AI 芯片性能暴增 800%
新闻概要:8 月 20 日下午,字节跳动旗下 XR 平台 PICO 推出首款 MR 混合现实一体机 PICO 4 Ultra。该设备搭载全新高通骁龙 XR2 Gen2 计算平台,AI 性能大幅提升,价格 4299 元起。PICO 成立于 2015 年,2021 年被字节跳动收购。目前,PICO 设备在国内电商销售额排名第一,其应用商店的应用数量超 900 款。行业正从 VR 向 MR 发展,PICO 也在不断探索,强化交互能力,提升用户体验。来源: 钛媒体
iPad 上最强绘画应用 Procreate 宣布拒绝生成式 AI
新闻概要:当地时间 8 月 19 日,iPad 上最受欢迎的绘图应用 Procreate 的 CEO James Cuda 承诺永远不使用生成式 AI 技术。Procreate 自 2011 年上线,成绩斐然。此决策获大部分用户支持,认为这是为艺术家服务。当前,AI 给艺术创作者带来巨大冲击,多家公司在 AI 应用上出现问题。Procreate 虽拒绝生成式 AI,但表示会使用相对“传统”的机器学习技术。公司团队仅 40 人,年营收三千万美元,运营基于现金流,且投资人仅为 Cuda 及其太太,使其能自主决策。来源: 爱范儿
EliseAI 跻身纽约独角兽行列:D 轮融资 7500 万美元、估值超 10 亿美元
新闻概要:2024 年 8 月 20 日消息,房产科技公司 EliseAI 近日成功完成 7500 万美元 D 轮融资,由 Sapphire Ventures 领投,估值超 10 亿美元,成为纽约新独角兽。EliseAI 成立于 2017 年,其开发的 AI 驱动房产管理工具已覆盖全美 70%的租赁房产管理商及业主,可自动处理约 90%的租户沟通工作,年度经常性收入增长超 2.5 倍。此外,EliseAI 还将 AI 技术引入医疗管理领域,推出的 HealthAI 产品可自动处理非临床任务。EliseAI 的成功展现出 AI 变革传统行业的巨大潜力。来源: 智东西
Luma v1.5 版本发布:更快、更真、更清晰
新闻概要:据品玩 8 月 20 日讯,Luma AI 官方近日发布了 v1.5 版本。该版本在视频生成方面取得显著进步,不仅提升了视频质量,还缩短了生成时间。用户能在更短时间内获得更高质量的视频作品,增强的运动效果让视频中的动作更流畅逼真,符合物理规律,带来更沉浸的观看体验。此外,Luma v1.5 对文本的理解能力深度加强,能更准确地捕捉文本语义,生成与文本内容高度一致的视频画面。来源: 品玩
速递|刚刚!AMD 宣布 49 亿美元收购服务器制造商 ZT Systems 以挑战英伟达
新闻概要:周一,AMD 宣布以 75%现金和 25%股票交易方式,斥资 49 亿美元收购服务器制造商 ZT Systems。ZT Systems 过去 12 个月收入超 100 亿美元,收购后将成为 AMD 数据中心解决方案业务集团的一部分。AMD 过去 12 个月毛利率较高,此次收购或出于避免竞争、维持毛利率及人才收购等考虑。AMD CEO 苏姿丰称,收购将助公司最大客户更快部署 AI 基础设施。AMD 是第二大图形处理器供应商,今年 7 月还收购了 Silo AI,预计新的 MI 系列加速器芯片将带来超 45 亿美元新收入。分析师预计 Nvidia 本财年在数据中心将创造 1000 亿美元收入。来源: 有新Newin
通义千问推出多项新功能与优化
新闻概要:通义千问带来众多新变化。网页版对话新增深度搜索功能,支持更多内容源索引,搜索结果更深度、专业和结构化,数字角标悬浮显示来源网页。在 App 方面,图片微动效支持多尺寸图片,用户上传一张图片即可生成匹配的音效及微动视频效果;自定义唱演新增支持 3:4 画幅,音频上传时长由 120 秒提高到 300 秒。此外,还提及了如 App 中的一些图片展示和相关操作等内容。这些更新和改进旨在为用户提供更优质、便捷和丰富的体验。来源: 通义千问
昆仑万维推出全球首个 AI 短剧创作平台 SkyReels
新闻概要:昆仑万维打造的全球首个 AI 短剧创作平台 SkyReels 引起广泛关注。该平台集成了 AI 视频生成和 3D 大模型技术,提供从剧本生成、角色定制、分镜设计到视频合成的全流程服务。它能够自动将内容转换为 1080P 60 帧的高清视频,单次生成视频长度可达 180 秒,还能自动推荐背景音乐和音效并一键添加。用户使用时,先访问官网申请内测,然后输入概念等操作,最终可一键导出并分享至社交媒体。SkyReels 应用场景广泛,涵盖个人创作、教育培训、广告宣传、社交媒体内容、游戏开发等领域,极大地简化了创作过程,推动 AI 创作进入“一人一剧”时代。来源: Meo AI导航
全新的星火极速超拟人交互重磅来袭!
新闻概要:科大讯飞的星火语音大模型迎来全新的星火极速超拟人交互更新。此次更新亮点众多,包括更快响应,采用统一神经网络实现语音到语音的端到端建模,极速响应且能自由打断,流畅度升级,即便频繁打断也能迅速反应;更懂情绪,能敏锐感知交流中的情绪,甚至识别咳嗽、小动物叫声等,针对多种情绪进行识别并贴心回复;更加灵活,情感表达随心可控,能跟随指令控制数十种情感、风格、方言及语速;更加百变,可模仿多种角色的音色、语气和人设进行聊天。星火极速超拟人交互计划于 8 月 30 日上线讯飞星火 APP 全民开放体验。来源: 科大讯飞
OpenAI 关闭 SearchGPT 候补名单,10000 名用户开启测试
新闻概要:据品玩 8 月 19 日报道,OpenAI 宣布关闭其新产品 SearchGPT 的候选名单,并针对 10000 名用户开始测试。在初始阶段,有限的用户数量有助于避免搜索机器人提供错误建议。SearchGPT 具备强大功能,能让用户以自然语言提问,获得详细且易懂的答案,如同与专家交流。系统可保持对话上下文,理解复杂查询,甚至自行澄清细节,为用户带来更优质、准确的服务体验。来源: 品玩
免费AI学术搜索引擎Lumina,号称搜索结果相关性比谷歌学术高5倍
新闻概要:Lumina 是一款全新的完全免费的 AI 学术搜索引擎,具有众多强大功能。它的搜索结果相关性平均比谷歌学术高出 5 倍,支持超 1 亿研究对象搜索。Lumina 提供快速搜索响应,能在极短时间内给出高度相关的文献搜索结果。用户还可一键筛选 PDF 格式论文,通过多维度过滤选项,如年份、引用次数、出版类型和具体期刊等,精准获取所需内容。此外,其具备的 AI 概述功能能帮助用户快速把握论文核心。Lumina 支持 24 种语言,适用人群广泛,包括研究人员、学者教授、学生和图书馆员等,能有效提升学术研究的效率和深度。来源:Meo AI导航
《谷歌前CEO在被下架视频中吐露真言》
新闻概要:谷歌前CEO施密特在斯坦福的分享视频被下架,但其分享内容引起广泛关注。施密特直言谷歌在AI领域被OpenAI压制,原因在于对员工工作要求不够严苛。他还谈到英伟达的CUDA从被看衰到成为其优势,微软与OpenAI合作的意外成功,苹果在AI上的温吞等。此外,施密特提及AI发展的诸多问题,如开源在AI行业的困境、模型差距拉大及所需的巨额资金和电力资源、AI对就业和生产力的影响、虚假信息的传播等。同时,他也对AI未来的技术发展和竞争态势进行了分析和预测。来源: 极客公园
稚晖君一口气发布5款人形机器人!开发者还能“0元购”
新闻概要:2024年8月18日,稚晖君携智元机器人举办发布会,一口气发布5款人形机器人。其中包括面向量产改进的远征A2系列,有适用于不同场景的三款机器人,在动力、感知、通信、控制等技术细节上均有升级。还提出具身智能G1至G5的演进路线。此外,灵犀X1系列主打“人形机器人人人造”,价格为0元,相关设计图纸等将开源。智元机器人成立于2023年2月,已完成多轮融资,今年预估发货量约300台。来源: 量子位
终于来了!中国首个接入大模型的Linux开源操作系统正式发布!
新闻概要:2024 年 8 月 15 日,知名开源社区 deepin(深度)社区正式发布开源操作系统 Linux 发行版 deepin V23。该系统历时三年研发,历经 9 个版本迭代和 51 次内测,进行了 200 余个产品优化和新增功能,深度融合 AI 能力。它在应用层支持多种操作系统设置能力和使用场景,在芯片层支持主流 CPU 和 GPU 芯片,大模型层开放接口,支持接入 90%主流开源大模型。此外,WPS Office For Linux 个人版将于 8 月下旬上线,多款应用已接入 UOS AI 生态,还支持技术程序员的相关需求。同时,银河麒麟 AI 操作系统也于近日发布。来源:夕小瑶科技说
Runway 发布 Gen-3 Alpha Turbo:AI 视频生成速度大幅提升
新闻概要:据品玩 8 月 16 日消息,Runway 正式推出最新 AI 视频生成模型 Gen-3 Alpha Turbo。与此前发布的 Gen-3 Alpha 相比,Turbo 生成速度提高 7 倍,价格仅为原版的一半,在许多用例中性能相当,且适用于所有用户,包括免费用户的试用版。这一创新成果将极大提升用户的使用体验和工作效率,有望在 AI 视频生成领域引发新的变革和竞争。来源: 品玩
秘塔AI搜索收到知网28页侵权告知函
新闻概要:昨日,秘塔AI搜索收到知网长达28页的侵权告知函。知网指出秘塔AI搜索未经许可向用户提供其学术文献题录及摘要数据,且数量巨大,要求秘塔立即断开搜索结果到知网网站的链接。秘塔AI搜索的“学术”版块仅收录论文的文献摘要和题录,未收录文章内容本身。秘塔AI搜索表示尊重知网的选择,即日起不再收录知网文献的题录及摘要数据,将转而收录其他中英文权威知识库的文献题录及摘要数据,并欢迎其他数据库合作探讨。知识的价值在于流动,学术文献的合理传播至关重要。来源: 秘塔AI
微信、蚂蚁或将涉足 AI 应用商店
新闻概要:据品玩 8 月 16 日报道,微信的云开发团队正在打造“云开发 AI 智能体”应用平台,是多平台 AI 智能体开发框架,用户能 0 代码开发专属个性化智能助手产品。蚂蚁集团也在开发 AI 应用搭建工具“芝士饼”,开发者为蚂蚁云通(上海)信息技术有限公司,该公司由蚂蚁集团 100%控股,用户通过此平台可无代码搭建 AI 应用,并支持创作成支付宝小程序等多种产品形态。今年以来,AI 智能体应用开发平台成为全球 AI 平台新赛道,1 月 OpenAI 推出 GPT Store 平台,降低了 AI 智能体应用开发和使用门槛,标志着“AI 应用商店”时代到来。来源: 品玩
力压 DALL-E 3 等顶级模型,谷歌开放 Imagen 3 文生图 AI 访问
新闻概要:8 月 16 日消息,谷歌已向美国用户正式开放最新文生图 AI 模型 Imagen 3,用户可通过 AI Test Kitchen 体验。该模型于今年 5 月在 I / O 开发者大会上宣布,6 月邀请部分 Vertex AI 用户测试。谷歌人工智能研究部门 DeepMind 负责人称,Imagen 3 能更准确理解文字提示并转化为图像,更具创造性和细节,干扰元素和错误更少。在谷歌的评估中,其表现优于 Imagen 2、DALL-E 3 等模型。文中还附上了网友分享的对比图。来源: IT之家
百度文库“橙篇”App 正式上线,功能强大引关注
新闻概要:2024 年 8 月 15 日消息,百度文库于 5 月 30 日发布的 AI 原生应用“橙篇”App 今日在各大安卓平台上线。该 App 版本号为 1.0.02,安装包体积 40.72MB。它不仅支持智能全网搜索、AI 今日热点等功能,还具备多图一键成片、超长文章写作、文件理解总结等生成式大模型功能,且有对话能力,支持文字和语音输入自由对话。此外,6 月时其宣布行业首创 10 万字长文生成及多模态编辑能力,成为“查阅创编”一站式 AI 自由创作平台。目前,智能 PPT、AI 思维导图等多模态 AI 功能正在上线中。来源: IT之家
速递|NEA 领投李飞飞 World Labs 新一轮 1 亿美元融资!估值已超 10 亿美元
新闻概要:李飞飞创立的 World Labs 公司获得了新一轮大额融资。此前,该公司在短短两个月内完成两轮融资,吸引了包括 a16z、AI 基金 Radical Ventures 等顶级科技投资者,估值超 10 亿美元。最新一轮由 NEA 领投,最早《金融时报》在 7 月份报道了这笔超 1 亿美元的投资。今年 1 月,李飞飞离开斯坦福大学休假,并担任 World Labs 科学合伙人。World Labs 是继 OpenAI 发布 ChatGPT 后最新获大额投资的 AI 初创公司。目前,该公司正努力建立能准确估计现实世界物体和环境三维物理特性的 AI 模型,以实现详细数字复制,减少大量数据收集。由于收集三维数据成本高,如自动驾驶汽车公司需行驶数千英里收集,而在其他应用中此类数据也十分稀少。来源: 有新Newin
苹果计划于 2026 年推出搭载 AI 系统的桌面机器人
新闻概要:据品玩 8 月 15 日报道,苹果有望在 2026 年推出一款售价约 1000 美元的桌面机器人产品。该设备将配备类似 iPad 的大型显示屏,安装在机械臂上,能实现上下左右倾斜和 360 度旋转。其用途广泛,可用作“智能家居指挥中心”、视频会议设备及家庭安全监控工具。此桌面机器人将搭载 Siri 和 Apple Intelligence,能够响应一系列口头命令,识别不同声音,并自动调整显示屏方向面向房间里的用户。目前,苹果公司期望在 2026 年或 2027 年推出该设备,并努力将价格控制在 1000 美元左右。这一创新产品的推出将为用户带来全新的体验和便利,也展示了苹果在智能设备领域的持续探索和创新。来源: 品玩
蚂蚁进军 AI 企业服务市场,成立“数字蚂力”新公司
新闻概要:2024 年 8 月 14 日,蚂蚁集团在北京成立新公司“数字蚂力”,发力 AI to B 市场。数字蚂力总部位于海淀区的蚂蚁 T 空间,将依托首都科技和人才优势加大科技创新投入。该公司是蚂蚁集团探索人工智能落地产业的重要商业实践,在服务自身业务中沉淀了成熟的人机融合 AI 应用实践,具备丰富经验和方案体系。数字蚂力为企业提供智能客服与营销、智能运营、智能技术三类服务,能帮助企业降本增效。如在智能客服方面,可大幅缩短招聘周期,提升服务弹性调度;在智能技术服务方面,能应对企业经营系统升级转型需求。随着技术优化,AI 成为驱动企业服务新模式的重要工具,数字蚂力旨在解决企业经营流程中便捷使用 AI 的需求痛点,其产品家族将在 9 月的外滩大会亮相。来源: 量子位
OpenAI 的 chatgpt-4o-latest 模型力压谷歌 Gemini 1.5 Pro 重夺第一
新闻概要:2024 年 8 月 14 日消息,谷歌上周发布的最强 Gemini 1.5 Pro 模型在 LMSYS 的聊天机器人竞技场比赛中取得第一名。然而,OpenAI 迅速“找回场子”,于昨日发布的名为 chatgpt-4o-latest 的全新前沿模型重夺第一。该模型是 GPT-4o 的最新版本,上下文窗口输入最高 128000 个词元,输出最高 16384 个词元。Chatbot Arena 由伯克利大学主导团队 LMSYS Org 发布,是一个针对大语言模型的基准平台,采用匿名、随机方式让不同大模型产品对抗评测,基于埃洛等级分系统,由用户投票判定积分并形成排行榜。此次 OpenAI 凭借新模型以 1314 分的最高分重回榜首,且新版 ChatGPT-4o 在编码、指令遵循和硬提示等方面都有显著提高,在多项成绩中位列第一。来源: IT之家
ChatGPT 低调更新,已使用最新版本 GPT-4o 模型
新闻概要:据品玩 8 月 14 日讯,ChatGPT 已于上周低调更新,采用了最新版本的 GPT-4o 模型。该版本是 OpenAI 基于用户反馈进行更新的成果。新模型展现出能够更细致地分步推理,并能给出更为详尽解释的能力。OpenAI 的一位发言人指出,模型的推理过程未发生改变,ChatGPT 在描述推理时主要是响应了用户的特定提示。在正式公告前,众多用户就察觉到 ChatGPT 的表现似乎有所提升。此外,OpenAI 还表示,他们正在积极探寻更优的方式来衡量和传达模型在行为方面的改进。这一更新显示出 OpenAI 对提升用户体验和优化模型性能的持续努力。来源: 品玩
xAI 公司推出新一代 AI 模型 Grok-2,性能卓越应用广泛
新闻概要:xAI 公司重磅推出新一代 AI 模型 Grok-2,它具备显著的性能提升,在聊天、编程和推理等方面展现出前沿能力。在学术基准测试中,Grok-2 在多个领域,如 GPQA、MMLU、MMLU-Pro 和 MATH 等表现出色,超越了前代 Grok-1.5,与行业顶尖模型相媲美。在视觉任务 MathVista 和 DocVQA 上,Grok-2 也处于行业领先水平。此外,Grok-2 能够整合 𝕏 平台的实时信息,提供更丰富的用户体验。其将通过新的企业 API 平台向开发者推出,支持全球多区域低延迟访问。Grok-2 不仅有多种强大的功能特色,还拥有广泛的应用场景,包括高级聊天机器人、编程辅助、学术研究、教育辅导以及企业决策等。用户可根据需求选择 Grok-2 或 Grok-2 mini 模型,并通过熟悉其用户界面来提出问题或任务。来源:Meo AI导航
昆仑万维推出全球首款 AI 流媒体音乐 APP – Melodio
新闻概要:2024 年 8 月 14 日,昆仑万维推出全球首款 AI 流媒体音乐 APP – Melodio。该应用根据用户输入的提示实时生成个性化音乐,支持中文等多种语言,提供无限流式播放,用户可随时修改提示以享受无缝音乐体验,还具备歌词查询、音乐保存和分享等功能。Melodio 的主要功能包括 AI 音乐生成,用户输入特定提示、场景描述或心情,AI 就能生成相应风格的音乐;多语言支持,能生成多种语言的音乐且发音清晰;无限流式播放,让用户持续享受不间断的音乐;实时音乐定制,播放中可随时修改提示改变音乐风格和情绪;歌词查询和显示,可查看生成音乐的歌词增加听歌体验。其使用方式简便,通过产品官网 melodio.ai 或 App Store 应用商店获取,输入描述心情或场景的提示即可生成音乐,还能实时修改、查看歌词和保存喜欢的音乐。Melodio 适用于音乐爱好者、创作者和艺术家、健身爱好者以及情绪调节者等人群。这款 APP 的发布不仅降低了音乐创作门槛,也为全球音乐爱好者带来全新音乐体验。来源:Meo AI导航
快手推出 AI 对话助手飞船 Kraft,功能强大应用场景广泛
新闻概要:2024 年 8 月 14 日消息,快手推出了一款名为飞船 Kraft 的 AI 对话助手。它提供个性化的对话体验,用户既能与官方助手“领航员”交流,也能自定义 AI 角色进行互动。飞船 Kraft 具有众多实用功能,包括自然语言对话,能让用户与 AI 助手流畅交流获取信息和灵感;个性化虚拟角色,用户可创建或选择预设角色享受定制化互动;内容创作辅助,通过实用的应用指令助力内容创作和知识解答;高度定制化,支持自定义 AI 智能体的名称、人设、头像和声音;语音交互,支持文字和语音输入,提供多音色选择,让交互更自然。其应用场景也十分丰富,在信息查询方面,可提供天气、新闻、百科知识等即时信息;作为日常助手,能帮助设置提醒、管理日程和搜索信息以提高生活效率;在学习辅助上,能提供语言学习和专业知识解答;还能在内容创作方面激发创意思维,辅助构思写作和设计等创作活动。用户可通过访问官网 spaceshipapp.cn 下载该 APP,注册登录后选择或创建助手,并进行个性化设置,然后即可开始对话。来源: Meo AI导航
谷歌推出 AI 图像生成应用 Pixel Studio,为创作带来新可能
新闻概要:2024 年 8 月 14 日消息,谷歌推出了一款名为 Pixel Studio 的 AI 图像生成应用。该应用专为 Pixel 9 系列手机预装设计,基于 Imagen 3 模型,结合 Tensor G4 芯片,具备强大的功能。Pixel Studio 擅长快速生成艺术风格图片,比如不到 2 秒就能创作出小猫图像。它提供本地和云端两种生成方式,用户可根据需求选择。在功能方面,用户通过输入提示词就能使用 AI 技术生成艺术风格图片;其写实风格效果一般,但在艺术风格图片生成上表现出色。此外,还具备 Gemini overlay 功能,方便用户将生成的图片直接分享到邮件或聊天中。Pixel Studio 适用于艺术爱好者、设计师、社交媒体用户以及专业创作者等人群,为他们的创作和分享提供便利。来源:Meo AI导航
谷歌推出多模态 AI 语音助手 Gemini Live
新闻概要:谷歌推出了一款名为 Gemini Live 的多模态 AI 语音助手。它具有强大的功能,包括自然语言理解、多模态识别能力,支持图像、视频和语音交互。用户能够通过语音指令实现日常任务自动化,如邮件管理、日程安排等。Gemini Live 提供了 10 种语音选择,满足用户的个性化需求。它还能与谷歌的原生应用深度集成,提高用户使用效率。用户可以通过长按手机电源键或说唤醒词“Hey Google”来激活,然后进行自然语言对话,并进行个性化设置。此外,Gemini Live 适用于商务专业人士、技术探索者、多语言用户、创意人士和老年人等不同人群。未来,它还将扩展至 iOS 系统,并增加更多语言的支持,为用户提供更加自然、智能的交互体验。来源:Meo AI导航
谷歌向苹果三星开火!深夜甩出四款AI手机,安卓全面AI化
新闻概要:2023 年 8 月 14 日凌晨,在第九届 Made by Google 活动上,AI 成为谷歌硬件全家桶亮相的关键词,被提及近百次。谷歌将 Gemini 无缝集成到折叠屏手机、智能手表、TWS 耳机等硬件中,使其安卓成为首个配备大型设备内置多模态 AI 模型的移动操作系统。谷歌此次发布了四款 AI 手机,包括 Pixel 9、两种尺寸的 Pro 机型 Pixel 9 Pro、Pixel 9 Pro XL 以及折叠屏手机 Pixel 9 Pro Fold,还对相机、应用等功能进行了大幅升级。此外,Pixel Watch 3 具备自动检测睡眠等新功能,首创脉搏丢失检测功能。Pixel Buds Pro 2 首搭 Tensor A1 芯片,降噪效果出色,用户佩戴可无需手机与 Gemini 交谈。随着谷歌入局,AI 手机大战的火药味越来越足。目前谷歌 Pixel 手机在美国市场份额约为 4.6%,AI 带给其的变量价值尚无定论。来源: 智东西
斥资 6.65 亿美元,AMD 完成收购欧洲最大私人 AI 实验室 Silo AI
新闻概要:2024 年 8 月 13 日消息,AMD 已完成对欧洲最大私人 AI 实验室 Silo AI 的收购,交易金额约 6.65 亿美元,约合 47.73 亿元人民币,采用全现金支付。Silo AI 的科学家和工程师正式加入 AMD 大家庭。AMD 对 AI 领域高度重视,此次收购是其战略布局的重要一步,旨在强化在 AI 及相关技术领域的领导地位。与谷歌、Meta、苹果等科技巨头相比,AMD 在 AI 领域投入相对较晚。AMD 加速计算事业部高级副总裁 Vamsi Boppana 称,AI 是首要战略目标,将加大对人才和软件能力的投入。Silo AI 客户众多,包括安联保险、飞利浦、劳斯莱斯和联合利华等行业巨头。此次收购不仅确保 Silo AI 继续使用 AMD 芯片和技术,还将助力 AMD 推进开源生成式 AI 训练和应用软件的开发。来源: IT之家
换掉 Transformer,7B 开源模型 Falcon Mamba 登顶,处理任意长序列
新闻概要:阿联酋阿布扎比技术创新研究所(TII)带来的 Falcon Mamba 7B 模型,采用 Mamba 状态空间语言模型架构,换掉了 Transformer 架构,取消了传统注意力机制。这一创新有效提升了模型处理长序列时的计算效率,解决了长序列处理中计算效率低下的问题。它能处理无限长序列且内存需求不增加,生成每个 token 的时间基本不受上下文长度影响。该模型性能全方位超越一众开源模型,如 Llama-3.1(8B)、Mistral(7B)以及 Falcon-2(11B)。Falcon Mamba 基于第一代 Mamba,结合了 RNN 和 CNN 的特点,设计了硬件感知的并行算法,简化了架构,并使用了额外的 RMS 标准化层,以确保大规模训练稳定。模型用 5500GT 数据训练,支持多种 Hugging Face API,还推出指令调优版本提高准确性。来源: 量子位
苹果被曝正开发 AI 智能眼镜,便宜版 Vision Pro 或将明年推出
新闻概要:据报道,苹果 Vision Pro 已开售半年,尽管其空间计算能力和沉浸式体验出色,但因价格过高,销量和口碑高开低走。目前,苹果 Vision 团队未受影响,仍在多管齐下开发新产品。其中,平价版 Vision Pro 最早可能明年推出,它保留了高分辨率显示屏及部分互动方式,重量减轻,价格为现有 Vision Pro 的一半。此外,苹果还在开发第二代 Apple Vision Pro,或于 2026 年发布。同时,苹果团队还在试验类似 Meta 与雷朋合作款的无显示屏智能眼镜,用户通过摄像头及 AI 大模型加持的语音助手互动。在智能眼镜领域,各大巨头均已入场,竞争激烈。未来,价格更亲民的平价版 Vision Pro 和苹果智能眼镜能否成为苹果空间计算战役的转折点,备受关注。来源: 爱范儿
IBM 推出生成式 AI 网络安全助手
新闻概要:IBM 近日宣布在其托管威胁检测和响应服务中引入生成式 AI 功能,推出全新的 IBM Consulting Cybersecurity Assistant。该助手基于 IBM 的数据和 AI 平台 watsonx 构建,旨在加快和改进对关键安全威胁的识别、调查和响应。IBM Consulting 网络安全服务全球执行合伙人 Mark Hughes 指出,网络安全团队面临诸多挑战,生成式 AI 能增强威胁检测和响应服务,减少安全分析师的人工任务,帮助客户改善整体安全态势。生成式 AI 功能号称帮助客户将警报调查时间缩短 48%。Cybersecurity Assistant 具有通过历史关联分析加快威胁调查和修复、利用对话式引擎简化操作任务等功能。它通过对类似威胁的历史关联分析,内置在 TDR 服务中,交叉关联警报,提供威胁管理方法,并能自动推荐相关措施。同时,其包括的生成式 AI 对话引擎能为操作任务提供实时洞察和支持,自动触发相关操作,帮助客户减少噪音,提高 SOC 效率。此助手由 IBM Consulting 与 IBM 研究院合作开发,广泛使用了 IBM 的生成式 AI 功能。来源: IT之家
Meta 深化与环球音乐合作,共同守护创作者与艺术
新闻概要:据品玩 8 月 13 日报道,Meta 于 2024 年 8 月 13 日 11 时 06 分 35 分发布消息称,其与环球音乐集团深化合作并达成新的多年合作协议。Meta 公司表示,新协议体现了双方保护人类创作者和艺术的共同决心。双方将致力于确保艺术家和词曲作者获得公平报酬,并为其在 Meta 平台(包括 Facebook、Instagram、Messenger、Horizon、Threads 以及首次纳入的 WhatsApp)上提供更广阔的发展空间和更多商业机遇。然而,两家公司未披露此次协议的具体细节。此次合作有望为音乐创作者在 Meta 平台上的创作和运营带来新的契机,也展现了 Meta 对艺术创作领域的持续关注和支持。来源: 品玩
我国生成式 AI 服务大模型备案上线数量众多,发展成效显著
新闻概要:据“工信微报”消息,在第十二届互联网安全大会上,中央网络安全和信息化委员会办公室副主任王京涛介绍,截至 2024 年 8 月 12 日,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型达 180 多个,注册用户数已突破 5.64 亿。近年来,我国人工智能发展成果显著。不仅初步构建了全面的技术产业体系,相关企业超 4500 家,产业规模持续扩大,还不断深化与实体经济的融合。建成 2500 多个数字化车间和智能工厂,经人工智能改造,研发周期平均缩短 20%,生产效率提升 35%。同时,人工智能也在政务、金融、能源等领域加速数字化进程。此外,《互联网信息服务深度合成管理规定》对相关服务提供者的备案手续有明确要求,截至今年 6 月,国家互联网信息办公室已发布六批深度合成服务算法备案信息。来源: IT之家
百度网盘超能画布推出 Pro 专业版,修图效率大幅提升
新闻概要:2024 年 8 月 12 日 15 时 12 分 42 分,百度网盘 AI 创意生成工具“超能画布”宣布推出专业版。用户上传图片后,能从 70 余种风格中挑选,轻松生成不同妆造服饰和场景的写真。其“背景重绘”功能可智能识别并抠出人物主体,一键更换背景,降低布景成本,保留拍摄时的服饰造型。专为影楼设计的专业版具备批量生成整套风格图的能力,支持多设备在线协同工作,极大提升工作效率,让创意的实现和变现更迅速。此外,超能画布还提供创意定制服务,预计每年可为影楼节省约 15 万元的写真研发成本。这一创新工具为影楼行业带来了更高效、便捷和经济的解决方案,有望推动行业的发展与变革。来源: 品玩
LG 推出韩国首个开源 AI 模型 EXAONE 3.0,韩语测试排名第一
新闻概要:2024 年 8 月 12 日消息,LG AI Research 于 8 月 7 日宣布推出韩国首个开源 AI 模型 EXAONE 3.0。该模型基于 Decoder-only Transformer 架构,参数数量为 7.8B,训练数据量(tokens)为 8T,是针对英语和韩语的双语模型。官方测试显示,其英语能力达“全球顶级水平”,在真实用例平均分、数学、编码等方面排名第一,超越了 Llama 3.0 8B、Gemma 2 9B 等模型。在韩语方面,实际用例和单一基准的平均得分均排第一。此外,与上一代产品相比,EXAONE 3.0 推理时间缩短 56%,内存使用量减少 35%,运营成本降低 72%;与首次发布的 EXAONE 1.0 相比,成本降低 6%。该模型已在 6000 万个与专利、代码、数学和化学相关的专业数据案例上进行训练,并计划在年底前扩展到各领域的 1 亿个案例。LG 提前开源 7.8B 指令调整模型,旨在助力国内外 AI 研究人员开展更有意义的研究,推动 AI 生态系统发展。来源: IT之家
大模型做PPT有多牛?讯飞智文带来重磅升级!
新闻概要:讯飞智文迎来全新 2.0 版本,带来重大升级。在大模型时代,PPT 创作范式被颠覆,讯飞智文支持一键生成 PPT 并对内容精细打磨,提供多种精美模板和多语种选择。此次 2.0 版本实现了三大技术升级,其一,PPT 文本生成大模型实时联网,对用户输入主题理解能力更强,长文本处理能力也进一步强化,支持多种创建方式。其二,AI PPT 编排创作引擎让内容编排不再受限,大纲编排更自由,新增排版图示选项,且在配图上表现优异。其三,PPT 在线编辑模组更加灵活,支持元素、结构等自由修改,可定制个人风格,模板库大幅升级。中国智能 PPT 潜在市场空间广阔,讯飞智文从用户需求出发,不断打磨,立志解决用户痛点。来源: 讯飞开放平台
马斯克:人工智能模型 Grok 2 测试版即将发布
新闻概要:据 IT 之家 8 月 12 日消息,特斯拉 CEO 马斯克于当地时间 8 月 11 日晚在 X 平台透露,人工智能模型 Grok 2 测试版即将推出。Grok 是马斯克旗下 xAI 公司的产品,上个月马斯克就曾确认 Grok 2 将于数周后发布,并表示该模型“改进巨大”。目前,马斯克和 xAI 尚未公布 Grok 2 的详细信息。马斯克此前称 Grok 2 将在“所有指标”上超越当前一代的 AI 模型,且 Grok 2 发布后将紧随 Grok 3,马斯克称 Grok 3 将于年底左右推出,其水平将“达到或超越”尚未发布的 OpenAI GPT-5。Grok 的第一版于 2023 年 11 月推出,当时马斯克刚成立 xAI 以与 OpenAI 竞争。此后,xAI 筹集了 60 亿美元,估值达 240 亿美元。今年四月,xAI 发布了 Grok 1.5,提升了推理能力,并能处理更长的文本输入。来源: IT 之家
晚点独家丨蚂蚁投资 AI 公司秘塔科技,去年至今的第 6 家
新闻概要:秘塔科技近期完成超 1 亿元人民币的新一轮融资,由蚂蚁集团领投、光速光合跟投,投后估值达 1.5 亿美元。秘塔创始人闵可锐是连续创业者,其公司产品包括法律 AI 翻译、纠错校对、文章生成等。秘塔的 AI 搜索产品于今年 3 月下旬上线,当月网站访问量超 700 万次,增速显著。AI 搜索市场被看好,但也存在诸多问题,如商业模式不清晰、数据反馈难度高、市场竞争激烈等。秘塔虽增速强劲,但在上线初期爆发式增长后,6 月出现负增长。在 AI 变化迅速且充满分歧的当下,闵可锐选择沉默,先默默干活。蚂蚁集团在 AI 领域积极布局,去年以来已至少投资 6 家公司,并发布自研多模态大模型,成立新部门,上线相关功能。来源: 晚点LatePost
字节豆包大模型支持实时语音通话,创新对话式 AI 交互
新闻概要:8 月 9 日消息,字节跳动旗下火山引擎宣布推出对话式 AI 实时交互解决方案。该方案搭载火山方舟大模型服务平台,通过火山引擎 RTC 实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型。它支持开箱即用快速搭建,调用标准的 OpenAPI 接口即可配置所需的语音识别、大语音模型、语音合成类型和参数。火山引擎 AIGC RTC-Server 负责多个关键环节。该技术拥有三大亮点:支持随时打断甚至插话;不受限于 AI 服务部署区域,整体响应延时低至 1 秒;客户端提供音频帧级别的语音活动性检测,能检测音频信号中说话和静默状态。这一创新解决方案将为用户带来更智能、便捷和自然的语音交互体验。来源: IT 之家
小米旗舰设备国际版接入谷歌 Gemini 大模型,OPPO 先行一步
新闻概要:8 月 9 日消息,小米创办人雷军于 8 月 7 日宣布小米旗舰设备国际版将接入谷歌 AI 大模型 Google Gemini。小米在国行机型中已推出自家 AI 功能,如 7 月 30 日小爱同学“大模型小爱”全量升级,涵盖自然问答等功能,8 月 5 日小米 14 等机型推澎湃 OS 全 AI 功能。2024 Google 开发者大会 8 月 7 日在北京举行,Google Core ML 和 Google Cloud 工程副总裁 Bill Jia 称谷歌 AI 正助力 OEM 厂商打造更智能设备。此外,OPPO 此前已选择谷歌的 Gemini 模型,并与谷歌在海外市场推出一系列生成式 AI 功能,包括音频和会议摘要功能等。OPPO 海外营销与服务总裁张洲川今年 6 月宣布,OPPO 今年计划让约 5 千万用户的手机搭载生成式 AI 功能,成为行业首个将生成式 AI 功能引入全产品线的手机厂商。来源: IT之家
《毒舌 AI 上线 𝕏:马斯克、霉霉等 400 万网友被骂破防》
新闻概要:2024 年 8 月 8 日,毒舌 AI 推特罗伯特上线仅 11 天,用户数就突破 400 万,流量高峰时每小时达 10.6 万人。它通过分析用户推特内容进行毒舌吐槽,马斯克、川普、霉霉等名人纷纷中招。罗伯特对马斯克的推特评价精准,对川普的描述也切中要害,甚至把霉霉奉为将分手变成收入来源的女王。不仅如此,众多网络大 V 如“小互”“歸藏”等也被其犀利评价。该产品是调用 Claude 的 AI Agent,在搜索引擎优化等方面为开发者带来巨大价值,但服务器因用户涌入而多次被冲爆。同时,微博也有类似的罗伯特,其胡言乱语且常有攻击性,反映出网络环境对 AI 学习的影响,也显示出人类内心奇怪的被吐槽欲。来源: IT之家
Qwen2-Math:新一代卓越数学模型
新闻概要:Qwen2-Math 作为新一代数学模型重磅登场。过去一年,研发团队聚焦于提升大模型的推理能力,尤其是在数学相关任务上的表现。如今,Qwen2 开源家族迎来新成员 Qwen2-Math-1.5B/7B/72B 系列,这是专门用于数学解题的语言模型,其数学能力超越了开源和部分闭源模型。该模型在一系列数学基准评测中表现出色,包括 GSM8K、Math、MMLU-STEM 等英语数学基准,以及 CMATH、GaoKao Math Cloze 和 GaoKao Math QA 等中国数学基准。此外,还通过案例分析展示了其解决复杂数学竞赛题的能力。Qwen2-Math 基础模型使用 Qwen2 特定模型初始化,并在精心设计的数学专用语料库上预训练。同时,指令微调模型经过了一系列优化步骤。这些成果为科学界解决高级数学问题带来新的希望和可能。来源: Qwen
OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放,每日限生成两张图片
新闻概要:8 月 9 日消息,北京时间今日凌晨,OpenAI 作出重要宣布,ChatGPT 免费用户现可每天使用 DALL-E 3 模型生成图片。DALL-E 3 于去年 9 月推出,最初仅向 ChatGPT Plus 付费订阅用户提供服务。用户能直接在 ChatGPT 输入框键入生成图片的相关指令,然而实测表明,此功能每天仅能免费生成两张图片,若超出则会收到“您已达到图片创建上限,升级至 ChatGPT Plus 或于明天 XX:XX 后重试”的提示。今年 4 月,DALL-E 3 引入全新编辑界面,基于用户文本生成图片后,可依用户描述精细化调整已生成图片,且用户能在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。今年 2 月,OpenAI 宣布其图像生成器 DALL-E 3 将为所生成的图像添加来自内容来源和真实性联盟 (C2PA) 的水印,以助用户识别使用人工智能 (AI) 生成的内容。来源: IT之家
Mistral AI 推出新开发工具 La Plateforme,助力用户优化和构建智能 Agents
新闻概要:2024 年 8 月 8 日,Mistral AI 宣布推出全新 AI 工具 La Plateforme 以及 Agents 平台。其模型可通过 La Plateforme 进行微调,使用户能更好地利用自身数据优化。Agents 平台能协助用户对模型进行详细调整,构建更智能的 Agents。此外,Mistral AI 还更新了其 SDK,新版本支持 Python 和 Typescript 两种主流编程语言,为开发者在不同开发环境中集成和使用 Mistral AI 的模型提供了更多选择和便捷性。这一系列举措展示了 Mistral AI 在人工智能领域的持续创新和努力,为用户和开发者带来了更强大、更灵活的 AI 模型优化和应用能力,有望推动相关领域的发展和应用拓展。来源: 品玩
阿里巴巴推出科研自动化AI助手DS Assistant
新闻概要:品玩 8 月 8 日讯,阿里巴巴近日推出一款名为 DS Assistant 的 AI 数据科学助手。该助手基于阿里巴巴开源的 Modelscope-Agent 框架开发,具有丰富工具生态和灵活模块设计。其核心优势在于自动化工作流程,用户仅需提供需求,它就能自动完成从数据探索到模型评估的全流程,包括探索性数据分析、数据预处理、特征工程、模型训练和评估等步骤。这一创新极大地提高了工作效率,降低了数据科学工作的门槛,使得即使没有深厚数据科学背景的用户,也能够轻松处理复杂的数据科学问题,让数据科学工作变得更简单、高效。这一成果标志着阿里巴巴在人工智能领域的又一重要突破,有望为相关领域的发展带来新的活力和变革。来源: 品玩
字节跳动旗下豆包上线音乐生成功能,一键撰写词曲开启创作新体验
新闻概要:2024 年 8 月 8 日消息,字节跳动旗下智能 AI 助手豆包全新上线音乐生成功能。用户只需在“音乐生成”中输入主题或歌词,并设定音乐风格、情绪及音色,就能迅速获得约 1 分钟的词曲。豆包提供了包括民谣、嘻哈、R&B 等 11 种音乐风格,涵盖爵士、雷鬼、电音等小众曲风,还可选择男声或女声演唱。其生成的声音在吐字清晰度和流畅性方面表现出色,且预设了多种情绪状态,以更好地贴合用户情感表达。例如输入特定描述和设定,豆包就能自动生成相关音乐、歌词及歌曲封面,歌曲还支持一键分享至抖音等社交平台。此外,网页版还提供音乐模板,用户按需选择并填入信息即可生成心仪音乐。不过现阶段,豆包生成的音乐时长不超 1 分钟,歌词字数不超 200。相关负责人称,此功能刚推出,尚有待完善之处,期望能激发更多人的创造力,让大家以音乐形式抒发心情、分享故事。来源: IT之家
突发!OpenAI 基金牵头 6000 万美元投资硬件初创企业 Opal
新闻概要:2024 年 8 月 7 日消息,OpenAI 基金牵头为 Opal 进行 6000 万美元的 B 轮融资,其他投资方包括 YouTuber Casey Neistat、TikTok 兄弟 Charli 和 Dixie D’Amelio 以及 Founders Fund 和 Kindred Ventures 等。Opal 成立于 2020 年,总部位于美国加利福尼亚州,致力于研发具有数码单反相机品质的专业网络摄像头。OpenAI 参与此轮融资令人惊讶,因 Opal 此前产品与 AI 巨头方向不完全一致,但 Opal 计划开发由 OpenAI AI 模型驱动的其他硬件设备。Opal 团队实力强,联合创始人来自 Uber 和 Google 等。OpenAI 高管对投资兴奋,因有机会在其设备中使用语音 AI 模型。不过,AI 设备开发有难度,其他初创公司曾遭遇挫折,但此次投资仍增加了 OpenAI 成功的机会。来源: 钛媒体
“上下文缓存”存储费用大幅降价,多项更新进展喜人
新闻概要:2024 年 8 月 7 日发布了“上下文缓存”降价通知。Cache 存储费用降价 50%,由原来的 10 元/1M tokens/min 降至 5 元/1M tokens/min,价格生效时间为 2024 年 8 月 7 日 00:00:00,此时间点后计费的 cache 存储费用将按新价格计算。近期,“上下文缓存”领域还有多项重要更新。Kimi 企业级 API 正式发布,“上下文缓存”正式公测,推动长文本模型降本 90%。此外,Kimi API 助手的“氮气加速装置”——以 Golang 为例实践 Context Caching,Context Caching 也即将启动内测。这些进展将为相关领域带来积极影响,让每个开发者都能用得起长文本大模型,促进技术的广泛应用和发展。来源: 月之暗面
GPT-4o 新版本突然上线:更强更便宜,功能大幅提升
新闻概要:2024 年 8 月 7 日 12 时 54 分 18 秒,GPT-4o 新版本突然上线。该版本能力全方位提升,在 ZeroEval 基准测试中直接跃居第一,输入和输出分别节省 50%、33%,token 输出扩展到 16k。它能丝滑解决 9.11 和 9.9 谁大的问题,这得益于 OpenAI 给 API 中引入了结构化输出,通过 JSON 模式确保模型输出符合开发者定义的结构,让模型更可靠安全。最新版模型“GPT-4o-2024-08-06”在 JSON 模式评估中得分 100%,远超 GPT-4-0613 版本。在代码编辑方面,最新版本基准得分与此前版本相同,但成本减半。新版本还是 OpenAI 在图像输入上最便宜的型号。结构化输出主要有函数调用和 response_format 参数新选项两种形式,OpenAI 还更新了 Python 和 Node SDK 以支持本地结构化输出功能,并强调了安全输出。在价格方面,输入价格为 2.5 美元/100 万 token,输出价格为 10 美元/100 万 token,由于新模型更节省,相当于降价。有人发现新模型输出不冗长,成本更可控。来源: 量子位
在线设计平台 Canva 可画推出一站式 AI 创作套件“魔力工作室”
新闻概要:8 月 6 日,在“Canva Connect 连接你我,可画未来”主题活动中,在线视觉传播和协作平台 Canva 可画宣布其一站式 AI 创作套件“魔力工作室”在中国正式上线。该套件被称为“人人可用的一站式 AI 创作套件”,具备众多强大功能,如基于 AIGC 的文案生成、图片生成、花字特效生成、图片编辑、转场动画设计生成等。用户仅需输入简单文字描述,就能快速生成图片插画、花字特效和演示文稿等。此外,套件还内置“魔力橡皮擦”“魔力抓取”,用户可借此去除图片中的指定元素或提取、移动图片主体。不过,智能抓取、魔力特效等部分功能需要 Canva 可画高级版会员资格,同时提供免费试用。此前,Canva 首席执行官兼联合创始人 Melanie Perkins 曾表示业界需要更多 Adobe“替代品”,且要与市场上不同产品保持良好关系,如支持导入 Photoshop 文件。2023 年 9 月,ChatGPT Plus 订阅服务中推出了 Canva 插件,方便用户生成视觉内容。来源: IT之家
腾讯元宝上线深度阅读模式:原生支持最长近 50 万字输入,功能强大
新闻概要:2024 年 8 月 7 日消息,腾讯元宝推出最新版本,上线深度阅读模式。用户上传论文、财报、研报等专业内容的 URL 链接或文件,除文字概括总结外,还能进入此模式进行精读。该模式可提供核心内容概览及模块化解析,生成总结性图表,辅助用户快速理解关键信息。它能原生支持最长近 50 万字的输入,不仅可引用原图,还能通过代码绘制高阶分析图。对于外文文献,能提炼创新点与不足,方便判断论文质量,还能划词搜索或翻译术语。针对财报及研报,可生成杜邦分析图等专业图表,并集成计算器功能确保计算结果准确。用户上传并深度阅读过的文件,可在首页侧边栏“我的文件”查看,离线状态也能回看。来源: IT之家
「零一万物」完成数亿美元融资,某国际战投、东南亚财团加盟
新闻概要:2024 年 8 月 7 日消息,李开复创办的 AI 大模型独角兽公司零一万物已完成数亿美元融资,参与方包括某国际战投、东南亚财团等。零一万物成立于 2023 年 5 月,核心团队成员来自谷歌、微软等公司。当前“大模型六小虎”正跨越 200 亿元估值大关,零一万物的全球化战略明显,其在本土和海外市场均有 AI 产品部署。在 C 端,先在海外验证后在国内落地,如已在海外推出的 AI 办公工具 PopAi,国内推出的生产力工具“万知”。在 B 端,2024 年大模型走向闭源商业化,推出 Yi-Large,客户多为全球业务的 500 强公司。李开复认为大模型厂商要进入“长跑模式”,提出 TC-PMF 概念,零一万物在大模型集体降价趋势下明确不跟风,且近期多位来自谷歌、微软等的 AI 高阶人才加盟。来源: 36 氪
OpenAI API 引入结构化输出功能,助力开发者智能连接外部工具
新闻概要:OpenAI 在其 API 中推出了全新的结构化输出功能,这一创举为开发者带来了重大利好。该功能使得开发者能够更加可靠地将 GPT 与外部工具和 API 相连接,极大地扩展了语言模型的应用范畴。通过此功能,开发者可以向 gpt-4-0613 和 gpt-3.5-turbo-0613 描述函数,模型则能智能地输出包含调用这些函数参数的 JSON 对象,从而实现更准确的交互。这不仅为开发者提供了更大的灵活性和控制力,还进一步挖掘了语言模型的潜力,使其能够更好地满足各种复杂多样的开发需求,为行业发展注入了新的活力。来源: 第一财经
“地表最强”人形机器人Figure 02发布:OpenAI加持,在宝马工作
新闻概要:号称“地表最强”的人形机器人Figure 02重磅发布。它由Figure机器人公司打造,获得了OpenAI、微软、英伟达、贝佐斯等的联合投资,公司估值达26亿美元。Figure 02已在宝马工厂工作,能胜任拿钢材、组装器械等任务。其手部拥有16个自由度,可承重25公斤,与人类相当。在技术方面,Figure 02软硬件全面升级,具备6个高性能摄像头和AI驱动的视觉系统感知,电池续航提升50%以上,板载计算和AI推理能力提高3倍,采用外骨骼结构提升刚度,并实现端到端语音对话推理。然而,它的步态被一些人诟病。Figure AI成立于2022年,推出的首款产品Figure 01就备受关注,如今Figure 02的亮相更是开启了新时代,但其未来发展仍有待观察。来源: 量子位
国产端侧模型MiniCPM-V 2.6重磅上新,多模态能力超越GPT-4V
新闻概要:2024年8月6日报道,面壁“小钢炮”MiniCPM-V 2.6模型重磅推出。该模型以8B参数,在单图、多图、视频理解等多模态核心能力方面全面超越GPT-4V,取得20B以下参数模型的SOTA成绩。其单token编码像素密度达GPT-4o的两倍,端侧推理速度快,支持多种语言和推理方式。实时视频理解、多图联合理解等功能首次搬上端侧多模态模型,能边拍视频边理解文字、算小票总账、读懂梗图等。在幻觉评测、OCR性能等方面表现出色,采用统一高清视觉架构,实现高效能力迁移与知识共享,下载量已超百万,成为国内端侧模型典范。来源: 智东西
全球第六、中国第一!Yi API Function Call 功能上线
新闻概要:Yi API 正式宣布新增 Function Call 功能,其最新模型 Yi-Large-FC 经过针对性训练,具备良好的深度理解和指令遵循能力,能根据用户输入判断调用函数时机,并以贴近工具函数定义的 JSON 进行响应,还兼容 OpenAI 接口设计,能“平替 GPT”。该功能使模型能连接外部工具 API,在实时性、专用任务处理、自动化工作流程、增强模型能力等场景中作用显著。Yi-Large-FC 在权威评测榜单 Berkeley Function-Calling Leaderboard 总榜排名世界第六、中国第一,在 Exec 摘要得分排行中世界第二。凭借出色性能、丰富工具链和价格优势,Yi 系列大模型已成为众多企业探索新业务、验证产品的佳选,积累了一批头部付费企业客户,涉及多个领域。专家和知名企业对其予以高度评价,目前 Yi-Large-FC 已在零一万物大模型开放平台上线。来源: 零一万物
阿里国际推出首个专业版 AI Search,或成下一个 B2B 谷歌
新闻概要:7 月 31 日在法国巴黎的发布会上,阿里国际官宣了全球首个 AI 驱动的 B2B 采购搜索引擎,将于今年 9 月正式亮相。该引擎能主动理解采购者自然语言,转化为专业采购请求,根据全球市场数据预测需求、提供建议,实现精准匹配。它重构信息呈现方式,主动做信息比较并推荐合适供应商,还能提供完整采购服务,完成贸易全部流程。对于缺乏专业知识的用户,如退役网球运动员西蒙娜,能极大降低获取有效答案的成本。此款搜索引擎学习了 10 亿商品和产业知识,融合交易支付、物流履约等专业知识。阿里国际持续投入 AI,过去一年在 40 多个场景测试,服务超 50 万中小商家。随着生成式 AI 发展,未来每个行业或都将有自己的专业版“Google”。来源: 机器之心
通义App推出角色扮演功能,一键替换视频人物,创新视频创作体验
新闻概要:8 月 6 日,通义 App 推出了具有创新性的角色扮演功能。用户上传视频后,选择要替换的 3D 角色,就能在不改变其他场景和人物的情况下,将视频中原有的角色一键替换为有趣的 3D 角色模型,实现如孙悟空跳水、机器人打网球、二次元女孩揉面等创意视频。今年年初,阿里通义实验室推出的 Motionshop 模型引发海内外创作者关注,目前该模型产品化加速落地,已上线通义 App 并供所有用户免费使用。通义 App 首批上线了机器人、孙悟空、二次元女孩、国风女孩四个角色模板,还将于 9 月份开放自定义角色。Motionshop 属于 AIGC 领域,利用多种技术让动态视频中的主角轻松跨越现实与虚拟界限。它提供了高效的路径追踪方案,解决了以往常规人物替换特效的效率和质量问题。通义目前已形成完整的人物视频生成模型产品矩阵,年初的“全民舞王”、4 月的“全民唱演”、7 月的“全民云运动”等应用均基于相关技术打造。未来,Motionshop 有望在影视动画制作、创意短视频及电商直播等场景得到应用。来源: 量子位
谷歌将为 Chromebook 推出 AI 助手 Bluebuddy
新闻概要:据品玩 8 月 6 日报道,谷歌正在为 Chromebook 系列笔记本电脑打造一款名为 Bluebuddy 的 AI 助手。该助手将在 ChromeOS 中推出,旨在帮助用户解决蓝牙相关问题。用户只需输入所遇问题,系统就会推荐相应解决方案,功能可能被称为“用 AI 排查故障”,并会提供诸如适配器、设备和调试日志等选项。然而,目前尚不清楚 BlueBuddy 是适用于所有 Chromebook 还是仅限于 Chromebook Plus 系列。这一举措显示了谷歌在智能助手领域的新探索,有望为 Chromebook 用户带来更便捷的蓝牙问题处理体验。后续关于其适用范围及具体表现,值得持续关注。来源: 品玩
OpenAI 宣布 10 月起举办第 2 届 DevDay 开发者大会:无新 AI 模型,聚焦 API 和开发工具
新闻概要:2024 年 8 月 6 日消息,OpenAI 公司宣布将于 10 月 1 日起,分别在旧金山、伦敦和新加坡举办 2024 年度 DevDay 活动。首届 DevDay 开发者大会于 2023 年 11 月举办,公布了诸多产品。而 2024 年的活动遗憾地不会发布新的 AI 前沿模型,重点将放在 API 和开发工具的改进上。活动将包含多种形式,如实践技术课程的研讨会,以加深参与者的技能,并探索新可能性;由专家和社区成员主持的分组会议,讨论最佳实践;与产品和工程团队会面的演示环节;了解开发人员社区和初创公司突破性项目的环节,以及晚间招待会等。OpenAI 希望通过此次活动,进一步推动其技术在开发领域的应用和发展。来源: IT之家
Adobe 推出面向 K12 教育市场的免费 AI 工具
新闻概要:据品玩 8 月 5 日报道,Adobe 公布了 Adobe Express for Education 的新功能。该平台旨在成为负责任且课堂安全的人工智能工具,助力学生掌控学习体验。其新功能多样,包括生成模版,能让学生为艺术项目或活动创建专属模版;图像生成和生成填充功能,可助学生将脑海中的想法转化为图像;MagicSchool 中的 Adobe Firefly AI 功能为师生提供了无缝访问 Adobe Firefly 图像生成功能,使教案、论文和学校项目更具视觉效果与表现力。此外,平台还将推出“生成彩页”功能,依靠生成式人工智能提示帮助学生创建彩页,并使用多色和装饰笔刷进行装饰。此举措显示了 Adobe 在教育领域借助人工智能技术推动创新的积极探索。来源: 品玩
中兴星云研发大模型通过备案,支持多阶段多场景
新闻概要:品玩 8 月 5 日讯,中兴通讯官微宣布,中兴星云研发大模型在近日发布的广东省生成式人工智能服务备案公告中顺利通过备案。该模型支持需求、设计、编程、测试等不同阶段的 30 多种场景以及多种主流编程语言,能为开发者提供一站式、智能化的研发体验。中兴星云研发大模型号称代码生成能力达到 GPT-4 水平,在单元测试准确率、覆盖率方面大幅超越 GPT-4 Turbo,可助力编码提效 30%、整体研发提效 10%。这一成果展示了中兴在人工智能领域的技术实力和创新能力,有望为相关行业的研发工作带来更高效、便捷的解决方案。来源: 品玩
Neuralink已为第二位人类患者植入脑机芯片 效果良好
新闻概要:马斯克的脑机初创公司 Neuralink 已成功为第二位患者植入脑机芯片。这是其 PRIME 研究的一部分,旨在帮助因脊髓损伤或肌萎缩性侧索硬化症导致四肢瘫痪的患者通过意念控制外部设备。此前第一位患者植入后可移动笔记本电脑光标进行多种操作,但术后曾因导线缩回致电极减少,后通过修改算法恢复监测大脑信号能力。第二名患者脊髓损伤情况与第一名相似,400 个电极正在工作,效果不错。马斯克预计今年还将为另外 8 名患者进行植入。此外,马斯克还表示已与特朗普交谈,讨论组建旨在减少商业监管以提高“政府效率”的委员会,他认为美国监管阻碍了创新。来源: 财联社
OpenAI 承认正研发 ChatGPT 文本水印,但面临诸多挑战
新闻概要:据 IT 之家 8 月 5 日消息,《华尔街日报》报道称 OpenAI 已开发出能高精度识别 ChatGPT 生成文本的工具,但尚未发布。OpenAI 对此回应,承认正在研究文本水印技术。该技术通过对 ChatGPT 选择单词的方式进行微小更改,在文字中创建不可见水印,日后可被单独工具检测。然而,这项技术仍存诸多挑战。比如面对翻译、改写或插入特殊字符等篡改行为效果会下降,可能对非英语母语人士等群体产生不成比例的影响。OpenAI 表示文本水印只是探索的多种解决方案之一,还包括分类器和元数据等用于确定文本来源。鉴于复杂因素及对整个生态系统潜在影响,OpenAI 将谨慎推进文本溯源技术研究,并优先考虑视听内容的认证工具。来源: IT 之家
中文多模态理解榜单发布 腾讯混元国内居首
新闻概要:8 月 2 日消息,中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布。此次测评涵盖国内外 12 个最具代表性的多模态理解大模型,包括 4 个海外模型和 8 个国内模型,评估内容含基础能力和应用能力,并通过开放式问题进行评估。腾讯混元大模型在多模态基础能力和应用能力方面表现出色,获总分 71.95 高分,位列国内大模型排名第一,稳居卓越领导者象限。评估标准涵盖理解准确性、回应相关性和推理深度等维度,打分规则结合自动化定量评分与专家复核,以保评估科学公正。评测结果表明,国内大模型在多模态理解的基础能力方面已接近海外顶尖模型,腾讯混元大模型总成绩仅略低于 GPT-4o,优于 CLaude3.5-Sonnet 和 Gemini-1.5-Pro。这一成果显示了国内多模态大模型在技术发展上的显著进步和竞争力。来源: 智东西
英伟达新 AI 芯片因设计缺陷“跳票”至少 3 个月,微软、谷歌或受牵连
新闻概要:据 IT 之家 8 月 3 日消息,英伟达新 AI 芯片被曝因存在“设计缺陷”,发布将推迟至少 3 个月甚至更长时间。两位帮助生产该芯片和服务器硬件的知情人士透露了此情况。此缺陷可能影响包括 Meta、谷歌、微软等一系列大客户,因其均已订购价值数百亿美元的芯片。另有一名微软员工和另一名知情人士称,英伟达本周向微软和另一家大型云计算提供商通报其新款 Blackwell 芯片中最先进的 AI 芯片将“跳票”,微软作为英伟达最大客户之一受此影响。此前 7 月,英伟达为满足客户需求向台积电追加 4nm 芯片订单,Blackwell 平台 GPU 芯片投片量增加 25%,业内曾认为其搭载“地表最强 AI 芯片”的 AI 服务器即将交付将翻开 AI 领域新篇章。来源: IT 之家
Seele 公司推出创新「AI+3D」情感陪伴产品 Koko AI
新闻概要:2024 年 8 月 3 日消息,Seele 公司推出了一款名为 Koko AI 的「AI+3D」情感陪伴产品。Koko AI 基于自研 3D 多模态大模型 EVA-01,能够生成 3D 模型、动画表演和语音聊天,为用户提供与动漫角色的面对面互动体验。用户不仅能与各种角色进行文本或语音交流,还能根据个人喜好定制 AI 朋友的外貌和性格。该产品由原网易云音乐副总裁王诗沐领导开发,目前对用户免费开放,具有高度的自由度和创新性。其主要功能包括 AI 生成 3D 模型、AI 驱动动画表演、AI 语音聊天、AI 聊天陪伴、个性化 AI 朋友创建、多模态交互、360°互动、角色定制以及 AI Gen 等。使用时,用户可从 Apple Store 下载并安装应用或访问官网进行注册登录,然后选择角色、进行个性化设置并开始聊天,还能体验动画表演和创建角色等。Koko AI 适用于动漫爱好者、技术爱好者、社交需求者、情感寻求者以及创意人士等各类人群。来源: Meo AI工具导航
速递丨刚刚!Google 官宣“收购”Character AI 并收编团队,AI 独角兽们正挤破头欲卖身大厂,超级应用不灵了?
新闻概要:刚刚,Google 官宣将“收购”Character AI 并收编其团队。谷歌已同意向 Character AI 支付模型授权费,并聘用其联合创始人和许多研究人员。此前,Character AI 融资困难,正在寻找大厂并购,其管理层称投资人股票将以每股约 88 美元的估值被收购,约为 2023 年 A 轮融资股票价值的 2.5 倍。同为 AI 独角兽的 Adept 和 Inflection 在过去五个月里分别卖身亚马逊和微软。Character.ai 近几周一直在努力削减成本,其商业化面临挑战,付费订阅用户不到 10 万。此次交易后,Character 的部分员工将加入谷歌,公司将改用开源模型,反垄断监督机构也开始关注。Character 此前与多家大型科技公司有过合作谈判,并已筹集超 1.5 亿美元资金。来源: 腾讯新闻
Stability AI 推出 Stable Fast 3D 新模型,0.5 秒实现图片转 3D
新闻概要:Stability AI 推出了创新的 3D 网格重建技术 Stable Fast 3D(SF3D)。它能够在令人惊叹的 0.5 秒内,从单张图片生成高质量的 3D 模型。SF3D 采用先进的 Transformer 网络,并结合快速 UV 展开和材质属性预测等技术,有效减少光照效果的影响,提高细节捕捉能力,保证 3D 资产在不同光照条件下的可用性。其主要功能包括超快速度、自动上色、光照调整、细节捕捉、材质感知和使用方便等。在技术原理方面,SF3D 经历图像理解、生成 3D、UV 展开、材质和光照处理、去除光照效果、网格细化、高效渲染和输出 3D 模型等步骤。项目地址丰富,包括官网、在线 Demo、GitHub 仓库、arXiv 技术论文、YouTube 视频等。该模型应用场景广泛,涵盖游戏开发、电影和视频制作、电子商务、增强现实和虚拟现实、3D 打印、教育和培训、建筑和室内设计、医疗和科学可视化、广告和营销等多个领域。来源: Meo AI工具导航
微软 GitHub 推出 Models 服务,定位 AI 工程师
新闻概要:2024 年 8 月 2 日消息,微软旗下代码托管平台 GitHub 推出了 GitHub Models 服务。该服务定位为新一代 AI 工程师,旨在为平台的 1 亿多用户提供帮助,让开发者能够选择适合其应用的 AI 模型。目前,该服务处于限量公测阶段,能够对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral 的 Large 2 等 AI 模型。开发人员可以通过内置的 Model Playground 访问这些模型,并测试不同的提示和模型参数。GitHub 表示,未来还会继续扩充更多语言和视觉模型,以满足开发者的多样化需求。此服务的推出有望为开发者在 AI 模型的试用和部署方面提供更便捷、高效的途径,促进相关领域的发展。来源: IT之家
起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气
新闻概要:历时一周、超 12000 人匿名投票,谷歌的 Gemini 1.5 Pro(0801)在 lmsys 竞技场夺得总榜和视觉排行榜双冠,超越了 GPT-4o。该模型被视为谷歌最强大、最聪明的 Gemini,其团队关键人物发文庆祝。谷歌 AI Studio 产品负责人宣布该模型进入免费测试阶段,引发网友热议。不过,该模型在编码等方面表现不佳,也有人安利其图像和 PDF 提取功能。同时,谷歌 Gemma 2 系列迎来新的 20 亿参数模型,在竞技场排行榜上超过了所有 GPT-3.5 模型。但竞技场榜单权威性受到质疑,有人指出其排名不应如此之高,若将其作为模型性能的唯一指标,差异令人担忧。来源: 量子位
港大MIT联合出品:大模型变身私人导游,一键规划Citywalk
新闻概要:港大MIT等单位联合推出ITINERA,将LLM与空间优化相结合,实现个性化的开放域城市行程规划。用户输入需求,如包含特定地点或以某地点为终点的Citywalk路线,甚至是“适合情侣一起去的酒吧”等个性化要求,ITINERA都能理解并满足。通过与GPT-4 CoT生成路线的对比,凸显出ITINERA在路线规划上的合理性和优越性。ITINERA由大模型驱动的五个模块组成,包括构建用户兴趣点数据库、解读用户偏好、检索相关兴趣点、进行空间优化和生成旅行路线及描述。作者通过多个客观指标和LLM自动评估,证明ITINERA在各项指标和用户、专家评估方面均表现出色。总体而言,ITINERA为大模型时代的开放域行程规划提供了新思路和有效方案。来源: 量子位
全球首部!欧盟《人工智能法案》正式生效
新闻概要:当地时间 8 月 1 日,欧盟《人工智能法案(AI Act)》正式生效,这是全球首部全面监管人工智能的法规。该法案相关规则将分阶段实施,旨在给企业留出过渡期以修改相关系统。某些规则将在法律通过 6 个月或 12 个月后生效,大部分规则于 2026 年 8 月 2 日生效。法案采用基于风险的监管方法,不同应用按风险程度受不同监管。2025 年 2 月将实施“某些人工智能系统的禁令”规则,2025 年 8 月后复杂和广泛使用的人工智能模型将受新约束。高风险人工智能系统包括自动驾驶汽车、医疗设备等,法案对其规定了严格的透明度义务。在执行层面,欧盟将在 27 个成员国建立并指定国家监管机构监督合规,违规企业或面临高额罚款。此法案影响远超欧盟,适用于在欧盟有业务或影响的任何组织,可能影响众多企业,尤其是科技企业。来源: 财联社
周鸿祎放大招:联合国内 15 家最强大模型推出「AI 助手」能力碾压 GPT4o
新闻概要:2024 年 8 月 1 日,ISC.AI 第十二届互联网安全大会人工智能峰会上,360 集团创始人周鸿祎发表演讲。他指出大模型能力要结合场景才有价值,并宣布 360 开放安全卫士、浏览器、搜索、智能硬件四大场景,打造“AI 助手”,用户可一站式体验国内最强的 15 家大模型,包括智谱 AI、商汤科技等。周鸿祎称 15 家大模型联合后的综合能力可超 GPT4o,最终受益的是用户。“AI 助手”有三个亮点:多家模型可自选;效果可对比,交叉验证选最优解;意图识别,自助调度。此外,周鸿祎与赵君还发布 360 AI 办公一站式学习办公工具集,汇集多家大模型能力,提供一站式 AI 智能办公解决方案,服务采用订阅模式,费用 216 元/年。来源: TechWeb
iPhone 可跑 2B 小钢炮:谷歌 Gemma 2 小模型来袭,跑分超 GPT-3.5
新闻概要:谷歌 DeepMind 发布 Gemma 2 2B 小模型,它从 Gemma 2 27B 中蒸馏而来,参数虽仅 2.6B,但在 LMSYS 竞技场上的得分超越 GPT-3.5 和 Mixtral 8x7B。在 MMLU 和 MBPP 基准测试中,分别取得 56.1 和 36.6 的佳绩,性能超前代 Gemma 1 2B 达 10%。谷歌此次还公布了 Gemma 2 家族的另外三个新成员,包括安全内容分类器模型 ShieldGemma 和可解释性工具 Gemma Scope。Gemma 2 2B 能在多种终端设备部署,还通过 NVIDIA TensorRT-LLM 等完成优化,支持多种平台和硬件,并可集成多种开发工具。ShieldGemma 能检测和减少有害内容输出,提供多种模型参数规模。Gemma Scope 作为开源稀疏自编码器,可帮助深入了解 Gemma 2 模型的决策过程,谷歌 DeepMind 还放出了相关技术报告。来源: IT之家
AI 销售助手 Sybill 融资 1100 万美元,帮助销售每周节省 5 小时以上
新闻概要:Sybill 是一家专为销售代表打造人工智能助理的初创公司,于周三表示已在 Greycroft 领投的 A 轮融资中筹得 1100 万美元,自 2020 年成立以来融资总额达 1450 万美元。该公司的人工智能助理能跟踪和分析大量通话记录及电子邮件,提供基于上下文的见解和总结,解决销售电话中的重复性人工工作,如记录销售对话、提供电话摘要、起草后续邮件、更新 CRM 字段等,并能自动总结相关信息提供给销售领导层。其对手包括 Gong、Chrous.ai 等销售专用工具以及 Otter、Fireflies 等转录工具。Sybill 成立于 2020 年,2023 年 9 个月内 ARR 从 10 万美元增至 100 万美元,大部分由转介驱动。目前公司已有 500 多个付费客户,客户分布在 30 多个国家。科技行业的放缓有助于公司业务增长,Sybill 帮助销售人员每周节省 5 小时以上,新资金将用于进一步开发人工智能助手及雇佣更多员工。来源: 腾讯新闻
大模型热钱汹涌:半年百个亿级融资,最高超500亿元
新闻概要:2024年上半年大模型产业热钱涌动。据智东西不完全统计,2024年1月1日至6月30日上半年加上7月期间,全球大模型产业链关键环节超亿元融资超120起,融资总额超2300亿元。其中,美国和中国在融资数量上“遥遥领先”,分别有59起和35起亿元级融资,总融资额美国约1800亿元,中国超300亿元。在所有融资项目中,美国GPU云服务厂商CoreWeave 5月融资约544亿元居首。在中国,月之暗面2月拿下超70亿元A轮融资位居前列。大模型应用是“吸金”企业数最多的领域,但“吸金”力量最强的在AI Infra领域。中国大模型融资方兴未艾,放宽到千万元级,趋势更明显,至少89家企业获融资,总额超320亿元。虽然中国大模型产业“吸金”能力位居全球前列,但与美国仍有较大差距。来源: 智东西
Midjourney 新版本上线爆火,人像表现惊艳但群像生成仍存挑战
新闻概要:2024 年 7 月 31 日 15:30:33,Midjourney v6.1 版本上线即爆火。该版本在画面、光线、人物表情动作等方面更加逼近现实,雕像纹理也能细致还原。与上一版本 v6 相比,在一致性、图像质量、对小图像特征的理解等 8 个方面有显著提升,生成速度标准图像提升 25%,还新增了个性化模型等功能。在人像方面表现几乎无可挑剔,真实性更强,物体生成更合理,能搞定此前 v6 无法呈现理想效果的提示词。然而,在生成很多人和群像时存在挑战,如“一群人在广场上做瑜伽”的输出结果中人物抽象,四肢数量不对、方向异常,群像中后排人物面部扭曲恐怖。目前该版本已开放体验,下一个版本 v6.2 可能下月发布。来源: 量子位
“要把大模型拉下神坛”,周鸿祎宣布 360 安全大模型免费
新闻概要:在 7 月 31 日举办的第 12 届互联网安全大会上,360 集团创始人周鸿祎宣布 360 安全大模型免费。周鸿祎表示要把大模型拉下神坛,不希望其成为少数厂商奇货可居的赚钱工具,而是要让每个企业都用得起、用得好。目前,360 全线安全产品已集成安全大模型能力,对购买 360 标准产品的用户免费提供大模型标准能力,产品加量不加价。去年 8 月的第 11 届互联网安全大会上,周鸿祎曾称 360 的对手不是国内同行,而是国外网军、黑产、黑客。去年 9 月和 11 月,360 智脑大模型、360 奇元大模型先后通过备案,其中 360 智脑大模型具备多种核心能力和细分功能,覆盖全部应用场景;奇元大模型以 B 端用户为主,后期将聚焦更多商业化应用和垂直领域。来源: IT之家
OpenAI 推出 GPT-4o Long Output 模型,超长输出引领新变革
新闻概要:OpenAI 最新推出了 GPT-4o Long Output 模型,这是一款具有超长输出能力的 AI 模型。它支持高达 64k tokens 的长文本输出,相当于约 200 页小说,输出能力相较原 GPT-4o 模型提升 16 倍。然而,其输入上限降至 64k tokens,用户需在输入和输出长度间权衡。该模型定价为每百万输入 tokens 6 美元,输出 tokens 18 美元,反映了长输出的较高计算成本。GPT-4o Long Output 模型具有诸多核心特点,如超长输出能力、输入与输出的权衡、高成本定价、探索新用例以及最大上下文限制等。在应用场景方面,它可用于长篇内容创作,包括故事、小说、剧本等;辅助学术论文撰写,整合大量数据和文献;助力技术文档编写,为软件开发者和工程师提供支持;生成市场分析报告,为商业分析师提供建议;以及辅助教育工作者开发教育材料。目前该模型仍处于测试阶段,测试时间将维持数周,名为 GPT-4o-64k-Output-Alpha 。来源: AI 工具集
独家|人形机器人「星尘智能」获数千万美元 Pre-A 轮融资,经纬创投领投,专注 AI 机器人商业化
新闻概要:2024 年 7 月 31 日消息,AI 机器人公司星尘智能宣布完成数千万美元 Pre-A 轮融资,由经纬创投领投,道彤投资、清辉投资等跟投,老股东云启资本跟投,华兴资本为独家财务顾问。星尘智能于 2022 年 12 月在深圳成立,致力于实现人机共存、共创、共赢,专注研发“新一代最强 AI 机器人助理”。今年四月,其展示了自主研发的具身人形机器人 Astribot S1 的重要进展,S1 能在多模态大模型支持下完成各类复杂任务,且通过持续学习进化提升能力。星尘智能提出行业首发的面向 AI 的软硬件一体化系统架构,在 AI 能力和机器人硬件能力上均有突破。公司通过创新设计保证动作性能,关键零部件自研降低成本,已与众多行业头部展开合作,预计近期发布第一代产品并于年内完成商业化,后续将持续迭代产品拓展应用场景。来源: 腾讯新闻
被指过度抓取内容后,AI 搜索公司 Perplexity 和出版社达成协议
新闻概要:AI 搜索公司 Perplexity 在被指控过度抓取数据数周之后,推出了新的合作计划。该计划包括向出版合作伙伴分享广告收入。“出版商计划”已招募了包括《时代》《明镜周刊》《财富》《企业家》《得克萨斯论坛报》和 Automattic 等知名企业作为第一批合作伙伴。当 Perplexity 在回应用户查询时刊登这些出版商的内容时,出版商将获得一定份额的广告收入。此外,出版合作伙伴还将免费订阅 Perplexity 的企业专业版一年,访问其开发者工具,并通过 Scalepost.ai 获得洞察力。这一合作计划旨在解决此前的抓取数据争议,同时为出版行业与 AI 技术的融合探索新的合作模式。来源: IT之家
OpenAI 向部分用户开放 GPT-4o 语音模式 今秋将扩大至所有付费用户
新闻概要:当地时间 7 月 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户推出 GPT-4o 的语音模式。该语音模式能提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪,但初期功能有限,如无法使用计算机视觉功能。目前 GPT-4o 语音模式可使用四种预设声音,分别是 Juniper、Breeze、Cove 和 Ember,这些声音由与付费配音演员合作制作。此前 ChatGPT 一款名为 Sky 的女性配音因与好莱坞明星斯嘉丽·约翰逊相似而引发争议,OpenAI 暂停使用。此外,OpenAI 已引入新的过滤器,以避免生成受版权保护的音频而陷入法律纠纷。语音模式将于今年秋季向所有 ChatGPT Plus 用户开放,OpenAI 表示通过逐步推出可以密切监控使用情况,不断改进模型的能力和安全性,同时其仍在开发 5 月发布会期间展示的视频和屏幕共享功能,推出时间尚未确定。来源: 财联社
京东云八大 AI 产品重磅发布
新闻概要:2024 年 7 月 30 日,京东云峰会在上海举行。会上,京东云展示了京东言犀大模型落地行业的技术与最新实践,并发布了八大 AI 产品。其中包括支持一站式打造企业专属大模型的京东云企业大模型服务;内置 20 余种开源模型的言犀 AI 开发计算平台 2.0;涵盖超 200 种红蓝对抗攻击手法的京东云大模型安全可信平台;支持多地域分布式算力统一调度的京东云云舰 AI 算力云;支持千亿级参数 AI 大模型的新一代分布式存储云海 3.0;新一代一站式 AI Agent 开发平台言犀智能体平台;拥有多种直播玩法的言犀数字人 3.0 平台;基于大模型技术自主研发的编程工具京东云智能编程助手 JoyCoder。这些产品在不同领域展现出强大的功能和创新,为行业发展带来新的动力。来源: IT之家
刚刚,Meta 开源「分割一切」2.0 模型,视频也能分割了
新闻概要:Meta 在 SIGGRAPH 上重磅宣布推出 Segment Anything Model 2(SAM 2)。SAM 2 是首个用于实时、可提示的图像和视频对象分割的统一模型,能分割任何视频或图像中的任何对象,包括未曾见过的对象和视觉域,无需自定义适配。它在图像分割准确率和视频分割性能方面均有提升,交互时间缩短为原来的 1/3。该模型采用创新的流式内存设计,适合实时应用。Meta 发布了大型带注释数据库用于训练,并遵循开源协议共享代码和模型权重。SAM 2 可立即应用于多种实际用例,未来还有望作为更大型 AI 系统的一部分。尽管 SAM 2 表现出色,但仍面临摄像机视角剧烈变化、长时间遮挡等挑战。来源: 机器之心
Runway 深夜炸场,Gen-3 Alpha 图生视频上线
新闻概要:2024 年 7 月 31 日消息,今日凌晨,Runway Gen 3 Alpha 模型的图生视频功能正式上线,引发广泛关注。用户可使用任何图片作为首帧,且图片既可单独使用,也能结合文本提示获得额外指导,目前生成的视频最长为 11 秒。Runway 联合创始人兼 CEO Cristóbal Valenzuela 发推展示惊艳示例。该功能被认为将极大提高生成视频的艺术控制和一致性,其逼真效果赢得众多网友认可和赞赏,大家都迫不及待想要尝试。已有部分用户试用并给出积极评价,比如 X 用户 @NoBanksNearby 称“Runway 在图生视频领域又做到了很好”。这一创新在 AI 视觉生成领域迈出了重要一步。来源: VentureBeat
生数科技与清华大学联合发布视频大模型 Vidu
新闻概要:2024 年 7 月 30 日,生数科技与清华大学联合发布了中国首个长时长、高一致性、高动态性的视频大模型 Vidu。Vidu 基于原创的 U-ViT 架构,支持一键生成长达 16 秒、1080P 分辨率的高清视频。它具有多种强大功能,如长时高清视频生成、多镜头生成、时空一致性、物理世界模拟、丰富想象力、多模态融合架构、中国元素理解、快速推理速度以及图生视频和多样的风格。其技术架构融合了 Diffusion 技术、Transformer 架构、U-ViT 架构、多模态扩散模型 UniDiffuser、长视频表示与处理技术以及贝叶斯机器学习。使用 Vidu 时,用户可通过文生视频或图生视频模式,注册登录后选择生成模式,输入文本或上传图片,并调整生成参数即可生成视频。Vidu 适用于视频制作人员、游戏开发者、教育机构、科研人员、内容创作者等众多人群,为他们提供高效便捷的视频生成服务,广泛应用于影视、广告、游戏等行业。来源: AI 工具集
Meta 推出 AI Studio 让用户创建自定义 AI
Meta 正在美国推出 AI Studio,这是一个无需技术技能,任何人都能参与的平台。用户可以在此创建、分享和发现用于聊天的 AI,比如设计能逗人发笑、生成表情包、提供旅行建议等各种功能的 AI。创作者还能创建一个作为自身延伸的 AI,用于回答常见的私信问题和故事回复,从而接触到更多人。通过 AI Studio,在 ai.meta.com/ai-studio 或 Instagram 应用中,用户可利用丰富的提示模板或从零开始创建 AI,例如教烹饪、协助写 Instagram 文案等,并能选择仅自己使用或与粉丝朋友分享,在多个平台交流。同时,Instagram 创作者能设置作为自身延伸的 AI,根据自身需求定制,且回复有明确标识,保证透明度。Meta 制定了相关政策和保护措施,确保使用安全和负责。AI Studio 开启了人人都能利用 AI 创意能力的新篇章。来源: Meta
数据安全看得见:苹果 Apple Intelligence 提供详细隐私报告
新闻概要:2024 年 7 月 30 日消息,苹果公司在 iOS 18.1 和 macOS Sequoia 15.1 的首个测试版中推出了新 AI 功能“Apple Intelligence”的预览。该公司不仅介绍了这些功能的工作原理和隐私机制,还允许用户查看详细的隐私报告,了解其如何处理请求。用户可要求系统改写文本、总结消息或邮件,功能既可使用设备上语言模型,也可用在线语言模型。为确保用户隐私,苹果开发了“私人计算模块”(PCC)用于在线处理请求,全程加密,苹果也无法访问,处理完数据会永久删除。iOS 18.1 和 macOS 15.1 将提供“Apple Intelligence 报告”,用户查看需身份验证,报告默认生成,在设备上保留 15 分钟,可更改设置延长至 7 天或关闭。需注意,该功能不在今年秋天发布的 iOS 18.0 和 macOS 15.0 正式版中提供,且需要 iPhone 15 Pro 系列机型或配备 M1 芯片及更高版本芯片的 Mac 和 iPad。来源: IT之家
逛遍 ChinaJoy,发现 AI 对游戏产业的四个改变
新闻概要:在 2024 年 7 月 26 日至 29 日的 ChinaJoy 上,AI 技术对游戏产业产生了多方面的影响。在游戏开发中,AI 图片生成已不可或缺,被广泛应用于流程,提升了效率,未来开发者更期待 AI 视频生成和 3D 生成。在游戏玩法创新上,目前仍局限于对话体游戏,如 1001 Nights 和言灵计划等。不少大厂推出 AI 陪玩,如《永劫无间》手游的可交流 AI 队友、游族网络的“代号小游酱”等,提供陪玩和情绪价值。此外,消费电子展馆多见 AI 标志,硬件厂商更急于贴 AI 标签,而在看不见的地方,AI 也在改变游戏相关产业,如广告精准投放、游戏文明行为审查等。虽然新的 AI 技术尚未给游戏玩法带来颠覆性改变,但已在创作侧带来诸多变化。来源: 极客公园
创业3个月估值超70亿,李飞飞AI新公司为何能成为最快独角兽?
新闻概要:李飞飞创立的AI公司World Labs成立于今年4月,短短三个多月已完成两轮融资,最新估值达70多亿元。公司致力于发展AI的空间智能,以解决AI在三维空间感知和理解方面的难题。李飞飞在AI领域成就显著,其早年的经历为研究奠定基础,曾启动ImageNet项目,在谷歌工作后又回到斯坦福大学。此次创业,李飞飞聚焦空间智能,认为这是解决AI技术难题的关键,能推动AI在复杂三维世界中导航、操作和决策。当前AI创业热潮席卷全球,众多AI初创公司获巨额融资,但也有人担忧这股热潮正在形成投资“泡沫”,高投入可能面临高风险。来源: 钛媒体
巴黎奥运会:“中国黑科技”大放异彩,大模型及多项创新技术登场
新闻概要:2024 年巴黎奥运会不仅是体育盛会,也是中国科技创新的展示窗口。赛事转播方面,云上转播超越卫星转播,成为主要方式,预计 11000 小时的赛事直播画面通过阿里云向全球分发,且现场有众多来自中国科技公司的 LED 屏。AI 应用丰富,如阿里巴巴的通义大模型成为首个奥运 AI 大模型应用技术提供方,此外还有多项 AI 技术服务国家队训练和备战。比赛设备上,从足球到运动垫,众多中国企业提供的产品融入创新技术。开幕式和赛事节目采用全“4K 超高清+三维声”制作,当虹科技助力总台实现相关制播,同时还有精彩的无人机表演。中国科技创新在巴黎奥运会上展现出强大实力,为赛事增添亮点。来源: 财联社
亚马逊云发布 Amazon Q Apps:助力用户轻松构建生成式 AI 应用程序
新闻概要:2024 年 7 月 29 日,亚马逊云科技宣布了多项新技术和新服务,其中引人注目的是发布了 Amazon Q Apps。这项服务允许用户根据简单描述创建应用程序,即便没有技术背景也能轻松上手。它是 Amazon Q Business 的一部分,能够支持软件开发、数据分析洞察和内容创作等多种任务。此外,还有 Amazon Q Developer 服务,现已集成到 Amazon SageMaker Studio 中,通过简单的聊天式交互,可为构建机器学习模型推荐工具和提供代码建议,大大节省了数据科学家的开发时间。这一系列举措旨在使构建 AI 应用更加便捷,推动行业发展。来源: 品玩
日均 tokens 使用量超 5000 亿,AI 生图玩法猛猛上新:豆包大模型为什么越来越「香」了?
新闻概要:豆包大模型在图像生成领域表现出色。截至 2024 年 7 月,其日均 tokens 使用量已超 5000 亿。尽管入场较晚,但已成为国内使用量最大、应用场景最丰富的大模型之一。在图像生成方面,豆包·文生图在图像美感、图文一致性等多维度达到业界较高水准,其对中英文 prompt 的理解精准。豆包·图生图模型涵盖多种玩法,在一致性和相似度方面表现优秀。字节跳动早有关注图像生成技术,持续加大研发投入。豆包视觉团队提出多项创新成果解决难题,还在国际顶会发表多篇论文、提出多项专利。目前,豆包大模型家族成员达 10 个,通过火山引擎为企业提供技术支持,火山引擎在价格、算力等方面具有优势。中国大模型竞争开启新篇章,豆包大模型在研发投入和应用场景优势加持下成果显著。来源: 机器之心
明势、源码、高榕、金沙江出手,AI图像生成平台「LiblibAI」融资总额达数亿元 | 36氪首发
新闻概要:AI图像生成平台“LiblibAI哩布哩布AI”成立于2023年5月,至今已完成三轮融资,总额达数亿元人民币,是目前国内AI图像赛道最大的总融资金额。天使轮由源码资本、高榕创投和金沙江创投投资,第三轮由明势资本领投,老股东持续多轮加持。融资金额主要用于构建算力中台、研发相关模型和能力、支持运营开发者生态等。该平台已积累近1000万专业AI图像创作者、超10万个原创模型,生成并分享超2.3亿张AI图片,构建了完整生态链。其成功的核心在于产品战略决策和创作者双边飞轮的建立,现阶段最大挑战是平衡先进模型发展速度与用户需求。LiblibAI核心成员背景优秀,投资人对其给予高度评价,期待其成为全球AI图像生成领域的领导者。来源: 36氪
苹果即将推出的 AI 功能将晚于 iOS 18 首次发布
新闻概要:据相关消息,苹果公司即将推出的人工智能功能将晚于预期。原本计划作为 10 月前软件更新的一部分向客户推出的 Apple Intelligence,如今将错过即将推出的 iPhone 和 iPad 软件更新的初步发布。知情人士透露,苹果公司原计划在 10 月将该 AI 功能作为软件更新的一部分向用户推出,这意味着其将在原定于 9 月发布的 iOS 18 和 iPadOS 18 发布后几周才推出。这些知情人士在讨论未宣布的发布细节时拒绝透露姓名。此变动给了苹果公司更多时间来修复漏洞,以确保该 AI 功能的稳定性和完善性。来源: 新浪财经
“Llama 4训练已开启!Meta科学家揭秘Llama 3.1炼成之道”
新闻概要:Meta 的 AI 科学家 Thomas Scialom 近日现身 Latent Space 播客节目,对 Llama 3.1 的研发思路进行了揭秘。在模型参数规模的选择上,需综合考虑多种因素,如 scaling law、训练时间、硬件约束等,Llama 3.1 选择 405B 规模旨在打造能与 GPT-4 比肩的开源模型。对于 Scaling Law,Meta 为追求更好的推理表现,选择增加训练 token 数和时长,让模型达到“过度训练”状态。Llama 3 的架构相比 Llama 2 变化不大,但在数据规模和质量上有提升。Llama 3 的后训练仅依靠从 Llama 2 获得的合成数据,且合成数据前景被看好。模型评估是难题,多轮 RLHF 是比较模型的好办法。此外,Meta 已于 6 月开启 Llama 4 训练,重点可能围绕 agent 技术,此前在相关工具上已有工作,且 agent 能力与模型智力差距相关。来源: 凤凰网
Anthropic 爬虫机器人无视反 AI 抓取政策,引发多个网站所有者不满
新闻概要:据报道,Anthropic 公司使用的 ClaudeBot 在短短 24 小时内访问 iFixit 网站近百万次,违反了该网站的使用条款。iFixit 的 CEO Kyle Wiens 对此表示强烈不满,指出未经许可严禁复制、分发网站内容,尤其是用于训练机器学习或 AI 模型,而 ClaudeBot 不仅未付费获取内容,还占用其 devops 资源。此外,Read the Docs 联合创始人 Eric Holscher 和 Freelancer.com CEO Matt Barrie 也表示他们的网站曾被 Anthropic 的爬虫频繁抓取。今年 4 月,Linux Mint 网站论坛就曾将一次网站故障归因于 ClaudeBot 的抓取活动造成的压力。这些事件凸显了 Anthropic 爬虫机器人在数据获取方面的不当行为,以及对相关网站造成的不良影响,引发了业界对数据使用规范和道德的关注。来源: IT之家
蔚来发布智能驾驶世界模型 NWM
新闻概要:2024 年 7 月 27 日,蔚来发布了智能驾驶世界模型 NWM(NIO World Model)。据介绍,这是一个多元自回归生成式的具身驾驶模型,拥有全量理解数据、长时序推演和决策的能力,能够在短短 100 毫秒内推演出多达 216 种可能发生的场景。作为生成式模型,NWM 表现出色,基于 3 秒的驾驶视频,就能生成 120 秒的想象视频。此模型的推出标志着蔚来在智能驾驶领域的重大突破,有望为用户带来更安全、更便捷、更智能的驾驶体验。这一创新成果不仅展示了蔚来在技术研发方面的强大实力,也为整个汽车行业的智能驾驶发展注入了新的活力。来源: 界面新闻
蔚来发布智能驾驶世界模型 NWM
新闻概要:2024 年 7 月 27 日,蔚来发布了智能驾驶世界模型 NWM(NIO World Model)。据介绍,这是一个多元自回归生成式的具身驾驶模型,拥有全量理解数据、长时序推演和决策的能力,能够在短短 100 毫秒内推演出多达 216 种可能发生的场景。作为生成式模型,NWM 表现出色,基于 3 秒的驾驶视频,就能生成 120 秒的想象视频。此模型的推出标志着蔚来在智能驾驶领域的重大突破,有望为用户带来更安全、更便捷、更智能的驾驶体验。这一创新成果不仅展示了蔚来在技术研发方面的强大实力,也为整个汽车行业的智能驾驶发展注入了新的活力。来源: 界面新闻
谷歌 Gemini 聊天机器人换上新模型,新增事实核查功能
新闻概要:在大模型厂商密集发力的背景下,谷歌也迎来重磅更新。即日起,Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动。与之前版本相比,该模型窗口长度提高到 4 倍,响应速度更快,模型回复质量提升,上下文窗口从 8k 提升到 32k。此外,新版聊天机器人新增“事实核查”功能,可一键检测生成内容是否属实,减轻模型幻觉带来的不良影响。Gemini 1.5 Flash 通过训练数据“蒸馏”,以更轻量化的体积实现较高生成质量,支持多模态推理。量子位对新版聊天机器人进行了测试,事实核查功能虽提供了便捷途径,但因依靠互联网搜索,对比资料质量参差不齐,不一定能做到 100%准确。对于一些难题测试,模型表现各异。来源: 量子位
微软现支持开发者微调 Phi-3-mini 和 Phi-3-Medium AI 模型
新闻概要:7 月 26 日消息,微软公司于 7 月 25 日发布博文称,在 Azure 上支持开发者微调 Phi-3-mini 和 Phi-3-Medium AI 模型,以针对不同用例提升模型性能。Phi-3-mini 模型于今年 4 月发布,有 38 亿参数,上下文长度有 4K 和 128K 两个版本,6 月更新后跑分性能进一步提升。Phi-3-Medium 模型有 140 亿参数,上下文长度也有 4K 和 128K 两个版本。开发者可微调 Phi-3-Medium 模型用于辅导学生,或依特定语气和响应风格构建聊天应用程序。此外,微软公司当天还宣布正式上线 Models-as-a-Service(serverless endpoint)服务,方便开发者通过该方式构建 Phi-3-small 模型开发人工智能应用程序,后续将扩充推出 Phi-3-vision 模型。来源: IT之家
OpenAI 下周将向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式,实现无缝聊天
新闻概要:据 IT 之家 7 月 26 日消息,OpenAI 首席执行官山姆・阿尔特曼表示,将于下周面向 ChatGPT Plus 用户开放 Alpha 版本 GPT-4o 的语音模式。今年 5 月,OpenAI 首席技术官穆里・穆拉蒂称,GPT-4o 是训练了跨文本、视觉和音频的端到端全新统一模型,所有输入和输出都由同一个神经网络处理,但在探索该模型的功能及其局限性方面仍处于起步阶段。OpenAI 原计划今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式,后因需更多时间打磨以提高检测和拒绝某些内容的能力而推迟。此前曝光信息显示,GPT-3.5 模型平均语音反馈延迟为 2.8 秒,GPT-4 模型延迟为 5.4 秒,在语音交流方面表现不佳,而即将推出的 GPT-4o 有望极大缩短延迟时间,实现近乎无缝对话。来源: IT 之家
“灭霸”OpenAI 发布 SearchGPT,剑指 AI 搜索市场
新闻概要:2024 年 7 月 25 日太平洋时间,OpenAI 发布了名为 SearchGPT 的 AI 搜索产品,并开放候补名单进行小范围测试,测试名额仅有 10000 个。其 AI 能力来源于 GPT-4,OpenAI 创始人兼 CEO Sam Altman 对其喜爱有加。SearchGPT 主界面与多数 AI 搜索和对话产品类似,用户输入自然语言或碎片化关键词即可检索答案,还保留了关键词检索习惯。点击相关按钮可显示信息出处,基于上下文记忆能进行多轮追问。OpenAI 正与第三方合作伙伴合作,直接使用其内容构建搜索结果,目标是将搜索功能集成到 ChatGPT 中。此产品将与谷歌、微软 Bing 等搜索巨头以及 Perplexity 等新秀展开竞争。来源: 36 氪
消息称 OpenAI 公司 2024 年资金缺口达 50 亿美元
新闻概要:据 IT 之家 7 月 25 日报道,科技媒体 The Information 爆料,OpenAI 用于 AI 推理的算力预估相当于 35 万台含英伟达 A100 芯片的服务器,其中约 29 万台用于 ChatGPT,近乎满负荷运行。截至今年 3 月,OpenAI 公司为 ChatGPT 运行推理工作负载花费近 40 亿美元,今年训练 ChatGPT 及新 AI 模型的成本预估达 30 亿美元,两者成本可能共达 70 亿美元。微软向 OpenAI 每台 A100 服务器的收费约为每小时 1.30 美元,远低于正常价格。OpenAI 公司目前约有 1500 名员工,员工成本或达 15 亿美元。该公司每年从 ChatGPT 获得约 20 亿美元收入,从 LLMs 的收费访问中或获近 10 亿美元收入,最近每月总收入为 2.83 亿美元,全年销售额可能在 35 亿至 45 亿美元之间。这意味着 OpenAI 公司今年面临 50 亿美元的资金缺口,很可能需在未来 12 个月内启动新一轮融资。来源: IT 之家
1230 亿参数,Mistral 发布 Large 2 旗舰 AI 模型:支持 80 多种编程语言,性能接近 GPT-4
新闻概要:2024 年 7 月 25 日,法国人工智能初创公司 Mistral 加入 AI 竞赛行列,推出新一代旗舰模型 Mistral Large 2。该模型拥有 1230 亿个参数,在代码生成、数学和推理方面功能强大,比其前身更出色,还提供多语言支持和高级函数调用功能。它支持包括中文在内的数十种语言以及 80 多种编码语言,在 MMLU 上的准确度达 84.0%。Mistral 公司在训练中重点减少模型的幻觉问题,使其反应更具辨别力。此模型的开放方式包括授权开放非商业研究用途,商业/企业使用需购买单独许可和协议。尽管参数数量少于 Llama 3.1 的 4050 亿个,但性能仍接近。官方称其为 GPT-4 级模型,在多项基准测试中的性能接近 GPT-4o、Llama 3.1-405 和 Anthropic 的 Claude 3.5 Sonnet,将继续推动成本效益、速度和性能发展,并为用户提供新功能。来源: IT之家
扎克伯格深度专访:中美AI竞争完全错误,美国别想长期领先中国
新闻概要:Meta 创始人兼 CEO 马克·扎克伯格在接受知名科技记者张秀春的深度访谈中披露了诸多重要信息。他称决定构建开源平台是因过去开发产品受制于平台企业,希望通过在 AI 和 VR/AR 领域的投资,掌控自身平台。扎克伯格认为 Llama 3.1 模型可作为其他模型的“老师”,计划创造 AI 社交媒体,目标让 Meta AI 年底前成为使用量最大的 AI 助手。他还坦言没想到 AI 会先于 AR 到来,认为目前 AI 领域存在过度投资问题,但这也是在为未来做准备。在中美 AI 竞争方面,他认为美国难以保持对中国 5-10 年领先,6-8 个月领先已不错,反对美国对 AI 技术封闭。此外,他还谈到了公司的政治内容策略、对青少年心理健康问题的看法以及个人生活等方面。来源: 智东西
消息称 Alexa 四年巨亏 250 亿美元,亚马逊豪赌生成式 AI
新闻概要:据报道,亚马逊的语音助手 Alexa 业务部门在 2017 年至 2021 年期间亏损高达 250 亿美元。尽管售出超 50 万台 Alexa 设备,包括 Echo 智能音箱、Kindle 电子书阅读器等,但一直难以盈利。亚马逊对 Alexa 硬件部门财务管理宽松,优先考虑创新和长期收益,曾以低价甚至亏本销售 Echo 智能音箱,希望后续通过服务获利,然而用户主要使用免费服务,大额消费少。虽巨额亏损未影响研发投入,推出新产品如 Astro 家庭机器人、Halo 健康追踪器等,但大多未获商业成功。亚马逊曾用“下游影响”指标评估产品价值,却存缺陷。为扭转局面,计划推出订阅制的生成式 AI 版 Alexa,但业内人士不乐观,因用户对订阅服务疲劳且生成式 AI 技术不成熟。此外,亚马逊还面临隐私问题,此前丑闻损害声誉。业内普遍认为,亚马逊此次押宝生成式 AI Alexa 是高风险尝试,成功不仅依赖技术突破,还需改变用户认知及克服诸多挑战。来源: IT之家
【快手可灵全球上线,无需中国手机号码】
新闻概要:据 Kling AI 在社交媒体 X 上的官宣,快手可灵国际版 1.0 已正式上线。快手可灵AI宣布即日起全面开放内测,无需排队申请,人人可用。此前在WAIC上,可灵AI公布上线1个月的成绩单,已有超50万人申请,超30万用户使用,生成超700万条短视频。同时,官方推出了“会员付费模式”,并给每日登录的用户免费提供66“灵感值”,大约能兑换6个免费视频。此外,可灵AI还推出了国际版1.0,全球上线,只需邮箱注册,无需中国手机号码。国内用户关注的免费66灵感值可以用于生成视频和图片,但若需要更多服务,可以购买会员计划。来源: 华尔街见闻
自定义 Llama 3.1 模型的利器!NVIDIA 打造生成式 AI 代工厂及加速部署微服务
新闻概要:2024 年 7 月 24 日报道,NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,为全球企业的生成式 AI 提供强力支持,尤其是与刚推出的 Meta Llama 3.1 系列开源模型相结合。Llama 3.1 大语言模型有多种参数规模,在众多 NVIDIA Tensor Core GPU 上训练而成,并针对 NVIDIA 加速计算和软件进行了优化。NVIDIA 打造的企业级 AI 代工厂 NVIDIA AI Foundry 由 NVIDIA DGX Cloud AI 平台驱动,与全球领先的公有云共同设计,提供端到端服务,旨在为企业提供大量计算资源并轻松扩展。企业可使用自有数据及合成数据训练超级模型以提高准确性,还能构建 NVIDIA NIM 推理微服务将模型部署到生产中,其吞吐量大幅提高。多家企业已在使用相关微服务,数百家 NVIDIA NIM 合作伙伴也能集成新微服务为生成式 AI 助力。来源: 智东西
爱诗科技发布 PixVerse V2 AI 视频大模型,创新引领视频创作
新闻概要:2024 年 7 月 25 日,爱诗科技最新发布了 AI 视频大模型 PixVerse V2。该模型基于 Diffusion+Transformer(DiT)架构,并引入自研时空注意力机制,能为用户提供更长、更一致、更有趣的视频生成体验。PixVerse V2 具有众多强大功能,在长视频生成方面,单片段可达 8 秒,多片段能达 40 秒;可一键生成 1 – 5 段连续视频,保证片段间主体形象、画面风格和场景元素的一致性。它采用创新技术,提升了对复杂场景的处理能力,还强化了文本理解,实现文本与视频信息的精准对齐。同时,用户能对生成的视频进行二次编辑,灵活调整内容,其训练效率也通过优化传统 flow 模型得到提升。PixVerse V2 适用于创意专业人士、社交媒体用户、企业营销人员、独立艺术家和内容创作者等,助力提升 AI 视频创作生产力,让创意表达更加便捷。来源: 爱诗科技
“Llama3.1:Meta 发布的最强开源 AI 模型,性能卓越”
新闻概要:Meta 最新发布的开源 AI 模型 Llama3.1 备受关注。该模型包括 8B、70B 和 405B 三个版本,其中 405B 版本凭借 4050 亿参数量成为当前最大的开源模型之一。Llama3.1 支持 128K 的上下文长度,能处理长文本,具备多语言翻译能力,在数学、推理和长文本处理等方面表现出色。它支持八种语言,在 GSM8K 和 ARC Challenge 等数学和推理测试中得分高,在 ZeroSCROLLS/QuALITY 测试中的长文本处理能力与 GPT-4 持平。此外,在工具使用、特殊领域测试和量化优化方面也有突出表现。Meta 评估了超 150 个基准数据集的性能,405B 模型在多项任务中与领先基础模型有竞争力,8B 和 70B 模型在基准测试中也取得显著进步。其项目官网为 https://llama.meta.com/ ,GitHub 仓库为 https://github.com/meta-llama ,Hugging Face 模型库为 https://huggingface.co/meta-llama 。来源: 机器之心
Alphabet Q2 营收利润双双超预期 皮查伊坚信 AI 将很快创收
新闻概要:2024 年 7 月 24 日消息,谷歌母公司 Alphabet 第二季度(截至 6 月 30 日)营收和利润双双超出预期。受数字广告销售增长和云计算服务需求旺盛推动,其营收增长 14%至 847.4 亿美元,净利润增长 28.6%至 236 亿美元,每股收益为 1.89 美元。作为主要收入来源的广告销售增长 11%至 646 亿美元,YouTube 部门广告销售额增长 13%。云计算服务营收增长 28.8%至 103.5 亿美元。“其他赌注”部门收入高于去年同期。今年一季度 Alphabet 资本支出飙升令投资者不安,二季度为 130 亿美元,且预计今年剩余时间季度资本支出将达或超 120 亿美元。Alphabet 也在积极投入 AI 产品,虽曾出现问题,但首席执行官皮查伊表示 AI 产品可能很快带来收入,只是未提供具体时间表。来源: 财联社
Adobe Illustrator 和 Photoshop 迎来新 AI 功能,加速创作流程并增强创作控制权
新闻概要:2024 年 7 月 23 日消息,Adobe 公司宣布旗下 Illustrator 和 Photoshop 两款明星软件将迎来一系列基于人工智能的新功能。Illustrator 新增“生成式形状填充”功能,用户输入简单文字提示即可为形状填充精美矢量图形,系统还能根据文档中其他元素自动生成填充内容,且生成图形均可编辑。此外,“模型”功能能助设计师将插图快速应用到真实物体上并自动调整尺寸和透视角度,还有识别字体并编辑替换、“文字转图案”创建可编辑背景等新功能。Photoshop 推出“选区画笔工具”和“调整画笔工具”以简化重复性任务,改进文字工具和上下文任务栏,并集成最新版 Adobe Firefly 增强 AI 生成内容能力。值得一提的是,Adobe 强调除非用户同意共享作品至 Adobe Stock,否则公司不会将其作品用于 AI 训练。来源: IT之家
发力 AI 产业!沙特阿美向韩国芯片制造商投资 1500 万美元
新闻概要:沙特阿美旗下风险投资部门 Wa’ed Ventures 向韩国芯片制造商 Rebellions 投资 1500 万美元。沙特正加速发展人工智能产业,此笔投资不仅是该公司在不到一周内对芯片行业的第二笔投资,也是在韩国的首笔投资。Rebellions 正与三星合作开发专用芯片,考虑在韩 IPO,并计划利用资金在沙特建子公司开展业务。沙特已成为中东创业活动温床,主权基金支持科技公司和初创企业,Wa’ed Ventures 加速国际投资以推动经济多元化。来源: 财联社
谷歌发布 NeuralGCM 天气预报 AI 模型:运行成本更低、预测更准
新闻概要:7 月 23 日消息,谷歌公司发布全新 AI 模型 NeuralGCM。该模型由谷歌研究院、谷歌 DeepMind、麻省理工学院、哈佛大学和欧洲中期天气预报中心的科学家共同研发。它结合机器学习和传统技术,以大脑神经元为模型,依据过去几十年天气数据训练,并使用物理方程描述大尺度天气模式。NeuralGCM 模型在预报未来 1 – 10 天天气方面准确度更高,运行成本更低,且是开源的,用户可在笔记本电脑上相对快速运行。其准确度不亚于欧洲中期天气预报中心 1 – 15 天的预报。来源: IT之家
开源 AI 模型 Meta Llama 3.1 多项跑分超越闭源 GPT-4o,开创里程碑
新闻概要:7 月 23 日消息,网友在 LocalLLaMA 子 Reddit 板块分享了 4050 亿参数的 Meta Llama 3.1 信息。该模型在 GSM8K、Hellaswag 等多项关键 AI 基准测试中的结果显示,其性能超越了目前领先的闭源模型 OpenAI 的 GPT-4o。然而,Meta Llama 3.1 在 HumanEval 和 MMLU-social sciences 方面稍逊一筹。值得注意的是,这只是基本模型的数据,后续通过调整优化,其潜力有望进一步释放,在基准测试中取得更出色的成绩。这是开源人工智能社区的重要里程碑,标志着开源模型可能首次击败最先进的闭源 LLM 模型。来源: IT之家
马斯克宣布全球最大 AI 训练集群
新闻概要:马斯克昨日在社交平台 X 上发文宣布 xAI 团队、X 团队、英伟达及支持公司于当地时间凌晨 4 点 20 分开始在“世界上最强大的 AI 训练集群”——孟菲斯超级集群上进行训练。该集群在单个 RDMA fabric 上使用 10 万张液冷 H100,马斯克在评论区透露其目标是今年 12 月前训练出世界上最强大的人工智能。此前,马斯克将特斯拉 12000 块英伟达 H100 转移给 X,还设法从特斯拉挖工程师,其 xAI 公司在融资、产品研发等方面动作不断。来源: 智东西
英伟达离不开中国:或将推出全新“特供版”B20芯片,预计今年销售额120亿美金
新闻概要:尽管美国政府加大对华半导体管制力度,但英伟达无法放弃中国市场。据报道,英伟达正为中国联合开发基于Blackwell架构的新款旗舰AI芯片“B20”,符合美出口管制规定,但未提及性能参数。此前,英伟达受美出口管制新规影响,来自中国客户的数据中心业务营收占比降低。黄仁勋称会尽最大努力服务中国客户,早前有报道称今年英伟达有望在华交付超100万颗定制版H20芯片,销售额约120亿美金。来源: 钛媒体
AI 炒菜机器人公司橡鹿科技再获京东近 2 亿元战略投资
新闻概要:7 月 22 日消息,AI 炒菜机器人公司橡鹿科技再获京东近 2 亿元战略投资并达成全面战略合作。橡鹿科技此前名为“橡鹭科技”,去年 12 月已获京东数千万元融资。此次新投资下,公司将扩大建设最大的 AI 炒菜机器人工厂,提高产线自动化水平,在长江以北建立第二生产基地。还将加大研发投入,布局视觉等技术应用,打造新一代 AI 炒菜机器人,于 2025 年推出。同时,加大全国重点城市售后运维布局,提升产品质量保障体系和服务能力。该公司致力于以硬科技提升餐饮供给质量,已服务超 100 家头部餐饮企业,覆盖十余个国家和地区。来源: IT之家
权重、代码、数据集全开源,性能超越 Mistral-7B,苹果小模型来了
苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型性能超越了 Mistral-7B,逼近 Llama 3 和 Gemma。论文作者之一称其为“真正开源的最佳模型”,因其不仅开源模型权重,还开源训练代码和预训练数据集。大型语言模型面临评估挑战,研究团队提出新基准 DCLM 以通过设计高质量数据集提高模型性能。DCLM-7B 使用基于 OpenLM 框架的预训练方案,在多项评估中表现出色。来源: 机器之心 2024 年 7 月 21 日 20 点 24 分 27 秒
英伟达 Mistral AI 联袂推出 120 亿参数小模型,性能卓越
新闻概要:英伟达与 Mistral AI 联手打造了 120 亿参数的小模型 Mistral NeMo。该模型在多项基准测试中表现出色,超越了 Gemma 2 9B 和 Llama 3 8B。它支持 128K 上下文,能更连贯准确地处理复杂信息。Mistral NeMo 专为企业用户设计,可轻松定制和部署企业应用程序,具有良好的兼容性和易用性,能在单张 NVIDIA L40S 或 NVIDIA GeForce RTX 4090 等 GPU 上运行。模型还经过了高级微调和优化,在多语言处理、指令遵循等方面表现优秀。来源: IT之家
Hugging Face 推出“SmolLM”小语言 Python 编程模型,6GB RAM iPhone 15 亦可运行
新闻概要:7 月 20 日消息,小语言模型热度渐升,Hugging Face 公布“SmolLM”小语言模型家族,包括 1.35 亿、3.6 亿及 17 亿参数模型。这些模型以高质量训练数据集训练而成,重点优化了 RAM 用量,在 Python 程序编写性能强大,甚至 6GB RAM 的 iPhone 15 也能运行。团队建立了 SmolLM-Corpus 数据集,包含 Python 教学等内容,token 量总计 6000 亿,并以此训练模型。经基准测试,不同参数的 SmolLM 模型在与同参数量其他模型对比中各有优劣。来源: IT之家
谷歌、微软、英伟达等 14 家公司组建安全 AI 联盟
新闻概要:7 月 19 日消息,在昨日举办的阿斯彭安全论坛会议中,谷歌、微软、OpenAI、亚马逊、英伟达、英特尔等 14 家 AI 领域大公司联合组建了安全人工智能联盟(CoSAI)。该联盟由 OASIS 全球标准机构主办,是一项开源计划,旨在为 AI 从业人员和开发人员提供创建设计安全人工智能系统所需的指导和工具,并将建立合作生态系统,共享开源方法、标准化框架和工具等。CoSAI 首先致力于开发人工智能安全的最佳实践、应对相关挑战以及确保应用安全,其工作范围涵盖安全构建、集成、部署和运行人工智能系统,重点降低模型盗窃等风险。来源: IT之家
高盛顶级股票分析师:AI不会掀起经济革命,泡沫终归会破灭
新闻概要:高盛全球股票研究主管 Jim Covello 对今年美股上涨的主要推手人工智能(AI)概念泼冷水。他认为,AI 带来的经济效益甚至比不上智能手机和互联网,其是用成本高昂的技术取代低薪工作,与过去有变革意义的技术转型相反。为证明高昂成本合理,AI 必须解决复杂问题,但这并非其设计初衷,且目前成本极高,即使用机器学习取代人类也无法降低成本。AI 尚未有“杀手级应用”,怀疑论者认为人们对 AI 技术的商业期望可能被极度夸大,若科技巨头重新考虑巨额投资,股市或回调。来源: 华尔街见闻
向英伟达发起挑战?OpenAI据称正与博通等公司接洽研发AI芯片
新闻概要:据报道,ChatGPT 制造商 OpenAI 正在与包括博通在内的芯片设计商接洽,探讨研发全新的 AI 芯片。OpenAI 开发的人工智能模型依赖昂贵的 GPU,为克服此问题探索自主制造芯片,还招聘前谷歌员工以借助其开发 Tensor 处理器的经验和技术开发自家的 AI 服务器芯片。此举旨在减少对英伟达的依赖,也是其首席执行官奥特曼提升全球半导体基础设施愿景的一部分。若芯片最终得以开发,最早到 2026 年才能生产。此外,OpenAI 为全面进军 AI 领域,计划筹集资金与芯片制造商合作生产半导体,周四还上架了“便宜又强悍”的 GPT-4o mini 模型,开打价格战。来源: 财联社
英伟达联合发布 Mistral-NeMo AI 模型,变革商业 AI 应用
新闻概要:2024 年 7 月 19 日消息,英伟达联合法国初创公司 Mistral AI 发布全新的 Mistral-NeMo AI 大语言模型。该模型拥有 120 亿个参数,上下文窗口达 12.8 万个 token。此模型主要面向企业环境,让企业在不依赖大量云资源的情况下实施人工智能解决方案。它基于标准架构,企业使用时可直接替换相关系统。英伟达和 Mistral AI 的合作标志着人工智能行业企业解决方案的重大转变,有望解决企业在采用人工智能时面临的数据隐私、延迟和高成本等问题,为小型企业创造公平竞争环境。不过,其真正影响取决于实际表现及相关生态系统。该模型以 Apache 2.0 许可发布,允许商业使用。来源: IT之家
OpenAI 开打价格战!GPT-4o 最新变种价格骤降 96%-97%
新闻概要:当地时间周四早晨,OpenAI 宣布正式上架新一代入门级人工智能“小模型”GPT-4o mini,其价格显著下降。GPT-4o mini 的 API 价格大幅低于 GPT-4o 和 GPT-3.5 Turbo,已达美国 AI 公司主流“小模型”里价格最低的位置。它在 MMLU 测试中评分达 82%,性能在同类“小模型”中较强。该模型上线初期只能处理文字和图像生成任务,且采用全新安全策略。OpenAI 称降价是因改进模型结构等,同时面临着来自 Meta 公司下周发布 Llama 3 开源大模型的竞争压力。来源: 财联社
监管存在不确定性,Meta(META.US)不在欧盟提供新多模态AI模型
新闻概要:由于欧洲监管环境的不可预测性,Meta 平台决定不向欧盟客户提供其多模式人工智能模型 Llama。此前,Meta 已推迟其人工智能助手 Meta AI 在欧洲的推出,还面临着爱尔兰隐私监管机构关于使用社交平台内容作为训练数据的请求以及相关投诉。此外,训练人工智能模型需遵守欧盟关于用户个人数据收集和处理的规定,Meta 称已向欧盟监管机构通报并处理反馈,但仍面临诸多问题,如监管机构要求暂停却未明确表达担忧,还提出 270 多个详细问题。Meta 强调欧盟数据训练对产品的重要性,否则其模型对欧洲公民和企业而言效果不佳。来源: 智通财经
OpenAI“最后一篇”超级对齐论文发布:大小模型相互博弈,输出可读性提升
新闻概要:OpenAI 发布超级对齐论文,研究让大小模型相互博弈以提升输出的可读性。在训练中,大模型担任“证明者”,小模型作为“验证者”。研究发现,模型在准确性和易读性上存在制衡,而此方法在保证准确率的同时提高了易读性。人类对模型输出的判断准确率明显增长,速度变快。该研究受多伦多大学“证明者-验证者”博弈启发,使用包含小学数学问题等的数据集和不同规模的 GPT-4 系列模型。此外,还探讨了验证器规模的影响等,超级对齐团队虽已解散,但 OpenAI 称仍有多人从事安全工作。来源: 量子位
加速 AI 进程!三星电子收购英国 AI 公司 相关技术将覆盖全产品
新闻概要:2024 年 7 月 18 日,三星电子宣布收购英国 AI 初创公司 Oxford Semantic Technologies。该公司成立于 2017 年,由三位牛津大学教授创立,主要研发知识图谱技术。此技术能将信息存储为关联思维网络,方便检索和推荐,被视为实现复杂个性化 AI 方案的关键技术之一。三星电子从 2018 年就与其就投资展开讨论,此次收购将引入先进的个人知识图谱核心引擎,与三星设备端 AI 技术结合,为用户打造超个性化体验,且适用于三星所有产品,包括移动设备、电视和家用电器。来源: 财联社
通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布 :前三名文科过一本,理科过二本
新闻概要:7 月 18 日消息,上海人工智能实验室公布了对 7 款 AI 大模型的高考全科目测试结果。书生・浦语 2.0 系列文曲星大模型、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 包揽文、理科前三甲,其成绩分别超过一本、二本线。此次评测包括全卷考试、考前开源、老师打分、完全公开等特征。但阅卷老师认为大模型仍存在差距,如在逻辑推理、知识灵活应用方面差强人意,主观题答非所问,数学解题逻辑性差,对理化实验理解肤浅,还会伪造虚构内容等。来源: IT之家
小米、王田苗、智源投资具身智能公司「小雨智造」
新闻概要:2023 年 2 月成立的具身智能科技公司「小雨智造」,成立后陆续完成亿元种子轮融资,由小米集团、机器人泰斗王田苗、北京智源研究院出资。「小雨智造」核心创始团队曾是小米高层,如创始人乔忠良、联合创始人王文林等。该公司主要打造“一脑多形”的具身智能机器人,产品将先落在工业领域,已获某重工业头部企业百台焊接机器人订单并开始联合运营。小米内部也布局了具身智能业务,成立机器人实验室,推出相关产品,推进工业场景应用。通过内外两手抓,小米在具身智能热潮中缩短布局时间,卡位人工智能下一波浪潮。来源: 36 氪
苹果回应使用 YouTube 资源训练 AI:未用于 Apple Intelligence
新闻概要:品玩 7 月 18 日报道,针对苹果等公司使用未经授权的 YouTube 视频训练 AI 大模型一事,苹果于今日发表回应。苹果称其使用相关数据集训练开源的 OpenELM 模型,此模型仅用于研究,且未支持包括 Apple Intelligence 在内的任何人工智能或机器学习功能。该模型以开源方式发布,可广泛获取,包括在苹果的机器学习研究网站上。苹果公司强调创建 OpenELM 模型旨在为研究社区做贡献,推动开源大型语言模型的开发。来源: 品玩
微软发布 iOS/安卓正式版 Designer 应用,支持 AI 修图与生成贺卡等
新闻概要:2024 年 7 月 18 日消息,经过近一年的预览测试,微软正式在苹果 iOS 平台和谷歌安卓平台推出 Microsoft Designer 应用。该应用已实现全平台上线,包括 iOS、Android、Windows 以及网页版本,用户能根据不同场景跨平台推进 AI 项目。此应用借助生成式 AI 的强大功能,用户可用自己的话语创建吸睛图像,制作如个性化生日贺卡、节日贺卡、手机壁纸等高级流行设计,还能像专家一样进行 AI 照片编辑,比如擦除照片背景,随时随地按需创作,充分释放用户的创造力。来源: IT之家
Anthropic 与风投联手推出 1 亿美元 AI 基金,欲与 OpenAI 竞争
新闻概要:美东时间 7 月 17 日周三,Anthropic 与 Menlo Ventures 联手推出一只价值 1 亿美元的基金——Anthology Fund,旨在支持早期阶段的 AI 初创公司,并提供使用 Anthropic AI 技术的资源。该举措借鉴了苹果公司 iFund 的成功经验。Menlo Ventures 将提供 1 亿美元投资资金,Anthropic 将为初创公司创始人提供 2.5 万美元信用额度用于使用其大型语言模型。除资金支持外,Anthropic 还提供指导等资源,且不获取初创公司股份或财务利益,而是建立反馈机制改进自身产品技术。当前 AI 初创公司融资快速增长,市场竞争激烈,Anthropic 直接与 OpenAI 竞争,OpenAI 也有自己的风险投资基金。来源: 华尔街见闻
DeepL 推出新一代翻译编辑大型语言模型,译文受青睐度超 ChatGPT-4 等
新闻概要:7 月 18 日消息,语言人工智能公司 DeepL 宣布推出新一代面向翻译和编辑应用的大型语言模型。该模型译文受语言专家青睐程度颇高,是谷歌翻译的 1.3 倍,ChatGPT-4 的 1.7 倍,微软翻译的 2.3 倍。新模型基于过去七年积累的训练语料,采用先进技术并获数千名语言专家“辅导”,专为内容创建和翻译打造。在英日、英中、英德互译时质量显著提升,能大大减少机器翻译后的人工再编辑。DeepL Pro 付费订阅用户已可使用新模型进行相关互译,并能在新旧模型间切换。来源: IT之家
谷歌发布 AI 智能体平台 Oscar,用于维护开源项目
新闻概要:在印度班加罗尔谷歌 I/O Connect 开发者活动期间,Go 语言开发团队宣布推出用于构建 AI 智能体的开源平台 Oscar。该平台可以帮助软件产品团队监控问题或错误,开发者能创建在软件开发生命周期中发挥作用的多种智能体,且能通过自然语言交互。谷歌开源编程语言 Go 的产品经理 Cameron Balahan 称,Go 项目规模大,跟踪问题困难,目前 Go 团队已使用基于 Oscar 开发的智能体处理问题报告,并将很快部署到谷歌其他开源项目,且希望任何人都能用于自己的项目。来源: OSChina
研究:生成式 AI 更像是记忆大师而非推理高手
新闻概要:麻省理工学院计算机科学与人工智能实验室的研究指出,生成式 AI 虽发展迅猛、应用广泛,如 ChatGPT 和微软 Copilot 能写代码、纠错等,但更依赖记忆而非推理能力。在熟悉任务中表现佳,面对新问题则力不从心。如 GPT-4 在十进制算术出色,其他进制就难应对。这表明 AI 在训练领域可达甚至超人类水平,是“记忆力”体现,真需推理时优势不再。该发现对其未来发展提出新挑战,在创意、解决复杂问题等方面仍有很大提升空间,如媒体行业用其写新闻错误多,游戏行业虽有辅助作用,但核心仍靠人类智慧。来源: IT之家
监管风暴来袭!FTC盯上亚马逊与AI初创公司Adept的交易
新闻概要:美国联邦贸易委员会(FTC)已对亚马逊与人工智能初创公司Adept的交易展开非正式调查。上月亚马逊宣布与Adept达成协议,聘请其关键高管并获取技术许可。此交易引发部分人士怀疑,被指或为大型科技公司规避反垄断审查之举。当下,美和海外监管机构加强对科技公司投资及与AI初创公司合作关系的审查。FTC今年1月调查亚马逊等公司的AI交易,美司法部调查英伟达,英国竞争监管机构CMA也对相关类似交易展开调查。监管机构对AI领域交易的组合方式日益担忧。来源: 财联社
特朗普盟友起草AI行政命令,启动“曼哈顿计划”
据外媒报道,前美国总统唐纳德·特朗普的盟友正在起草一项全面的人工智能行政命令,该命令将启动一系列“曼哈顿项目”,以开发军事技术,并立即审查“不必要和繁琐的法规”。这表明特朗普第二届政府可能会推行有利于硅谷投资者和公司的人工智能(AI)政策。来源: 智东西
钛媒体AGI独家|抖音快手激战人工智能大模型
新闻概要:曾在互联网短视频平台领域竞争的抖音和快手,如今围绕中国领先 AI 视频大模型展开新的角逐。快手在 AI 视频大模型领域进展迅速,其可灵模型申请用户数超 50 万,开通用户数超 30 万,生成视频数达 700 万以上,并在商业化层面有所布局。字节跳动也全面追赶,对 AI 大模型进行从模型层到应用层的全面布局,但暂未出现抖音利用 AI 大模型实现商业化的更多信息。目前 AI 大模型应用落地才刚刚开始,用 AI 赚钱的时代尚需时日。来源: 钛媒体
Anthropic 推出 Claude Android 应用程序,硬刚 OpenAI
新闻概要:Anthropic 于周二推出 Claude Android 应用程序,希望借此与 OpenAI 竞争。该应用程序与 5 月发布的 iOS 版本运作模式相同,用户可免费访问 Claude 3.5 Sonnet 模型,并能通过订阅升级计划获得更多服务。它具备实时图像分析、实时语言翻译功能,还允许企业客户在移动设备上访问账户。然而,尽管 Anthropic 声称其 AI 模型技术不逊于 OpenAI 和 Google 的产品,但该初创公司在吸引消费者方面仍存困难,如 Claude iOS 应用发布反响平淡,首周全球下载量远低于 ChatGPT iOS 应用。来源: 华尔街见闻
大神卡帕西官宣创业:打造一所AI原生学校
新闻概要:2024 年 7 月 17 日,Andrej Karpathy(卡帕西)官宣创业,成立了一家名为 Eureka Labs 的 AI 原生新型学校。卡帕西是 OpenAI 创始成员和曾任特斯拉 AI 主管,此次全职投身于 AI 原生教育。他计划打造“教师+人工智能的共生”模式,以让更多人有学习机会,并使每个人能学习更多科目。其首个产品是首门课程 LLM101n,号称“世界上显然最好的 AI 课程”,目前课程大纲已出炉,课程内容免费,部分相关代码和数据已在官方 GitHub 账号放出。来源: 量子位
科技巨头被指未经授权用 YouTube 内容训练 AI,苹果、英伟达等在列
新闻概要:据报道,包括苹果、英伟达、Salesforce 在内的一些科技巨头被指未经 YouTube 视频创作者同意,使用其视频的字幕文件来训练人工智能模型。此次事件涉及众多知名创作者,超过 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用于训练,下载这些字幕文件的是 EleutherAI 这一非盈利组织。尽管苹果未亲自下载数据,从技术层面看是 EleutherAI 违反规定,但此事件仍凸显了抓取网络数据训练 AI 系统的法律风险,此前就有 AI 系统抄袭文本案例,使用第三方数据集会增加未经许可使用素材的风险。来源: IT之家
Mistral AI 推出两款新模型:数学模型和基于 Mamba 架构的代码生成模型
法国人工智能初创公司 Mistral AI推出了两个新模型:一个基于数学的模型 MathΣtral,以及一个基于 Mamba 架构的供程序员和开发人员使用的代码生成模型 Codestral Mamba。在基准测试中,Mistral 称 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。来源: VentureBeat
英国监管机构调查微软与 Inflection AI 相关交易
新闻概要:7 月 16 日,英国竞争和市场管理局(CMA)声明称,正在调查微软雇佣 Inflection AI 部分前员工及双方相关安排的情况。CMA 担忧此举可能致使“竞争实质性减少”,第一阶段决定的截止日期为 9 月 11 日,届时将宣布是否转入深入调查的第二阶段。今年 4 月,CMA 曾针对微软与多家人工智能初创公司的交易展开调查。3 月,微软宣布聘请 Inflection AI 联合创始人,并招收其大部分员工,还将支付约 6.5 亿美元授权费。6 月有报道称,美国联邦贸易委员会也在调查此交易是否刻意规避政府审查。微软近年来投资多家 AI 初创公司,包括向 OpenAI 投入数十亿美元。来源: IT之家
腾讯元宝首发 3D 生成应用,一张图生成 3D 角色
新闻概要:7 月 16 日消息,腾讯旗下大模型应用“腾讯元宝”上线“3D 角色梦工厂”玩法,这是首个拥有打印级 3D 生成能力的通用大模型 App。用户只需上传一张五官清晰的正面头像,并选择不同角色模版,就能迅速生成个人 3D 角色。生成后的角色可全方位查看、分享等,还能保存做二次编辑或线下打印。该应用使用了 3D 换头、几何雕刻、PBR 材质贴图等技术提升生成效果。腾讯混元大模型早已布局 3D 能力,未来其 3D 生成能力将与更多场景结合助力产业发展。来源: 量子位
微软为 Excel 等研发新 AI 模型,性能大幅提升且成本骤降
新闻概要:2024 年 7 月 16 日消息,微软公布将为 Excel、谷歌 Sheets 等电子表格应用程序开发全新的 AI 大语言模型 SpreadsheetLLM。研究人员指出传统 AI 模型难以胜任电子表格处理场景,而该新模型专为电子表格应用设计,还研发了 SheetCompressor 以助其更好地理解和处理数据。此模型由 3 个模块组成,大大提高了电子表格检测任务的性能,比普通方法高出 25.6%,词元使用成本降低 96%,但目前仍存在一些限制,如无法高效处理使用背景颜色和边框的电子表格等。来源: IT之家
机构揭秘OpenAI年收翻倍奥秘 付费用户数接近千万级别
新闻概要:据财联社报道,调研机构 FutureSearch 发布报告分析了 OpenAI 的收入组成。一个月前,OpenAI 首席执行官奥尔特曼称公司今年收入有望达 34 亿美元,实现翻倍。FutureSearch 推算,年度经常性收入中约 55%来自 770 万 ChatGPT Plus 用户,21%来自 120 万“ChatGPT Enterprise”企业用户,8%来自 98 万“ChatGPT Team”服务用户,15%来自 API 收入,预计每月付费用户约 988 万。此外,OpenAI 内部团队正在进行“草莓”项目,旨在提高人工智能模型的推理能力。
来源: 财联社
谷歌 Gemini AI 遭质疑:未经用户同意读取 Google Drive 文档
据 IT 之家 7 月 15 日消息,谷歌的人工智能服务 Gemini AI 被指在未经用户明确许可的情况下读取 Google Drive 中的私人文档。用户 @Kevin Bankston 最初发现 Gemini 似乎在阅读其 Google Drive 文档,且找不到禁用该功能的选项。经调查,虽明确是 Google Drive 本身的问题,但相关隐私设置用户难以管理。即便禁用相关功能,Gemini 仍会自动扫描部分文档。Bankston 推测这可能与启用 Google Workspace Labs 功能有关。该问题虽可能仅限于此类用户,但在涉及敏感信息时,严重侵犯了用户的知情同意权,引发对数据安全的质疑。来源: IT 之家
谷歌DeepMind被曝抄袭开源成果,论文竟中顶流会议
新闻概要:谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被指抄袭。“原告”Brandon T. Willard和R´emi Louf称谷歌就是把他们一年前开源的技术报告洗了一遍。两篇论文探讨的都是规范模型文本生成结构的方法,虽谷歌标明引用,但“原告”坚称抄袭,认为其对差异性的表述荒谬。网友也对论文对比表示质疑,不少人认为这种抄袭现象并非个例,有人分享自己类似被抄袭的遭遇,也有人表达不同意见。此事引发广泛关注和讨论。来源: 量子位
日本总务省:中国对ChatGPT等生成式AI应用全球第一
新闻概要:日本总务省发布2024年生成式AI应用白皮书,对多国进行调查对比。结果显示,中国以56.3%的使用率排名第一,美国46.3%位居第二,英国39.8%排第三,德国34.6%列第四,日本9.1%垫底。在企业应用方面,中国以71.2%大幅领先,美国46.3%排第二,德国30.1%第三,日本15.7%再次垫底。用户不喜欢使用生成式AI的原因包括不知如何使用、生活中不需要、缺乏使用动力等。生成式AI应用场景多样,使用能提升企业效率等,但也存在数据泄漏等风险。日本因人口老龄化和原生数字人口低潮,需加强教育和宣传跟上趋势。来源: AIGC开放社区
中国农业大学发布“神农大模型 2.0”,多领域应用推动农业智能化
新闻概要:7 月 13 日,第八届智慧农业创新发展国际会议在北京举行,中国农业大学发布了“神农大模型 2.0”。相较于 1.0 版本,2.0 版在多模态交互及智能化推理方面有所提升,能够覆盖育种、种植、养殖、农业遥感及气象等多个农业应用场景。该模型包含“神农・固芯”育种大模型、“神农・筑基”种植大模型、“神农・强牧”养殖大模型和“神农・问穹”遥感气象大模型,分别在各自领域发挥重要作用,为农业的科学发展提供有力支持,推动农业向智能化、科学化转型。来源: IT之家
OpenAI 绝密项目「草莓」曝光,前身为 Q*,能实现高级推理
新闻概要:OpenAI 内部正在开发代号为“草莓(Strawberry)”的项目,其前身为 Q*。该项目细节此前未被报道,且工作原理严格保密。据了解,“草莓”旨在让人工智能实现高级推理能力,不仅能生成答案,还能提前规划、自主可靠地浏览互联网进行“深度研究”。OpenAI 希望借此显著提高模型推理能力,目前无法确定其距离公开发布的时间。研究人员普遍认为推理是人工智能实现人类或超人级智能的关键,各大公司和学术实验室都在尝试改进模型推理能力。来源: 机器之心
“最强开源 AI 模型”,4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布
新闻概要:据科技媒体 The Information 本周五消息,内部员工曝料称 Meta 公司计划于 7 月 23 日发布开源 AI 模型 Llama 3-405B。该模型将在现有 80 亿和 700 亿参数两个版本基础上,推出 4050 亿参数版本,号称是最强大的开源大语言模型。今年 4 月发布 Llama 3 AI 模型时,扎克伯格曾透露正在训练 4050 亿像素的密集模型,但未透露更多信息。报道称 Llama 3-405B 为多模态 AI 开源模型,能理解图像、文本等多种媒体内容,且已有开发者使用。来源: IT之家
美国提出《COPIED 法案》,规范生成式 AI 产品
新闻概要:2024 年 7 月 12 日晚,美国参议院官网公布由 Cantwell、Blackburn 和 Heinrich 三位两党国会议员提出的新法案——COPIED Act。该法案旨在制定规则标记、验证和检测生成式 AI 产品,如 ChatGPT、Uido、Suno 等,提升内容透明度,防止非法乱用,保护公众数据和隐私,维护艺术、商业群体利益。法案要求商业生成式 AI 产品标注内容来源,禁止移除或篡改来源信息,为生成受版权保护作品的 AI 提供附加来源信息选项,开展公共教育活动,并建立赔偿机制。此法案得到众多组织支持,音乐组织尤其高兴,因生成式 AI 对传统音乐人的饭碗构成威胁。来源: AIGC开放社区
亚马逊推出 AI 购物助手 Rufus ,可满足多样需求
新闻概要:2024 年 7 月 12 日消息,亚马逊宣布其生成式 AI 购物助手 Rufus 经过五个月小范围测试后,现已面向所有美国客户开放。Rufus 旨在帮助客户节省时间并做出更明智的购物决策,能够回答各种购物需求和商品问题,如同随身购物助手。用户可通过点击亚马逊 App 中的图标调出文本聊天界面向其提问,比如识别耐用的户外扬声器型号、比较跑鞋或获取订单更新。此外,Rufus 接受过亚马逊目录和网络内容训练,还熟悉名人生平,能提供游玩建议甚至创作短篇小说。来源: IT之家
再升级!Video 版 CogVLM2 开源
新闻概要:随着大型语言模型和多模态对齐技术的发展,视频理解模型在开放领域取得显著进展,但当前多数模型存在时间信息丢失、适用领域局限等问题。为此,研究团队提出基于视觉模型的自动时间定位数据构建方法,生成 3 万条与时间相关的视频问答数据,并引入多帧视频图像和时间戳作为编码器输入,训练出新的视频理解模型 CogVLM2-Video。该模型不仅在公共视频理解基准上达到最新性能,在视频字幕生成和时间定位方面表现出色,为后续任务提供有力工具。其解决了现有模型时间感知能力不足的问题,还通过自动化数据处理流程构造大量数据,在多个公开评测集上取得最佳性能。来源:GLM 大模型
独家|AI社交大战升级,百度推出仿真人AI社交App“文小言”
新闻概要:Tech星球独家获悉,百度于近日上线了名为“文小言”的AI数字人社交App。该产品基于文心大模型技术打造,采用仿真数字人作为社交对象,让交互更具真实感。进入App后,用户可在“发现”栏寻找心怡的数字人聊天对象,数字人能提供多种聊天服务。用户能通过手写、语音和发送图片等方式与数字人互动,数字人会以语音、文字及肢体语言回应。不过,“文小言”存在数字人肢体动作不流畅、不支持用户创建专属数字人等体验问题。在AI社交市场竞争激烈的当下,百度能否凭借“文小言”杀出一条出路有待观察。来源: Tech星球
OpenAI 提出通用人工智能五级标准,自认为接近但未达第二级
新闻概要:7 月 12 日消息,彭博社报道称 OpenAI 提出通用人工智能五级标准,以确认人工智能进展。通用人工智能指具有高效学习和泛化能力、能自主产生并完成任务,具备多种能力且符合人类观念。OpenAI 自认为目前处于第一级,即将达到第二级。第一级为具有会话语言的聊天机器人,第二级是能解决人类水平问题的推理者。OpenAI 一直致力于构建此类系统,其首席执行官 Sam Altman 曾预计 2030 年之前可实现 AGI。来源: IT之家
吴恩达强烈抵制美国SB 1047法案,称其对开源大模型具毁灭性打击
新闻概要:美国加州拟定的SB-1047法案备受争议,全球著名AI科学家吴恩达及众多专业人士对其强烈抵制。该法案针对开源大模型,存在诸多不合理条款,如要求开发人员保护开源大模型的乱用、修改及非法衍生产品,且行为界定模糊,若有人利用开源大模型从事违法行为,原开发商将受制裁。该法案不仅可能扼杀加州的AI创新,也无法阻挡中国在该领域的竞争力,反而会严重阻碍美国的开源大模型创新。来源: AIGC开放社区
AI布局再加速 软银收购“英国英伟达”Graphcore
新闻概要:据报道,日本软银集团确认收购英国人工智能芯片初创公司 Graphcore,交易金额未公开。Graphcore 曾凭借新型智能处理单元被寄予厚望成为“英国英伟达”,其估值一度达 28 亿美元,并获微软、红杉等支持。这并非软银首次收购英国初创芯片公司,2016 年已收购 Arm。今年以来,软银在人工智能领域动作不断,如准备开发生成式 AI 计算设备、加大投资等。此次收购被认为对英国科技和 Graphcore 是好消息,在英伟达主导生成式人工智能领域的背景下,行业需要有力的竞争,软银股价也因此上涨。来源: 财联社
三星承诺今年将在全球 2 亿台设备上推出 Galaxy AI
三星在昨晚的 Galaxy Unpacked 活动上宣布,今年底将在全球 2 亿台设备上推出 Galaxy AI。Galaxy AI 已在部分设备上推出,未来还将通过更新为兼容设备添加更多功能。会上展示了如消息应用的 AI 回复建议、三星笔记绘图辅助等新功能。来源: CNMO
微软放弃OpenAI董事会观察员席位,但美国监管机构紧追不舍
新闻概要:据报道,微软、苹果计划放弃在 OpenAI 董事会的观察员席位。此举旨在缓解美英反垄断监管机构担忧,但美国联邦贸易委员会表示这一变化不太可能解决其担忧。微软曾因观察员席位及投资引发监管不安,如今放弃,被指是明智之举。监管机构的担忧似乎不止于此。来源: 钛媒体
正式敲定!三星今年将推出升级版语音助手 Bixby 配备自家大模型
三星移动业务负责人 TM Roh 称,今年将推出配备自家大型语言模型的升级版语音助手 Bixby。Bixby 于 2017 年推出,有多种功能,此次升级反映三星努力推广人工智能功能。此外,三星还将允许其他语音助手在其设备运用。三星确认 Bixby 升级时间比苹果晚一个月。来源: 财联社
AMD 豪掷 6.65 亿美元收购芬兰 AI 初创公司 Silo AI 以与英伟达竞争
新闻概要:2024 年 7 月 10 日消息,芯片巨头 AMD 宣布斥资约 6.65 亿美元现金收购芬兰人工智能初创公司 Silo AI。此次收购旨在增强其人工智能芯片能力,改进模型开发和部署,加强软件开发能力。Silo AI 专注端到端 AI 驱动解决方案,其 CEO 将继续领导该部门,交易预计于 2024 年下半年完成。来源: IT之家
夸克升级“超级搜索框” 推出AI搜索为中心的一站式AI服务
新闻概要:7月10日,阿里智能信息事业群旗下夸克升级“超级搜索框”,推出以AI搜索为中心的一站式AI服务。该服务集智能回答、创作、总结于一体,还提供多种内容产品和智能工具,满足用户信息检索、生成与处理需求。夸克在模型、搜索、数据、应用场景方面具备优势,将加速产品创新。来源: 新华网
AI 搜索助手心流正式上线,小程序及 APP 版本将推出
该新闻指出,AI 搜索助手心流已正式上线。其产品定位为用户的 AI 搜索助手,具备智能搜索、知识问答、智能阅读和辅助创作等多种功能,能够在多方面为用户提供帮助,旨在显著提升用户的工作效率和创造力,以满足用户在信息获取和内容创作等方面的需求。来源: Meo AI
微软宣布放弃 OpenAI 董事会观察员席位,苹果也不会担任类似角色
新闻概要:2024 年 7 月 10 日消息,微软当地时间周一宣布放弃 OpenAI 董事会的观察员席位,称对其发展方向充满信心,该席位不再必要。此前微软在阿尔特曼回归 OpenAI 中发挥关键作用。此外,苹果也不会担任类似角色,OpenAI 称将寻找新策略让关键伙伴和投资者参与。来源: IT之家
与甲骨文百亿美元合作谈判破裂 马斯克旗下 xAI 拟自购芯片建数据中心
新闻概要:马斯克旗下的 AI 公司 xAI 与甲骨文之间高达 100 亿美元的合作谈判破裂。原计划 xAI 从甲骨文租赁英伟达芯片,现决定自购芯片建数据中心。双方谈判陷入僵局,原因包括建造速度和电力供应担忧等。该项目被视为 xAI 追赶业界巨头的关键举措。来源: 腾讯科技
谷歌 DeepMind CEO:当前 AI 综合智力不如普通家猫
新闻概要:谷歌 DeepMind 首席执行官戴密斯・哈萨比斯称,当前 AI 综合智力未达猫的水平。其虽能像人一样写作、绘画、做音乐,但作为通用系统衡量,IQ 智商不如猫,更不及人类。不过在游戏等领域表现出色,且有望加速多领域科学研究。同时,DeepMind 正推进“阿斯特拉计划”。来源: IT之家
遥遥领先!调查:中国在生成式人工智能应用方面全球第一
新闻概要:周二公布的最新调查显示,中国在生成式人工智能应用和普及方面领先全球。83%的中国受访者表示已采用,远超其他国家平均水平。中国在 GenAI 专利竞赛和法规建设等方面也表现出色,但在全面实施方面逊于美国。各行业应用有先有后。来源: 财联社
估值 5 亿美元!AI 视频初创公司 Captions 获 6000 万美元投资
AI 视频制作和编辑初创公司 Captions 由 Gaurav Misra 和 Dwight Churchill 于 2021 年创立,目前已完成新一轮 6000 万美元融资,估值达 5 亿美元。其软件功能强大,用户广泛,同时为遏制潜在虚假信息做出软件设计选择和限制。来源: 有新Newin
Gartner:64%受访者不希望客服系统部署 AI
Gartner 于 2023 年 12 月问卷调查 5728 名客户,结果显示 64%的受访客户不希望客服使用 AI。53%的客户若发现某公司客服用 AI 会考虑转向竞争对手。客户认为 AI 客服使联系人工客服更难,还担心提供错误答案等。如 60%受访者觉得更难找到人工客服,42%担忧提供错误答案。来源: IT之家
腾讯智影小程序上线 AI 视频功能,限时免费生成风格化视频
新闻概要:7 月 9 日消息,腾讯智影小程序新上线智影 AI 视频功能。该功能可一键生成风格化视频,目前有日漫风格可选,且限时免费。风格化是对原视频处理,能提升美感等。导入视频一键“变身”,支持 10s 视频,还有多种模板。腾讯智影于 2023 年 3 月上线,是集成 AI 创作能力的智能工具。来源: IT之家
AI 文档搜索公司 Hebbia 完成 1.3 亿美元融资,a16z 领投
2024 年 7 月 9 日消息,位于纽约的 AI 初创公司 Hebbia 于周一宣布完成新一轮 1.3 亿美元融资,由 a16z 领投,Index Ventures、Google Ventures 以及 Peter Thiel 参投。Hebbia 成立于 2020 年,目前估值约 7 亿美元,其软件能分析多种数字化文档和数据源,公司计划用新资金开展研究并聘请更多软件工程师。来源: 有新Newin
中国工程院院士郑纬民:国产AI芯片核心问题是生态不够好,如果生态好60%的性能也有人用
新闻概要:7月7日信息化百人会2024年度研讨会上,郑纬民院士指出,AI大模型发展使算力供不应求,国产AI芯片虽有进展但生态不佳。大模型算力分四层,训练成本中算力占70%,推理成本中95%是算力。他认为做好软件生态的十个方面,国产芯片达国外60%性能也会被用。来源: 钛媒体
古尔曼:苹果首款支持 Apple Intelligence 的智能家居设备将是桌面机器人
据彭博社记者马克·古尔曼透露,苹果备受期待的“Apple Intelligence”功能今年晚些将先登陆部分设备,而其首款支持该功能的智能家居设备将是全新桌面机器人。此机器人开发进度较快但仍处早期,能移动显示屏等。目前关于 HomePod 音箱的消息存在矛盾。来源: IT之家
Anthropic 首席执行官:未来三年内 AI 大模型训练成本将剧增
AI 初创公司 Anthropic 的首席执行官 Dario Amodei 称,当前如 GPT-4 等模型训练成本约 1 亿美元,正在开发的大模型可能达 10 亿美元。其预测未来三年内,训练成本将升至 100 亿甚至 1000 亿美元。硬件是训练模型最大成本驱动因素,马斯克等也有相关动作。来源: IT之家
MOSS大模型项目负责人邱锡鹏:大模型的下个阶段是“世界模型”
新闻概要:在由财联社等联合主办的AI产业创新与投资发展主题会上,MOSS大模型项目负责人邱锡鹏指出当前大语言模型存在不足,如落地时的“幻觉问题”。未来趋势是走向“世界模型”,即观察世界、产生动作。邱锡鹏还提出了将大模型演化到世界模型的六大方向。来源: 财联社
曝 Apple Intelligence 版全新 Siri 今年不会推出,明年 1 月开测,iOS 18.4 上线
据彭博社记者马克·古尔曼消息,苹果公司今年不会推出全新的 Apple Intelligence 驱动的 Siri,计划明年 1 月开始测试,iOS 18.4 推出正式版本。此前,苹果在 2024 年 WWDC 全球开发者大会上宣布新 Siri,它能理解上下文等。新 Siri 需特定硬件支持,如 iPhone 15 Pro 等。来源: 中关村在线
X 被曝将新增多项 Grok 模型功能支持,含聊天机器人侧面板
据报道,独立应用程序研究者 Nima Owji 称 X 社交平台正开发基于 xAI Grok 模型的多项功能,包括聊天机器人侧面板、账户总结和高亮文本搜索等,旨在提升 X Premium 付费订阅吸引力。这些功能尚未向公众开放,X 平台移动端收入连续两月下滑。来源: IT之家
Kimi 浏览器插件上线,多项新功能优化体验
Kimi 上线了浏览器插件,优化了 Web/ App 的体验。插件有点问笔和总结器两个按钮,支持多种使用方式。过去一个月,Kimi 在 App 和网页版也做了诸多体验优化,如微信文件打开、搜索引用溯源、部分内容复制等。未来将持续提升回答质量,解决更专业复杂的问题。来源: 月之暗面 2024 年 07 月 08 日 19 点 42 分 50 秒 星期一
阿里云 CTO 周靖人:通义真正实现全尺寸、全模态开源,下载量已破 2000 万
新闻概要:7 月 5 日,在上海世界人工智能大会上,阿里云 CTO 周靖人公布通义大模型和阿里云百炼平台的最新进展。通义千问开源模型下载量近两个月增长 2 倍破 2000 万次,百炼服务客户数增长超 150%。阿里云坚持开源开放,降低模型使用门槛,加速大模型应用落地。来源: 极客公园
阿里通义 App 上线国内首个关照孤独症儿童的 AI 绘本“追星星的 AI”
新闻概要:7 月 5 日,阿里通义 App 上线“追星星的 AI”,这是国内首个关照孤独症儿童的 AI 绘本工具。它基于阿里自研框架和通义大模型服务,能从一句话故事梗概生成完整有声绘本。绘本画面简洁、人物突出,可定制,已上线特定主角绘本,上海美术电影制片厂免费授权经典动画形象供使用。来源: IT之家
黑客去年曾侵入 OpenAI 内部系统?部分 AI 设计细节被盗
新闻概要:据报道,一名黑客去年成功侵入 OpenAI 内部消息系统,窃取了部分人工智能技术的设计细节。OpenAI 高管去年 4 月在全体员工大会上通报了此漏洞,但决定不公开。业内人士担忧该公司技术安全性,原技术项目经理认为公司在防止机密窃取方面不足,OpenAI 发言人对此予以回应。来源: 财联社
蚂蚁百灵大模型最新进展:已具备原生多模态能力
在 2024 世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布百灵大模型最新研发进展,其已具备原生多模态能力,能直接理解和训练多模态数据,在多个领域展现出巨大应用潜力,已应用于多个场景,还探索了规模应用落地产业的实践。来源: 机器之心
支付宝发布多模态医疗大模型,支持千亿级视觉识别
2024 年世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型亮相,成为国内首批之一。该模型基于蚂蚁百灵多模态能力,能感知和互动,支持千亿级别参数医疗视觉识别,准确率超 90%,且中英文医疗考试等达或超 GPT4 水准。支付宝还推出配套方案,并与多家机构发起 AI 医疗共建计划。来源: 钛媒体
向开发者免费开放文心大模型 4.0,百度文心智能体平台升级
2024 年 7 月 5 日消息,百度文心智能体平台免费开放文心大模型 4.0。开发者制作智能体时可灵活选择 3.5 或 4.0 版本。文心大模型 4.0 于 2023 年 10 月发布,基础模型全面升级,能力提升。在世界人工智能大会上,李彦宏称智能体是看好的 AI 应用方向,目前该平台已有 20 万开发者、6.3 万企业加入。来源: IT之家
B站首次亮相 2024 世界人工智能大会,展示自研技术及 AI 内容新趋势
新闻概要:2024 年 7 月 4 日至 7 日,世界人工智能大会在上海举行,B站 首次亮相。其展示了多项自研 AI 技术成果,如“数字分身”“动态漫技术”等。B站 的 AI 内容日均播放量同比增长超八成,成为年轻一代构建 AI 知识体系的首选平台,还为 AI 营销提供新解法,并通过自研技术支持 UP 主创作。来源: 财经网
商汤发布日日新 5.5 大模型体系
7 月 5 日,商汤发布日日新 5.5 大模型体系。该体系包括 6000 亿参数基础模型日日新 5.5,性能提升 30%;流式多模态交互模型日日新 5o,为国内首个所见即所得模型,可实时多模态交互和问答;端侧模型日日新 5.5Lite 也有升级,模型精度提升 10%、首包延迟降低 40%,推理效率提升 15%。来源: 财联社
中国科学院院士:美国AI发展瓶颈短板我国不存在,最不缺电
新闻概要:在2024世界人工智能大会上,中国工程院院士、阿里云创始人王坚指出,美国AI发展的瓶颈是电力,而中国最不用担心。中国一年的发电量远超美、日、俄总和。美国输电线路和变压器老化,基建问题突出。在相关不等式下,目前从事人工智能的人暂不用担心瓶颈问题。来源: 快科技
钛媒体AGI对话MiniMax创始人闫俊杰:至少三年后才会出现“杀手级”AI应用|直击WAIC 2024
2024世界人工智能大会举行,MiniMax创始人闫俊杰表示,国内大模型错误率较高,降低错误率是核心。他认为大模型价格走低是好事,类似微信等规模的“杀手级”AI应用至少三年后才会出现。MiniMax已获多轮投资,在开放平台服务众多客户。闫俊杰还谈到了出海、技术与商业化等问题。来源: 钛媒体
超100万颗芯片将发货!英伟达今年在华销售额预计将达120亿美元
新闻概要:英伟达有望在未来几个月内在中国交付超100万颗定制版H20芯片,预计今年在华销售额达120亿美元。此芯片符合美出口管制要求,包括字节、腾讯等中国科技集团对芯片有需求。业内称其具性价比,黄仁勋称会尽力服务中国市场。来源: 第一财经
算力利用率达 97.6%,无问芯穹发布全球首个单任务千卡异构芯片混合训练平台
无问芯穹联合创始人兼 CEO 夏立雪在世界人工智能大会 AI 基础设施论坛上发布大规模模型的异构分布式混合训练系统。该系统千卡异构混合训练集群算力利用率高达 97.6%,其云平台已集成大模型异构千卡混训能力,支持六种异构芯片混合训练。来源: IT之家
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
新闻概要:在大模型训练对算力需求激增的背景下,国产GPU公司摩尔线程宣布其夸娥智算集群解决方案重大升级,从千卡扩展至万卡规模。该集群具备超强算力、高度稳定、极致优化、通用计算和生态兼容等优势,多家合作伙伴认可其性能,其落地有望推动AI行业发展。来源: 智东西
腾讯混元DiT再升级:推出6G小显存版本,支持Kohya训练
腾讯混元文生图大模型混元DiT宣布多项重要更新。推出仅需6G显存即可运行的小显存版本,对个人电脑本地部署开发者友好,适配相关插件至Diffusers库,新增对Kohya图形化界面支持,便于训练个性化LoRA模型。同时,混元Captioner模型正式开源,支持中英文,能提升图像描述质量,生成全面准确的图片描述。来源: 腾讯混元
行走速度提升 30% 特斯拉二代人形机器人 Optimus 亮相 WAIC
在 2024 世界人工智能大会上,特斯拉二代人形机器人 Optimus 正式亮相。其行走速度提升 30%,手指功能进化,已在特斯拉工厂尝试“打工”。特斯拉预计明年限量生产,目标年产 10 亿台,成本约 1 万美元,售价 2 万美元,将带来巨大市场。来源: 上证报
商汤 Vimi 成为 WAIC 镇馆之宝!首个“可控”人物视频生成大模型亮相
商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型 Vimi 入选 WAIC 镇馆之宝。Vimi 能通过一张照片生成人物视频,精准控制表情和肢体,稳定生成 1 分钟视频,满足女性娱乐创作需求,已开放预约,更多细节将在 7 月 5 日论坛公布。来源: 猎云网
北京:2025年智算供给规模达45EFLOPS,两年打造AI原生城市
新闻概要:北京市明确提出到2025年本地智算供给规模达45EFLOPS,并形成市内东西南北四个亿级以上算力中心和“京津冀蒙”算力供给走廊。目前全国备案大模型产品中北京占约一半,北京还将在多领域打造人工智能+行动计划,推动产业发展。同时推出系列举措助力数字经济增长。来源: 上观新闻
独家|丘成桐:人工智能要重视上游的基础学科
在 2024 世界人工智能大会上,菲尔兹奖首位华人得主丘成桐接受第一财经独家采访时指出,人工智能的上、中、下游要同步做,上游基础学科要领导,中国尤应重视。上游工作成果不易短期显现,但美国大模型多年积累终获突破。丘成桐强调数学等基础学科对人工智能至关重要,中国有优秀学生可从事相关工作。来源: 第一财经
100天加速度,阶跃星辰大模型“全家桶”首次亮相,万亿参数性能逼近GPT-4|直击WAIC 2024
新闻概要:2024世界人工智能大会上,阶跃星辰大模型“全家桶”首次亮相。其成立不到一年,时隔100天推出万亿参数规模的Step-2正式版,在多方面性能逼近GPT-4。此外,还发布新多模态大模型,并在应用落地层面持续扩大。来源: 钛媒体
李彦宏:没有应用,基础模型一文不值,商业化闭源模型最能打
在 2024 世界人工智能大会产业发展主论坛上,李彦宏表示,2023 年百模大战造成资源浪费但建立了基础模型能力。他强调闭源模型在竞争环境中更具优势,肯定其在某些场景的价值。李彦宏认为应用更重要,还指出避免掉入“超级应用陷阱”。百度智能云一季度营收增长,文心大模型也有进展。来源: 澎湃新闻
联发科技联合快手推出高效端侧视频生成技术
2024 年 7 月 4 日,联发科技与快手共同宣布推出高效端侧视频生成技术。该技术是对 MWC 2024 上初次亮相技术的延续与提升,结合双方优势,攻克系列难题,为用户带来全新体验,推动短视频生态发展,未来双方将持续深化合作。来源: PChome
对标 GPT-4o!不锁区、支持手机、免费使用,Moshi 来啦!
新闻概要:7 月 4 日,法国知名开源 AI 研究实验室 Kyutai 发布多模态大模型 Moshi。它功能与 GPT-4o 类似,语音模式领先 GPT-4o 已可用,不锁区,填写邮箱即可使用,支持手机端,对普通话支持差,响应速度快但回答内容有限。此外,可能很快开源。来源: AIGC 开放社区
三星放缓汽车半导体开发,专注人工智能芯片
据《科创板日报》2024 年 7 月 4 日报道,三星负责芯片设计的系统 LSI 部门正在进行业务和组织重组。其放缓汽车处理器“Exynos Auto”开发,相关人员重新分配至 AI 系统级芯片团队,该团队现成为设计重点,目前集中 100 – 150 名专门设计人员致力于 AI 芯片设计。来源: 科创板日报
macOS 版 ChatGPT 被指以纯文本存储 AI 对话,OpenAI 紧急更新修复
近日,开发者 Pedro Vieito 指出 macOS 版 ChatGPT 应用以纯文本方式存储用户对话,存在安全隐患。此情况引发关注,OpenAI 公司迅速回应并更新应用,对存储在 Mac 设备上的聊天记录进行加密处理。此前,OpenAI 发布该应用,称其无缝集成用户操作等。来源: IT之家
Meta 发布 3D Gen AI 模型:1 分钟内生成高质量 3D 内容
7 月 3 日消息,Meta 公司昨日发布研究论文,介绍全新 AI 模型 Meta 3D Gen,该模型能在 1 分钟内依据用户输入提示词生成高质量 3D 内容。其生成的 3D 内容具备高分辨率纹理和材质贴图,还支持基于物理的渲染,包含 text-to-3D 生成和 text-to-texture 生成两个主要组件,推理时间各有不同。来源: IT之家
苹果料获 OpenAI“董事会观察员”职位,将与微软竞争?
据报道,作为上月宣布协议的一部分,苹果公司将获 OpenAI 董事会观察员职位,苹果应用商店负责人 Phil Schiller 或担任。这是苹果整体人工智能战略的组成部分,虽目前非金钱交易,但能推广 OpenAI 品牌技术。该职位或使苹果与微软竞争,带来麻烦。来源: 财联社
AI 音乐和歌曲生成器 Suno 登陆 iOS 设备
Suno 是一款广受欢迎的人工智能音乐和歌曲生成器服务,已超 1200 万人使用。其首款 iOS 设备移动应用程序已推出,用户通过文字描述或手机录制音频即可轻松创建音乐,能生成不同时长歌曲,还推出新音频输入功能。该应用可在苹果应用商店下载,目前仅限美国,团队正努力扩展到其他地区,虽可免费下载,但创建歌曲数量取决于订阅计划。来源: cnBeta
速递|Runway 最新估值 40 亿美元!General Atlantic 领投
据报道,Runway 正与 General Atlantic 洽谈新一轮 4.5 亿美元融资,估值达 40 亿美元。2023 年 6 月其曾获 1.41 亿美元融资,当时估值 15 亿美元。去年底其 ARR 约 2500 万美元,新估值约为 2023 年末 ARR 近 160 倍。Runway 定位于企业和专业人士应用,还发布了新视频生成模型。本月底将举办亚裔美国先锋奖章研讨会及颁奖典礼。来源:有新Newin
马斯克:xAI 训练 Grok-3 大模型用 10 万块英伟达 H100 芯片
7 月 2 日消息,马斯克的人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出。而 Grok-3 已在造势,马斯克透露其用了 10 万块英伟达 H100 芯片训练,预计年底发布,价值 30 – 40 亿美元,合理推测用的是特斯拉所购芯片。来源: IT之家
四部门印发《国家人工智能产业综合标准化体系建设指南(2024版)》
新闻概要:工业和信息化部等四部门印发《国家人工智能产业综合标准化体系建设指南(2024 版)》。到 2026 年,标准与产业科技创新联动水平持续提升,新制定国家标准和行业标准 50 项以上,开展标准宣贯和实施推广的企业超 1000 家,参与制定国际标准 20 项以上,以引领人工智能产业高质量、全球化发展。来源: 财联社
英伟达被曝面临法国反垄断指控:罚金最高可达 60.9 亿美元
法国反垄断监管机构计划指控英伟达涉嫌反竞争行为。该指控源于去年 9 月对 GPU 行业的突击检查。违反法国反垄断法公司或面临高额罚款。此外,美欧也在审查英伟达业务。英伟达近期股价表现良好,业务转型且受投行看好。来源: 澎湃新闻 2024 年 7 月 2 日 18 点 37 分 19 秒
深度丨A16Z投资的AI独角兽Character AI融资困难,计划出售给谷歌和Meta
新闻概要:成立于 2021 年 11 月的 Character AI 曾风头正劲,如今面临融资困难,计划出售给谷歌和 Meta。其推出的角色扮演 AI 聊天产品曾吸引数百万人,但随着新鲜感消失和竞争加剧,增长面临挑战。公司虽与谷歌有合作,但尚未筹到新资金,未来发展仍存不确定性。来源: Z Finance
Runway 的 Gen-3 向所有人开放,媲美 Sora!
7 月 2 日,Runway 宣布文生视频模型 Gen-3 Alpha 向所有用户开放使用,但每月至少 12 美元。Gen-3 目前一次能生成 11 秒 720P 视频且无背景音乐,有用户认为其功能优于 Sora。不少用户对收费不满,不过 Runway 称其将提供高级功能助用户制作精良视频。来源: AIGC 开放社区
OpenAI CEO 阿尔特曼:GPT-5 将带来“巨大飞跃”
OpenAI 公司的 GPT-5 模型备受关注,其发布时间尚不确定。首席执行官山姆·阿尔特曼称开发还需时间,它将是巨大飞跃。阿尔特曼指出 GPT-4 存在诸多错误,而 GPT-5 或仍处早期开发阶段。首席技术官透露 GPT-5 有望于 2025 年底或 2026 年初推出,在特定任务中达博士级智能水平。来源: IT之家
微软 AI 设计工具 Designer 测试定制贺卡功能
微软于昨日发布新闻稿,邀请 Microsoft 365 Insider 项目成员测试 Microsoft Designer 的个性化贺卡“Greeting Cards”功能。该工具快速直观,能将用户文字描述转化为个性化贺卡,正面由 AI 生成精细设计,内页可编辑满足个性需求。Microsoft Designer 由生成式 AI 功能支持,搭载 DALL-E 3 技术,可根据指令创造创意图像。来源: IT之家
比尔盖茨最新访谈:Scaling Law快要走到尽头,超人AI还需新的突破
比尔·盖茨在Next Big Idea播客中讨论了人工智能的未来。他认为人工智能不仅会深刻影响合成生物学和机器人技术,还将成为主导力量。盖茨指出,现在机器已能像白领读取信息,未来交互界面或由智能体主导。同时,他还提到AI在元认知上需通用突破,且AI虽发展迅速,但普及率提升不会一蹴而就。来源: 36氪
苹果被曝将与谷歌“牵手”?Gemini 模型今秋或融入苹果智能生态系统
新闻概要:据苹果知名爆料人马克·古尔曼称,苹果公司将于今年秋季宣布与谷歌的大模型 Gemini 建立合作关系,Gemini 模型有望接入苹果的 Apple Intelligence。此外,古尔曼还指出苹果与 Meta 的潜在合作被否,且苹果最终可能推出仅限订阅版本的 Apple Intelligence 功能。来源: 财联社
腾讯元宝上线 AI 深度搜索,功能强大
新闻概要:7 月 1 日消息,腾讯旗下大模型应用“腾讯元宝”上线 AI 深度搜索。更新到最新版本后,在深度模式下可对问题扩展,能一键生成内容大纲、思维导图及相关梳理。在科研、财经等专业场景下表现出色,如回答“近一个月黄金走势”能给出 3000 字回答。来源: 钛媒体
腾讯搜狗输入法 AI 功能全面升级 独家上线 AI 对话和 AI 宠物
新闻概要:腾讯搜狗输入法发布全新版本,升级了 AI 帮写、AI 对话功能,并推出快捷问答、AI 宠物、AI 自拍表情等新玩法。AI 帮写覆盖 130 多种场景,AI 对话有 20 位专业助手。此次更新兼顾效率与休闲,提升输入效率,带来有趣互动体验。来源: 央广网
马斯克:xAI 将于 8 月推出 Grok-2 大语言模型
2024 年 7 月 1 日消息,马斯克在 X(推特)平台发文宣布,其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出。马斯克是在回应一则帖子时透露的,还称在清除大语言模型从互联网训练的数据方面将有巨大进步。此前 xAI 已推出 Grok-1.5 等模型。来源: IT之家
深度|微软 AI CEO Mustafa Suleyman:今年年底,我们将拥有实时的语音界面,允许完全动态的交互
新闻概要:在近日阿斯彭思想节上,微软 AI 负责人Mustafa Suleyman与财经记者Andrew Ross Sorkin进行了深入对话。探讨了AI发展阶段、AGI、监管、安全、知识产权等诸多问题。Suleyman认为AI发展迅速,呼吁合理监管,且不认同将其与加密货币类比。还提到今年年底将有实时语音界面实现完全动态交互。来源: 有新Newin
谷歌 AI 视频编辑应用 Google Vids 上线测试
谷歌曾于 4 月发布的全新 AI 视频编辑应用 Google Vids 已于上周五前后悄悄上线测试。该应用集成 Gemini 大模型,能帮用户写脚本、找素材、创建幻灯片等,还能制作分镜头脚本。用户可通过描述主题或效果来编辑,目前测试版暂缺 AI 配音功能。来源: IT之家
深度|扎克伯格最新万字洞察:信息流媒体将更多转向个人及 AI 互动,未来看好这三类 AI 硬件类型
Meta CEO 马克·扎克伯格与科技创作者罗宾·卡拉韦进行深度对话,探讨未来十年技术发展。扎克伯格看好智能眼镜、神经腕带和 AI 技术在创作者和小企业中的应用。他认为未来智能眼镜将分为无显示屏、抬头显示和全息显示三种类型,AI 技术将多样化,允许创作者和小企业创建定制化 AI ,提升用户互动的丰富性和个性化。此外,还讨论了相关技术对人们互动方式的改变等。来源: 有新Newin
微软 Copilot for Microsoft 365 下月将迎新功能,设计、写作全面赋能
微软近期公布 Copilot for Microsoft 365 将于 7 月上线新功能,包括将“设计器(Designer)”引入 Word 和 PowerPoint 应用,可自动生成图像、融入幻灯片设计,还将推出 SharePoint Text v1 版本,支持修改文本。此外,适用范围扩展到更多独立软件订阅计划,该服务采用年度订阅,每月 30 美元。来源: IT之家
知乎发布全新 AI 产品“知乎直答”,周源称用提问发现世界
新闻概要:6 月 29 日,知乎第十届盐 Club 新知青年大会开幕,创始人周源发布最新 AI 产品“知乎直答”。该产品立足创作者真实问答数据,提供两种答案生成结果,支持“找内容”和“找人”,已上线 PC 端。未来将推进 App 开发等。来源: 新浪财经
AI人才争夺战升温!亚马逊聘请Adept创始人 加码布局AGI研发
在科技界 AI 人才争夺战升温,亚马逊与 AI 初创公司 Adept 达成协议,聘请其顶尖人才并获取技术。Adept 专注开发 AI 代理,因困境达成合作。亚马逊加大 AI 技术开发力度,在该领域面临激烈竞争,正增加投资和使用以应对。来源: 财联社
深度|Sam Altman 最新 NBC 对谈:AGI 或在十年内实现全球 GDP 翻倍!
新闻概要:OpenAI CEO Sam Altman 和 Airbnb CEO Brian Chesky 与 NBC 主持人 Lester Holt 展开关于 AI 发展的讨论。他们探讨了 AI 的发展进程、对社会的潜在影响、面临的挑战及应对策略,包括 AGI 对全球 GDP 的可能影响、AI 在各领域的应用与风险等。强调需建立全球合作框架和监管机制,确保其安全有益发展。来源: 有新Newin
文心一言 4.0 Turbo 发布,总用户量突破 3 亿
2024 年 6 月 28 日,文心一言 4.0 Turbo 正式发布。该模型在网页以收费形式向用户开放,并对开发者开放 API。它强化了检索能力,提升了上下文输入长度和生图分辨率。此外,还发布了“农民院士智能体”。数据显示,文心一言用户突破 3 亿,日调用次数达 5 亿,基于此开发了众多 AI 工具和应用。来源: 腾讯科技
“微软-OpenAI”组合引发欧盟警惕 反垄断高官确认已开启调查
新闻概要:欧盟准备对微软向 OpenAI 130 亿美元的投资进行反垄断调查。此前欧盟审查微软对 OpenAI 的投资,认为其未获长期控制权。但现探索新调查,关注合作是否损害市场竞争,还在研究相关手段及其他协议影响。美英也在审查此联盟。来源: 财联社
高调挖人!背靠奥尔特曼的Rain AI招募苹果老将开发新型芯片
美国芯片初创公司Rain AI周五发布公告称,挖来曾在苹果效力17年的芯片高管Jean Didier Allegrucci担任硬件工程主管,主导“内存计算技术”芯片开发。本月初Rain AI还挖来Meta ASIC架构团队首席架构师,该公司与奥尔特曼关系匪浅。来源: 财联社
谷歌DeepMind推出新一代开源人工智能模型Gemma 2
Gemma 2 是谷歌DeepMind推出的新一代开源人工智能模型,有90亿和270亿参数版本,后续还将发布26亿参数模型。其性能卓越,推理效率高,硬件兼容性强,采用商业友好许可协议,与多框架兼容,部署工具丰富,还提供负责任AI相关工具。用户可通过多种方式使用,且有优惠政策。来源: Google
OpenAI 推出 CriticGPT:识别 GPT 输出代码错误的创新模型
新闻概要:CriticGPT 是 OpenAI 发布的基于 GPT-4 构建的新型人工智能模型。它通过人类反馈强化学习技术,专门用于审查和识别大型语言模型生成代码中的错误。具有代码审核、错误识别等多种功能,工作原理复杂,优点众多,如提高准确性、减少错误等,但也存在复杂性限制等短板。来源: OpenAI
比尔・盖茨喊话环保人士:别过分担心 AI 用电问题
新闻概要:据报道,针对 AI 系统能源消耗加快的问题,比尔・盖茨发起“辩护”。他在伦敦演讲时呼吁环保人士和政府不要过度担忧 AI 用电。盖茨称数据中心虽会使全球用电量增加 2-6%,但科技公司愿为清洁能源支付溢价,这有助于推动其开发和部署。来源: IT之家
Meta 发布 LLM 编译器,称将改变编程方式
Meta 于 2024 年 6 月 28 日发布了大型语言模型(LLM)编译器。该编译器是一套强大的开源模型,在代码大小优化等方面成果显著,反汇编能力出色。其为探索 LLM 在代码和编译器优化领域的潜力铺平道路,引发对软件开发格局的思考。但强大的模型发布也引发对未来软件工程师所需技能的质疑。来源: cnBeta
科大讯飞发布星火智能批阅机,准确率高达 99%
科大讯飞昨日举办讯飞星火 V4.0 发布会,发布了星火大模型 V4.0 及升级的星火教育大模型。基于此,推出星火智能批阅机,可自动分析全班学习情况,规划学习路径,准确率超 99%。此外,讯飞 AI 学习机也升级,提升了孩子独立学习的完成率和错题解决率。来源: IT之家
OpenAI AI 模型销量超越微软!年化收入达 10 亿美元
新闻概要:OpenAI 销售模型访问权限的年化收入约达 10 亿美元,超过微软同类产品。企业更倾向与 OpenAI 直接合作,微软虽有竞争压力但仍有望长期获益,双方有合作开发计划及利润分成协议。目前竞争关系友好,双方毛利率有望提升。来源: 硬 AI 2024 年 06 月 28 日 21 点 23 分 12 秒
OpenAI 与《时代》杂志达成合作协议 将用其内容训练 ChatGPT
当地时间周四,《时代》杂志与 OpenAI 宣布达成多年内容授权协议和战略合作伙伴关系。OpenAI 可借此访问《时代》过去 100 多年的档案和文章训练 AI 模型,并在产品中回复用户询问,同时注明引用和链接来源。目前虽有冲突,但更多新闻出版商倾向合作而非诉讼。来源: 财联社
阿里 Qwen-2 成全球开源大模型排行榜榜首,中国处于领导地位
6 月 27 日凌晨,全球著名开源平台 huggingface 的联合创始人兼首席执行官 Clem 宣布,阿里最新开源的 Qwen2-72B 指令微调版本在基准测试集中表现出色,力压 Llama-3、Mixtral 等,成为开源模型排行榜第一名,这显示中国在全球开源大模型领域占据领导地位。来源: 华尔街见闻
报考新趋势:近八成高考生使用百度 Ai 志愿助手
全国超 1300 万考生进入高考填报志愿环节,近八成使用了百度 Ai 志愿助手。AI 填报志愿因免费实用受欢迎,大模型技术有优势能提供建议,但考生仍需综合考虑个人情况填报。来源: 猎云网
微软AI负责人:未来知识生产成本将降到边际成本为零
在近日举行的阿斯彭思想节上,微软AI首席执行官穆斯塔法·苏莱曼称,默认社会契约允许使用开放网络内容。对于存在的灰色地带将由法院解决。现有的知识产权法在AI时代面临挑战,未来信息经济学将巨变,知识生产成本会降为零。来源: 第一财经
Google 翻译新增 110 种语言支持,涵盖 6.14 亿使用者
Google 于 2024 年 6 月 27 日表示,其翻译服务将新增对 110 种语言的支持,包括阿法尔语等。这些语言使用者超 6.14 亿,约占总人口 8%。新增语言是 2022 年计划一部分,还考虑了地区差异等因素。来源: cnBeta
科大讯飞发布讯飞星火大模型 V4.0,整体超越 GPT-4 Turbo
6 月 27 日,科大讯飞举办讯飞星火 V4.0 发布会。该模型基于国产万卡算力集群训练而成,提升七大核心能力,在多项测试中表现出色,超越 GPT-4 Turbo,还推出多款新产品和应用。来源: IT之家
亳州牵手华为,打造华佗中医药大模型,系全球首个
新闻概要:亳州市与华为合作建设全球首个中医药大模型——华佗中医药大模型。双方将整合优势资源,构建创新中心和多个平台,通过明确实施路径和发展模式,推动中医药产业创新升级,带动产业链协同发展,为消费者提供服务,促进文化传承。来源: 澎湃新闻
Claude 推出项目协作功能,助力团队高效工作
Claude.ai 为 Pro 和 Team 用户推出项目协作功能,用户可将聊天组织成项目,整合知识和聊天活动,还能定义自定义指令。其具备 200K 上下文窗口,避免冷启动问题。此外,还有如生成代码等的辅助工具,团队成员可分享成果,激发灵感。未来还将持续优化。来源: Anthropic
B站CEO陈睿:每月超 8000 万用户在平台看 AI 内容
6 月 26 日晚,B站 举办 15 周年庆,CEO 陈睿发表演讲公布 AI 在平台的内容消费趋势。2023 年,AI 相关内容日均视频播放量同比增超 80%,每月超 8000 万用户观看,其中 60%为 00 后。来源: 界面新闻
Meet Figma AI: Empowering designers with intelligent tools
Figma 推出一系列 AI 驱动的功能,包括增强搜索、提高工作效率的工具等。这些功能在测试期免费,未来定价将明确。Figma 重视数据隐私保护,由第三方模型驱动,未使用私人文件数据。管理员可控制团队内容是否用于训练。来源: Figma
Stability AI 管理层大换血,前 Facebook 总裁主导新一轮 8000 万美元投资!4 亿美元债务一笔勾销
Stability AI 曾在 2022 年巅峰时刻完成 1.01 亿美元融资,之后商业模式遇挑战。如今管理层大换血,前 Facebook 总裁领衔投资 8000 万美元,1 亿美元债务被豁免。新 CEO 表示将推动发展,面向企业和工作室。来源: 有新Newin
字节跳动发布“豆包MarsCode”智能开发工具,面向国内开发者免费
新闻概要:6 月 26 日,字节跳动发布基于豆包大模型打造的智能开发工具豆包 MarsCode,面向国内开发者免费开放。该工具具有多种功能,还发布了开发者及社区共创计划,旨在提升开发效率,激发创造。来源: 豆包MarsCode
Sora首部商业片亮相戛纳,300万网友围观引争议
新闻概要:Sora首部商业片《玩具反斗城的起源》亮相戛纳,引发近300万网友围观。影片展示了Sora的一致性,还原品牌故事,但也存在不够真实自然等争议,甚至有网友对AI生成商业视频提出质疑。来源: 量子位
荣耀发布手机行业首个端侧 AI 反诈检测技术
2024MWC 上海期间,荣耀终端发布手机行业首个端侧 AI 反诈检测技术。该技术能识别视频通话画面要素,检测到 AI 换脸会向用户提醒。此外,赵明还宣布了 AI 离焦护眼技术,新一代折叠旗舰机型 Magic V3 也有新动态。来源: IT之家
iPhone 16杀手锏曝光!苹果A18处理器NPU性能比M4更强
新闻概要:据报道,苹果iPhone 16系列或将搭载的A18系列处理器,其NPU性能有望超越自家M4处理器。A17 Pro的NPU已有16核心、35TOPS性能,M4的NPU算力为38TOPS,随着技术发展,A18系列NPU性能有望显著提升。来源: 快科技
钉钉将对所有 AI 大模型厂商开放,首批 7 家接入
在 2024 年 6 月 26 日的 MAKE 2024 钉钉生态大会上,钉钉总裁叶军宣布对所有大模型厂商开放,构建“国内最开放 AI 生态”。首批 7 家包括 MiniMax 等已接入,未来用户可在钉钉上使用,且将共同探索 AI 在行业内的应用。截至 3 月底,超 220 万企业在钉钉上使用 AI。来源: IT之家
中国杀出全球首个烹饪大模型
老板电器发布全球首个烹饪大模型“食神”,它有个性化、一体化、跨设备协同等特点。拥有数十亿行业数据和千万级知识图谱,能为用户提供多种烹饪解决方案,还未内测,预计 10 月内测、12 月上线。来源: 量子位
OpenAI 与礼来合作利用生成式 AI 开发新型抗菌药物
新闻概要:当地时间 25 日,美国制药巨头礼来宣布与 OpenAI 合作,利用生成式 AI 开发新型抗菌药物。抗菌素耐药性是全球重大威胁,WHO 呼吁创新药物,双方认为此合作有望带来突破与新机遇。来源: IT之家
ChatGPT语音助手功能推迟发布!OpenAI拟秋季向付费用户全面推出
OpenAI 已宣布推迟 ChatGPT 语音助手功能发布,原计划 6 月底向部分付费用户推出,现推迟至秋季向所有付费用户推出。该功能在检测和拒绝内容等方面仍需改进,未来将让用户更多了解发布时间。来源: 财联社
OpenAI 的 ChatGPT Mac 版应用向所有用户开放,支持语音对话
OpenAI 宣布其适用于 Mac 的 ChatGPT 聊天机器人应用已向所有用户开放下载。此前该应用处于测试阶段,仅 Plus 付费订阅用户可用。它原生支持 Mac 系统,提供快捷键,支持语音模式,用户可随时交互。来源: IT之家
消息称亚马逊秘密研发聊天机器人“Metis”挑战 ChatGPT 霸主地位
亚马逊正在秘密研发聊天机器人“Metis”,其目标直指 ChatGPT。Metis 功能强大,能回答文本和图像问题等,还可胜任多种角色。但亚马逊在该领域稍显落后,团队成员对项目成功有担忧,项目暂定 9 月发布。来源: IT之家
突发!OpenAI 宣布终止对中国提供 API 服务
2024 年 6 月 25 日,OpenAI 宣布自 7 月 9 日起终止对中国提供 API 服务,称是为维护服务质量和安全性。此前 2 月 14 日,OpenAI 曾发文提及限制包括中国在内一些国家用户的使用。来源: 网易新闻
版权大战全面打响!大型唱片公司起诉两家明星AI音乐公司
新闻概要:当地时间周一,环球音乐、索尼音乐、华纳音乐三大唱片公司起诉AI音乐技术公司Udio和Suno侵犯版权。唱片公司称其未经授权用自家内容训练AI系统,要求对每首涉嫌抄袭歌曲最高赔15万美元。此为AIGC领域首个相关诉讼。来源: 财联社
消息称谷歌将推出明星网红 AI 聊天机器人,与 Meta 竞争
据爆料,谷歌正在基于明星和 YouTube 网红构建新的 AI 聊天机器人,由 Gemini 大语言模型支持,还在尝试建立合作关系并开发新功能。Meta 已有类似产品,合作对象众多,目前谷歌合作对象不明。来源: IT之家
速递|OpenAI 收购谷歌华人工程师创办的远程协作公司 Multi
6 月 24 日,OpenAI 收购远程协作公司 Multi。Multi 由前 Dropbox 产品经理和前 Google 工程师创立,已获近 1300 万美元融资。交易完成后其 5 名成员将加入 OpenAI,Multi 将于 7 月 24 日后关闭。来源: 有新Newin
消息称因隐私问题,苹果拒绝与 Meta 合作将其 AI 聊天机器人带入 iOS 18
新闻概要:据报道,因隐私问题,苹果拒绝与 Meta 合作将其 AI 聊天机器人引入 iOS 18。此前虽有相关讨论,但最终苹果未考虑。苹果已与 OpenAI 达成协议,并与谷歌等合作,还计划与多家供应商合作,为用户提供更多人工智能模型选择。来源: IT之家
突发!被曝自研 5nm AI 芯片?字节跳动不予置评
2024 年 6 月 24 日消息,字节跳动被曝为削减成本确保供应稳定,正与博通合作开发 5nm 先进 AI 处理器,制造或外包台积电,目前未进入流片阶段。字节在 AI 领域全面布局,包括模型和应用层等。来源: 钛媒体
《Python 机器学习》作者新作:从头开始构建大型语言模型,代码已开源
机器学习和 AI 研究员、《Python 机器学习》作者 Sebastian Raschka 新书讲解从头构建大型语言模型过程,包括创建、训练和调整等,且新书对应代码库已在 GitHub 开源。来源: 机器之心
专家也不如 AI 了:GPT-4o 道德推理能力已比专家更强
新闻概要:最新研究显示,美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所开展的两项研究表明,OpenAI 的 GPT-4o 在提供道德建议方面质量优于公认的道德专家,但研究仅针对美国参与者,且使用 AI 建议仍需谨慎。来源: 快科技
消息称苹果与 Meta 讨论合作,将生成式 AI 引入 Apple Intelligence
据报道,苹果和 Meta Platforms 正在讨论人工智能方面的合作,Meta 或将其生成式人工智能模型整合到苹果新发布的 Apple Intelligence 中,用于 iPhone 和其他设备。此外,还有多家公司与苹果商谈引入生成式人工智能。来源: IT之家 2024 年 06 月 24 日 18 点 03 分 33 秒
月之暗面回应进军美国市场:目前没有开发和发布任何海外产品的计划
新闻概要:今日有关月之暗面为进军美国市场做准备的消息引发关注,称其员工开发相关产品。对此,月之暗面回应称目前无开发和发布任何海外产品计划。今年 5 月其新一轮融资消息也受关注。来源: 新浪科技
腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
腾讯混元文生图大模型宣布全面开源训练代码,同时发布LoRA小规模数据集训练方案与可控制插件ControlNet。用户可基于此进行精调与创作,该模型已在多领域广泛应用,团队持续完善优化开源组件。来源: 腾讯混元
华为云盘古大模型 5.0 正式发布
2024 年 6 月 21 日,华为 HDC 开发者大会上,盘古大模型 5.0 正式发布,在全系列、多模态、强思维方面实现升级,包括不同参数规格,具备多模态理解和生成能力等。该模型已在多行业落地,还推出全新小艺助手。来源: IT之家
腾讯AI Lab与腾讯TME天琴实验室推出「琴乐大模型」助力音乐创作
新闻概要:腾讯AI Lab联合腾讯TME天琴实验室打造「琴乐大模型」。该模型具备丰富作曲和编曲能力,能根据输入生成音乐或乐谱,且多维度主观评分超越业内。其包含多个模块,未来还将加入人声等要素生成能力,已上线腾讯音乐启明星平台。来源: 腾讯AI实验室
OpenAI 首席技术官:预计几年内“博士级智能”的 AI 就会出现
新闻概要:OpenAI 首席技术官米拉·穆拉蒂预测,未来几年用于特定任务的“博士级智能”AI 将出现。她还讨论了 ChatGPT 等的智能水平,并表示实验室开发的模型不比公众可用的领先很多。来源: 新浪财经
可灵宣布推出图生视频和视频续写全新功能
2024 年 6 月 21 日,可灵宣布推出图生视频和视频续写两项新功能。图生视频能据图片生成 5 秒视频并可控制运动轨迹,视频续写能多次为生成视频添加后续,最长达 3 分钟。同时,文生视频功能新增视频尺寸选择,为用户提供更多创作可能。来源: 品玩
阿里云推出首个具备多岗位技能的“AI 程序员”
新闻概要:在阿里云上海 AI 峰会上,阿里云推出首个“AI 程序员”,具备架构师等多岗位技能,能实现软件开发“一条龙”。阿里云去年推出通义灵码,正内部全面推行 AI 编程,未来 20%代码将由其编写,程序员仍为研发核心。来源: IT之家
力压 GPT-4o!新王 Claude 3.5 Sonnet 来了,直接免费可用
Anthropic 发布全新大模型 Claude 3.5 Sonnet,号称最智能。它在众多基准评估中超越竞品和前代,运行速度快、成本相当,已免费提供,还能通过多种渠道使用。其在视觉等方面表现出色,推出新功能,且通过安全评估来源: 机器之心 2024 年 06 月 22 日 09 点 53 分 32 秒 星期六
台积电探索新 AI 芯片封装技术,或引发行业变革
新闻概要:据报道,台积电正在探索新的 AI 芯片封装技术,采用矩形基板代替圆形晶圆,可在单个基板放置更多芯片组,提高生产效率。尽管处于早期阶段,但其标志着重要转变,行业创新进程加速。来源: 华尔街见闻
China’s Top AI Startups Enter U.S., Defying Political Tensions
尽管中美政治关系紧张,中国一些顶尖的人工智能初创公司仍进军美国市场。如北京的 Moonshot AI 等,因国内大语言模型和 AI 应用价格战升级,难以盈利,其产品如 Ohai 等已在美国推出,此前未被报道。来源: The Information
中国人工智能蓬勃发展 “从流行词到生产力”引领产业全方位变革
新闻概要:我国人工智能发展迅速,企业数量超四千家。相关报告显示已构建技术体系和产业创新生态,推动传统产业转型升级,2023 年核心产业规模达 5784 亿元。同时还有其他各类新闻资讯。来源: 央视网
阿里通义 Qwen2 成斯坦福大模型榜单最强开源模型
环球网消息,阿里通义 Qwen2 成为斯坦福大模型榜单中的最强开源模型。该网页还包含相关提示,如 AdBlock 插件可能阻拦站点推荐内容,同时提供了环球网的联系方式、隐私政策等信息。来源: 环球网科技 2024 年 6 月 20 日 22 点 15 分 05 秒
B站开源轻量级 Index-1.9B 系列模型,支持角色扮演
6 月 20 日,B站开源轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。该模型预训练使用 2.8T 规模数据,中英比例为 4:5,代码占比 6%,内置角色“三三”,用户也可按需创建角色。来源: IT之家
美国 AI 圈震动!“OpenAI 宫斗”核心人物苏茨克维官宣创业
OpenAI 联合创始人苏茨克维离职后官宣创业,成立“安全超级智能”公司。其志在打造安全的超级智能系统,短期内不推商业化产品,此概念类似 OpenAI 创立初期理念。虽与奥尔特曼理念不同,但双方关系尚可。来源: 财联社
月之暗面 Kimi 开放平台将启动 Context Caching 内测
6 月 19 日消息,月之暗面 Kimi 开放平台的 Context Caching 功能将启动内测。此功能可缓存重复 Tokens 内容,降低成本,提升 API 接口响应速度,适用于多种业务场景。官方后续将发布相关实践、计费方案和技术文档。来源: IT之家
Meta 悄悄发布多款模型、研究和数据集
Meta 于 2024 年 6 月 19 日发布多款成果,包括多模态模型 Meta Chameleon、多词预测模型 Multi-Token Prediction、文本生成音乐模型 JASCO 等。这些成果涵盖了多种领域,展现了其在 AI 研究方面的新进展。来源: 赛博禅心
OpenAI 利用 GPT-4o 模型打造癌症辅助筛查与治疗 AI 工具
OpenAI 与 Color Health 合作,借助 GPT-4o 模型创建 Cancer Copilot 工具。该工具能根据患者数据制定筛查和治疗计划,5 分钟内分析完病例,辅助医生决策,加快筛查诊断授权申请,使患者更快接受治疗。来源: IT之家
中国气象局发布三个 AI 气象大模型系统:风清、风雷、风顺
新闻概要:6 月 19 日消息,中国气象局发布三个 AI 气象大模型系统,分别是“风清”“风雷”“风顺”。它们在预报核心技术和精准程度上有突破,降低了对国际再分析资料的依赖,在不同预报领域各具优势。来源: 快科技
Runway 版 Sora 发布:Gen-3 Alpha 震撼网友
AI 视频生成初创公司 Runway 推出新的视频生成基础模型 Gen-3 Alpha。该模型在清晰度、细节、角色一致性等方面表现出色,具有多种优势和功能。虽很多产品还不能直接体验,但未来视频生成模型会越来越多。来源: 机器之心
回应英伟达黄仁勋,马斯克:未来人形机器人普及将是汽车10倍
英伟达 CEO 黄仁勋称机器人技术将在 2 – 3 年内重大突破,人形机器人未来将普及。马斯克回应称其普及程度将是汽车 10 倍,他对特斯拉 Optimus 机器人市场前景充满信心,计划占据年产 10 亿台市场的至少 10%份额。来源: 快科技
DeepSeek Coder V2 开源发布,代码能力首超 GPT4-Turbo
DeepSeek Coder V2 正式上线和开源。它沿用 DeepSeek-V2 模型结构,总参数 236B,在代码、数学能力上位居全球第二,介于 GPT-4o 和 GPT-4-Turbo 之间,通用性能良好,且模型、代码、论文均开源。来源: DeepSeek
与纯血鸿蒙同台亮相!华为盘古大模型 5.0、全新小艺即将发布
华为官方发布预告,盘古大模型 5.0、全新小艺将于 6 月 21 日的华为开发者大会登场。盘古系列基础大模型 2021 年发布,涵盖多种类型,此次 5.0 版预计有重磅升级,全新小艺将接入。同时,HarmonyOS NEXT 鸿蒙星河版也将亮相来源: 快科技
李彦宏:智能体是 AI 时代的网站,将形成数百万量级生态
新闻概要:近日,百度创始人李彦宏称,智能体是 AI 时代的网站,门槛低,将大量出现形成庞大生态。它不仅能对话,还具反思和规划能力,未来或许有协作能力,能推动生态发展。来源: 新浪科技
可灵AI生成全球首支云上时尚大秀,震撼来袭,苍穹之上
新闻概要:6 月 17 日,利用可灵AI生成全球首支云上时尚大秀,展示了全球顶级超模们穿着前卫的服装,将云层作为T台,在云层之上走秀的视频。以张靓颖的《808》作为BGM,给大家带来一场视听盛宴来源: Bilibili
古尔曼:苹果 Apple Intelligence 功能分批上线,重磅功能明年推出
新闻概要:苹果全新人工智能服务“Apple Intelligence”虽秋季上线,但部分功能要等到 2025 年。今年秋季上线的版本仍有一些特性,如新 Siri 用户界面等。其分批上线是因苹果想完善产品。来源: IT之家
OpenAI 欲转营利性公司?公司回应非营利组织是核心使命
The Information 称 OpenAI 考虑改变治理结构成立营利性公司,或为 IPO 打开大门。OpenAI 回应称非营利组织是核心使命,仍专注造福每个人的人工智能。此前报道提到转变是为给投资者激励吸引资金。来源: IT之家
英伟达开源最强通用模型 Nemotron-4 340B
英伟达本周五宣布推出开源的通用大模型 Nemotron-4 340B。它包含一系列开放模型,可生成合成数据用于训练大语言模型,涉及多行业应用。该模型在多项基准测试中表现出色,现已可从 Hugging Face 下载。来源: 机器之心
聆心智能新一代超拟人大模型CharacterGLM Pro正式对外服务
经过近 6 个月的测试和打磨,聆心智能新一代超拟人大模型 CharacterGLM Pro 版于 2024 年 2 月完成训练和初步测评,又经过 3 个多月打磨性能和稳定性提升。它基于丰富数据训练,在多个指标上表现出色,还升级了 Emohaa 模型,并推出降价等彩蛋。来源: 聆心智能
环球视角:Meta 推迟欧洲 AI 聊天机器人推出计划
Meta 因监管机构反对推迟了在欧洲推出 AI 聊天机器人的计划。该网页还显示了诸如举报提示、环球网简介及相关联系方式等信息。当前时间为 2024 年 6 月 15 日 21 点 07 分 50 秒,星期六来源: 环球网科技
智源发布大模型“全家桶”以及管理超 4600 个 AI 加速卡的智算系统
2024 北京智源大会上,智源研究院公布一系列大模型“全家桶”和智算软件系统。包括大语言模型、多模态大模型等进展,还介绍了 FlagOS 等成果。王仲远称将押注多模态技术路线突破,呼吁更多支持。来源: 钛媒体
Sora之父Ramesh:文生视频领域正进入新范式转换阶段
OpenAI视频生成团队负责人Aditya Ramesh指出,类Sora的模型迎来爆发期。技术复现虽能达成,但未来方向更值得思考。他分享了从iGPT和Dalle 1以来的范式改变,并探讨了Sora之后更好的多模态模型走向,包括模型对语言依赖的变化等。来源: 腾讯科技
不同 AI 大模型匿名打 PK:字节跳动扣子平台上线“模型广场”
字节跳动“扣子 Coze”公众号宣布扣子平台上线“模型广场”功能,提供大模型匿名 PK“擂台”。用户可在扣子官网通过“随机 Bot 对战”“指定 Bot 对战”“纯模型对战”三种模式评测模型能力,对战后可投票,结果还能分享。来源: IT之家
特斯拉股东大会批准马斯克 560 亿薪酬,马斯克称机器人未来每年为特斯拉赚万亿
2024 年特斯拉股东大会美东时间周四举行,吸引超百万观众。股东批准马斯克 560 亿美元薪酬方案,还通过多项决议。马斯克阐述公司未来愿景,包括新产品发布、机器人带来利润等。特斯拉股价周四上涨,今年仍下跌。来源: 华尔街见闻
阶跃星辰推出移动端AI智能问答助手跃问APP
新闻概要:由微软前全球副总裁姜大昕创办的阶跃星辰推出跃问APP。该APP由Step系列通用大模型支持,可完成多项任务,并在多方面优化。支持多种格式文档分析,具备多种功能,多端数据同步,在各大应用商店可下载。来源: 跃问
“Luma 的 Dream Machine”或成视频生成新王者
新闻概要:Luma 是一家美国的 3D 生成公司,其 Dream Machine 于今日 0:00 发布并完全公测。它能快速生成高质量视频,具有极快速度、逼真动作等特点,表现出色,或使视频生成王者易主。来源: 赛博禅心
Stability AI 开源 Stable Diffusion 3 Medium 文生图模型
2024 年 6 月 12 日晚,Stability AI 宣布开源 Stable Diffusion 3 Medium 模型。它含 20 亿参数,具先进性、适用性等特点,还有多平台支持,且与 NVIDIA、AMD 合作,公司致力于开放与安全,未来将持续改进。来源: Stability AI
历时约半年 OpenAI 年化营收翻倍至 34 亿美元
据报道,6 月 13 日消息,OpenAI 在过去约半年时间里年化营收达 34 亿美元,相比去年年底翻番,收入主要来自 ChatGPT 订阅版和开发者使用其模型,该公司还通过多种举措增加收入和保持竞争力。来源: IT之家
OpenAI 澄清与微软云合作不变
新闻概要:2024 年 6 月 12 日,OpenAI 紧急澄清与微软云合作不会变化,针对与甲骨文合作引发的误解进行说明,强调与微软合作关系稳定,还提到其未发布的 GPT-4o 语音模型及相关情况。来源: APPSO
“郭明錤:目前 Apple Intelligence 装置端 AI 大模型对 DRAM 需求约为 2GB 或更低”
新闻概要:6 月 12 日,郭明錤报告指出 iPhone 15 因 DRAM 大小无法支持 Apple Intelligence,M1 机型可支持,推断目前其装置端 AI 大模型对 DRAM 需求约为 2GB 或更低,关键在 DRAM 而非 AI 算力。来源: 界面新闻
美图设计室 V3 发布,助力电商设计
新闻概要:2024 年 6 月 12 日,美图设计室 V3 发布,具备三大核心能力。它解决了电商设计的诸多难点,如多平台上新烦、视频制作难、设计人力少等,还推出团队版促进高效协作,现启用新域名,欢迎体验。来源: 美图设计室
三星聘请苹果 Siri 战略资深人士领导北美人工智能中心
新闻概要:6 月 12 日消息,三星将合并北美两家人工智能研究中心,创建“北美人工智能中心”,并聘请前苹果高管 Murat Akbacak 领导,他曾负责苹果 Siri 战略,此举是科技公司在人工智能领域积极行动的体现。来源: 财联社
手机流畅运行 470 亿大模型,上交大发布 LLM 手机推理框架 PowerInfer-2 提速 29 倍
新闻概要:苹果在手机部署大模型引发诸多讨论,上海交大为解决手机内存和算力问题推出 PowerInfer-2.0 框架,通过多种技术实现快速推理,团队还提出配套优化技术,该成果潜力大,已在相关平台开放。来源: 量子位
美考虑再出招限制中国获取人工智能芯片技术
新闻概要:环球网消息,美政府被曝正考虑新举措限制中国获取用于人工智能的芯片技术。此前中方已对此类行为表态。这一情况引发关注,相关后续值得追踪。来源: 环球网
马斯克撤销对 OpenAI 及奥特曼诉讼,不排除再起诉可能
2024 年 6 月 12 日,马斯克撤回对 OpenAI 及其联合创始人的诉讼。该诉讼曾质疑 OpenAI 与微软合作等问题,此次撤诉后未来仍可能重新提起,此前马斯克还批评其与苹果合作,他创立的 xAI 也发展良好来源: 腾讯科技
苹果高管称正努力将“Apple Intelligence”引入中国市场
苹果在 WWDC 2024 发布 iOS 18 和 macOS 15 系统,其中新功能“Apple Intelligence”具多种人工智能辅助功能,苹果高管透露其未来发展计划,包括与 OpenAI 合作等,还称正努力将其引入中国市场来源: IT 之家
GPT-4 加入 iOS 18,苹果 Vision Pro 国行确定,29999 起
新闻概要:苹果在 WWDC24 上发布了一系列新系统和硬件,其中包括 iOS 18、iPadOS 18、macOS 15 等系统的更新,以及 Apple Vision Pro 的国行发售信息。iOS 18 带来了 iMessage 的 AI 更新、应用锁等新功能,iPadOS 18 则支持自定义屏幕和智能手写体,macOS 15 新增了智能多窗口管理功能和游戏开发套件。此外,Apple Vision Pro 国行起售价为 29999 元,将于 6 月 14 日上午 9 点开启预购,6 月 28 日正式发售。来源: 爱范儿
这家世界模型公司发布中国版 Sora 级视频生成大模型
新闻概要:世界模型公司“极佳科技”联合清华大学发布中国首个 Sora 级视频生成大模型“视界一粟 YiSu”,其具多种优势,团队实力强大,该模型的推出标志着视频生成和世界模型领域进入快速发展时代。来源: 机器之心
“Meta 面临隐私问题欲用欧洲数据训练 AI 模型”
新闻概要:Meta 面临隐私问题,其希望利用欧洲用户数据训练人工智能模型,虽已向用户发送通知和邮件解释计划,但仍遭投诉。该公司称若不利用这些数据,模型将无法准确理解欧洲相关内容,其隐私政策将于 6 月 26 日生效。来源: 新浪财经
马斯克“碰瓷”WWDC:不许旗下公司用苹果若其整合 OpenAI
新闻概要:6 月 10 日,马斯克称若苹果在操作系统整合 OpenAI,其旗下公司将禁止使用苹果设备。他指责 OpenAI 不尊重用户数据隐私,还分享相关图片和言论,其旗下多公司员工众多,他与 OpenAI 矛盾由来已久。来源: 华尔街见闻
“不只 ChatGPT,苹果欲添加谷歌 Gemini 等至 iOS 18”
新闻概要:2024 年 6 月 11 日消息,苹果在与 ChatGPT 达成合作后,其软件工程高级副总裁确认了与其他第三方模型如谷歌 Gemini 的合作计划,未来将让用户在不同大模型间选择,且透露一开始专注 ChatGPT 是因想从最好开始。来源: IT 之家
“免费匿名使用 GPT 等热门大模型,DuckDuckGo AI Chat 聊天机器人发布”
专注保护用户隐私的搜索引擎 DuckDuckGo 发布 AI Chat 聊天机器人,可免费匿名使用 OpenAI GPT 3.5 Turbo 等热门大模型,它充当中间人删除用户信息元数据,还计划推出付费版本,虽每日使用有限制但可防滥用。来源: IT之家
字节上线“小黄蕉”AI 虚拟交友聊天平台
字节突然推出 AI 虚拟交友聊天平台“小黄蕉”,可生成照片,对话丝滑。过去一年多字节全面布局 AI,已推出多款产品,此次“小黄蕉”上线引发网友热议,且字节首款 AI 产品“豆包”成绩斐然。来源: 钛媒体
阿里云发布全球最强开源模型 Qwen2
阿里通义千问Qwen2 大模型今日发布,并在 Hugging Face和 ModelScope上同步开源。Qwen2 系列涵盖5个尺寸的预训练和指令微调模型,其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B,上下文长度支持进一步扩展,最高达128K tokens来源: IT 之家
Seed-TTS:高质量多功能语音生成模型家族
研究团队推出 Seed-TTS 系列大规模自回归语音生成模型,能生成近乎与人类语音无异的语音,在语音情境学习等方面表现出色,还提出语音分解自蒸馏法等,其非自回归变体性能也佳。来源: arXiv
iOS 版 ChatGPT App 1.2024.150 更新:可后台对话,带来多任务交互体验
新闻概要:6 月 6 日消息,ChatGPT iOS 应用重大更新,版本 1.2024.150 带来多任务交互体验,用户可在后台与 ChatGPT 对话,该功能默认关闭需手动开启,虽尚不清楚对设备性能等影响,但强大且降低了局限性。来源: IT 之家
马斯克的 xAI 拟在孟菲斯开发超级计算机为 Grok 提供算力
新闻概要:据报道,马斯克麾下的 xAI 计划在孟菲斯建设新工厂容纳巨型超级计算机,以提高 AI 领域竞争力,该计划自 3 月初就与田纳西州官员一起规划,细节尚未完全敲定,马斯克暂未回应,其 xAI 团队来自多顶尖公司。来源: 财联社
面壁智能将小钢炮 MiniCPM 免费商用
面壁智能、OpenBMB 与清华 NLP 实验室决定将面壁“小钢炮”MiniCPM 免费商用,其已取得诸多优异成绩,且有诸多优点,该团队一直是开源社区积极贡献者,此举措展现了其对开源的支持。来源: 面壁智能
智谱 AI 宣布全模型矩阵降价并开源部分模型
新闻概要:2024 年 6 月 5 日,智谱 AI 在 Open Day 上宣布全模型矩阵降价,同时开源 GLM-4-9B 系列模型,包括基座模型等,其性能卓越,具备多种功能和高级能力。来源: IT 之家
微软推出全新“贴纸制作器”:AI 加持自由创建个性化贴纸
新闻概要:2024 年 6 月 5 日,微软旗下 AI 图像编辑器推出全新“贴纸制作器”功能。该功能结合文本生成精美贴纸,可用于多种场景,满足个性化创作需求,且便捷易用。专家认为此将推动 AI 在创意设计领域发展。来源: 快科技
GLM-4-9B 开源,探索模型极限
自 3 月 14 日 ChatGLM-6B 开源后,GLM 系列模型受关注。为让小模型更强,团队探索近半年推出 GLM-4-9B。它具更强推理等能力,多语言等方面提升,还有多模态等突出能力,相关链接也已给出。来源: GLM 大模型
消息称 AI 视频生成初创公司 Pika 正筹集新一轮融资,寻求 7 亿美元估值
新闻概要:据报道,AI 视频生成初创公司 Pika 正筹集新一轮资金,此轮融资可能使其估值超 5 亿美元甚至达 7 亿美元,该公司由斯坦福大学博士生联合创立,投资者众多,且正利用生成式 AI 热潮,与其他公司竞争。来源: Business Insider
“思科启动 10 亿美元 AI 基金,投资人工智能初创公司”
2024 年 6 月 5 日消息,思科于 6 月 4 日设立 10 亿美元 AI 基金,投资人工智能初创公司,如 Scale AI、Cohere、Mistral AI 等,且过去几年已进行 20 多项相关收购和投资,推动生成式人工智能和机器学习发展。来源: IT 之家
ChatGPT 崩了,OpenAI 回应称正在调查
T之家 6 月 4 日消息,大约 15:00 分左右,大量用户反馈称 ChatGPT 服务宕机。OpenAI 状态仍显示为“不可用”,OpenAI 于 15:21 时发布公告称开发人员正在对该问题进行调查,但目前仍未提供进一步的信息。来源: IT之家
孟子 3-8B 模型正式开源,成轻量化大模型新宠
澜舟科技推出的轻量化大模型孟子 3-8B 正式开源,其在多个场景表现出色且参数精简,适合个人开发者和爱好者。它具有低显存高推理等核心优势,知识处理效果卓越,还提供了使用指南。来源: 澜舟科技
OpenAI CEO 奥特曼投资 400 多家公司,持股 28 亿美元
新闻概要:报道称 OpenAI CEO 山姆·奥特曼投资 400 多家公司,持股至少 28 亿美元,虽不持 OpenAI 股份但年薪约 6.5 万美元,净资产超 20 亿美元,其投资公司众多,上月还宣布加入捐赠誓言。来源: 新浪财经
昆仑万维开源 2 千亿稀疏大模型天工 MoE
新闻概要:2024 年 6 月 3 日,昆仑万维开源 2 千亿稀疏大模型 Skywork-MoE,它是全球首创用 4090 推理的开源千亿 MoE 大模型,还介绍了其模型架构、能力、技术创新等内容。来源: 钛媒体
“马斯克称将为 xAI 购买约 30 万块英伟达芯片”
新闻概要:2024 年 6 月 3 日消息,马斯克透露 xAI 明年夏天或购买约 30 万块英伟达 B200 芯片,预估至少花费 90 亿美元,xAI 已融资 60 亿美元,计划加大对 GPU 集群投资,其还在芯片购买规模上排名第三。来源: IT 之家
AMD 新一代最强 AI 芯片 MI350 系列登场,性能提高 3500%
AMD 发布新一代 AI 芯片 MI350 系列,性能大幅提升,还更新了 Instinct GPU 系列路线图,苏姿丰称公司重视 AI 业务并将增加投资,AMD 虽业绩良好但面临硬件供应和软件生态挑战。来源: 钛媒体
微软将向瑞典投资 32 亿美元加强 AI 和云服务设施
新闻概要:2024 年 6 月 3 日消息,微软计划在瑞典投资 32 亿美元用于 AI 和云服务设施,将增加 2 万个 GPU,还承诺培训 25 万人,微软称此投资反映对瑞典受益于 AI 的信念,北欧因能源优势吸引众多科技巨头来源: 新浪科技
斯坦福团队被曝抄袭清华系大模型
新闻概要:斯坦福 AI 团队被指抄袭中国国产大模型成果,包括模型结构和代码。该团队已删库跑路,虽有回应但又删除,而被抄袭方也展开调查并做出回应。此事件引发广泛关注。来源: 量子位
Suno 3.5 版本模型已向所有人开放,可制作4分钟歌曲
据 Suno 官方消息,AI 音乐工具 Suno 的最新 3.5 版本模型已经向所有人开放,这个版本的改进包括:可以制作4分钟的歌曲,创建最长2分钟的歌曲扩展,以及显著改进的歌曲结构。此前,Suno宣布将推出全新功能,可以将任何声音创作成歌曲。这项新功能能够将日常生活中的各种声音转化为音乐,为音乐创作带来了全新的可能性。来源: 品玩
Claude 上线 Tool Use 功能,可与外部数据和工具交互
人工智能公司 Anthropic 宣布 AI 助手 Claude 的 Tool Use 功能已全面上线。该功能使 Claude 能够自主与外部数据源、API 和工具进行交互,以改变企业利用人工智能实现任务自动化、个性化推荐和简化数据分析的方式。对于使用 Anthropic Messages API、Amazon Bedrock 和 Google Vertex AI 的开发人员来说,Tool Use 现已在整个 Claude 3 模型系列中可用。来源: Anthropic
英特尔、谷歌、微软、Meta等科技巨头成立联盟制定 AI 加速器连接标准
英特尔、谷歌、微软、Meta以及其他科技巨头周四宣布成立一个新的行业组织——“Ultra Accelerator Link (UALink) 推广组”,意在制定行业标准,领导数据中心中AI加速器芯片之间连接组件的发展,挑战英伟达在AI加速器一家独大的地位。分析认为,英伟达目前已提供互联技术,加上霸主地位稳固,目前英伟达没有动机也没有必要参与该联盟。来源: 华尔街见闻
消息称苹果将用 AI 彻底改造 Siri,让其控制所有功能
5月31日,彭博记者、知名苹果爆料人Mark Gurman援引知情人士报道称,苹果公司计划使用更先进的人工智能对其 Siri 虚拟助手进行全面改造,这一举措将允许用户通过语音控制单独应用内的所有功能。据报道,新版本的Siri将能够更精准地操作和导航iPhone或iPad,实现打开特定文件、移动笔记、发送或删除邮件、打开Apple News中的特定出版物、发送网络链接或请求文章摘要等操作。来源: 华尔街见闻
Altman 出席 AI 峰会,首次公开回应 OpenAI 治理和 AI 语音争议等问题
OpenAI首席执行官萨姆·奥特曼(Sam Altman)周四在联合国电信机构的年度AI for Good会议上通过视频发表了演讲,就如何利用人工智能技术的社会前景发表了讲话。在接受《大西洋月刊》首席执行官尼古拉斯·汤普森的采访时,奥特曼详细谈论了与人工智能相关的主题。但他回避了有关公司治理以及被罢免的董事会成员的批评等棘手问题。奥特曼在采访中首次就OpenAI使用酷似好莱坞影星斯嘉丽·约翰逊声音的AI语音一事引发的争议发表公开评论,强调“那不是她的声音”。来源: 新浪财经
OpenAI 重启之前一度被放弃的机器人团队
据国外媒体报道,据三位消息人士透露,随着对人工智能机器人的投资升温,OpenAI正式重启了此前被放弃的机器人团队。知情人士表示,OpenAI目前正在招募研究工程师以重建机器人团队,该团队已于2020年解散。尽管OpenAI尚未公开披露其自主研发机器人技术的具体细节,但在最近公布的招聘公告中,他们明确表示新加入的员工将成为“这个全新团队的首批成员之一”。来源: 腾讯科技
OpenAI 推出 ChatGPT Edu 教育版本,支持 GPT-4o、自定义 GPT 等
OpenAI在官网宣布,推出ChatGPT Edu版本。据悉,这是一个专门为大学校园提供的ChatGPT,支持GPT-4o、网络搜索、自定义GPT、数据分析、代码生成等功能,可以极大提升学生、老师的学习质量和教学效率。目前,牛津、剑桥、伯明翰等24所“罗素大学集团”的全球顶尖大学,已经在教育中使用ChatGPT等生成式AI产品。而沃顿商学院、亚利桑那州立大学在今天也官宣与OpenAI进行合作,在教育领域深度应用ChatGPT。来源: AIGC开放社区
昆仑万维宣布 Opera 浏览器接入端侧 AI 大模型
今日,昆仑万维宣布,其旗舰浏览器Opera One以及游戏浏览器Opera GX将正式接入端侧AI大模型,成为全球第一个接入端侧AI大模型的主流浏览器。2024年4月,Opera已在开发者版本浏览器中首次接入了端侧AI大模型,并进行了全面测试。昆仑万维表示,即日起,端侧AI大模型将被正式集成进Opera浏览器旗舰产品中,覆盖Windows、MacOS和Linux等全部设备。来源: 快科技