whatsapp更新连接不了图片
硅基流动是一家专注于AI Infra(AI基础设施)领域的创业公司,成立于2023年8月。创始人袁进辉是前OneFlow创始人及CEO,曾任微软亚洲研究院主管研究员,获得微软亚洲研究院院长特别奖。本轮融资由某知名产业方领投,跟投方包括智谱AI、360和水木清华校友基金等知名企业及机构,老股东耀途资本继续超额跟进,华兴资本担任独家财务顾问。
AI法律独角兽Harvey收购失败,估值缩水:此前Harvey正寻求以至少 20 亿美元的估值融资 6 亿美元,计划利用部分资金收购成立25年的法律研究公司 vLex。但以收购告终,本轮融资也缩水。据两位参与投资的人士透露,Harvey目前预计将在由谷歌母公司 Alphabet 旗下投资机构 GV 领投的一轮融资中筹集约 1 亿美元。
傲鲨智能完成数千万元A+轮投资:傲鲨智能是一家基于外骨骼技术平台的机器人科技公司。公司主要服务B端工业市场提供外骨骼机器人产品和配套解决方案。A+轮融资由敦鸿资产领投。 融资资金将用于加速傲鲨智能“千元级外骨骼”及“具身智能”通用人形机器人与外骨骼结合形态的初步产品发布。
国帆科技完成2600万人民币A轮融资:国帆科技是一家互联网软件开发服务商,该公司旗下拥有抖付通等品牌。本轮融资由字节资本领投。资金将用于加强技术研发推动云计算、大数据、人工智能等技术的创新和应用等方面。
Prodia获1500万美元融资:Prodia 是一个由 GPU 分布式网络驱动的人工智能推理平台,利用Web3基础设施,以极低的成本提供可扩展的高性能计算资源。本轮融资由Dragonfly领投。
Vide获300万美元种子轮融资:Vida是美国企业级AI语音解决方案提供商,本轮融资由Stillmark领投。
Hypertype 获 60万欧元融资:Hypertype是一家瑞典营销科技初创公司,专注于通过人工智能自动化和简化客户支持和销售人员与客户的沟通。融资由 Butterfly Ventures 和 Bust 的领投,将用于扩大其 AI 服务的市场份额。
Gendo 获110 万美元融资:Gendo 是一个专为建筑师设计的生成式 AI 平台,它能够将 2D 绘图、草图或文本提示转换成复杂、逼真的可视化。
若创科技获硅谷VC美元投资:原大疆光电部负责人洪小平成立深圳若创科技。洪小平曾在伯克利获得物理学博士学位,并在霍尼韦尔担任高级科学家,后在大疆主导光电模块及激光雷达产品的研发和生产。他是大疆的核心研发人员之一,与公司共同申请了 187 项专利。新公司的业务方向为低速机器人。
瑞士 SaaS 平台 Squirro收购Synaptica:Squirro是一家位于瑞士的企业 SaaS 平台,专注于生成式 AI、搜索和业务洞察, Synaptica是美国企业分类管理和知识图谱系统 SaaS 提供商。这次收购的目的是将 Synaptica 的强大语义图技术与 Squirro 的尖端生成式 AI 功能相结合,形成一个强大的平台,用于知识发现、对话搜索和业务流程自动化。
(欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
周伯文在 WAIC 2024 全体会议上以上海 AI 实验室主任身份发表演讲,提出了人工智能 45° 平衡律(AI-45° Law),强调从长期视角确保 AI 安全与性能的平衡发展。他指出,当前 AI 发展存在失衡,性能提升远超安全性,导致了所谓的 “Crippled AI” 现象。为了解决这一问题,周伯文提出了可信 AGI 的 “因果之梯”,分为三个阶段:泛对齐、可干预和能反思,旨在逐步提升 AI 的安全性和可信度。他还强调了 AI 安全的全球性公共利益,呼吁国际社会共同推进 AI-45° 平衡律的实现。
月之暗面和清华 KVCache.ai 团队发布论文,揭示了 Kimi 大模型背后的推理架构 Mooncake,该架构采用分离式设计,通过 KV 缓存优化和分布式系统结构,以及基于预测的早期拒绝策略,有效提高了推理服务性能,能够承担 80% 以上的流量。
“青龙”身高 185cm,体重 80kg,全身拥有 43 个主动自由度,关节峰值扭矩最大 400N・m,算力支持 400TOPS。拥有高度仿生的躯干构型、拟人化的运动控制,支持多模态机动 / 感知 / 交互 / 操控。其同时具备高机动下肢行走配置、轻量化高精度上肢作业配置,支持快速行走、敏捷避障、稳健上下坡、抗冲击干扰四大运动功能。“青龙”由人形机器人(上海)有限公司自研,已获批省部级上海人形机器人制造业创新中心,并于 2024 年 5 月由工业和信息化部授牌国家地方共建人形机器人创新中心。
Step-2 是一个拥有万亿参数的 MoE 模型,目前处于申请体验阶段。Step-1.5V 展现了在图片和视频理解方面的非凡才华,推动了视觉艺术的边界。Step-1X 则以其 DiT 架构的灵活性,表现出对中国文化元素的深刻理解,实现了东方美学与现代科技的完美融合。
国产GPU公司摩尔线程宣布其人工智能旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级——从千卡扩展至万卡规模。总算力超过10EFLOPS,目标是做到有效计算效率超过60%、稳定性达99%,能支撑万亿参数级大模型训练。
商汤科技打造的首个面向C端用户的可控人物视频生成大模型VImiwhatsapp更新连接不了图片。Vimi基于商汤日日新大模型的强大能力,仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。
灵动由网易伏羲依托自主研发的工业级大型模型和AOP技术理念精心打造,旗下推出的两款旗舰产品——挖掘机器人和装载机器人,已经在超过50个省级重点项目中投入使用,服务于矿山、港口、搅拌站、学校等多样化的应用环境。网易伏羲还展示了其最新研发的“易生诸相”多模态大型模型,以及名为“丹青约”的多模态智能体助手。
通过软硬一体加速和智能技术的综合应用,该引擎能显著为AI等场景下的大数据任务提供更优的计算性能,并节省更多计算资源。比如,在数据湖场景下,Meson能够助力单个数据查询分析提速6倍,在微信读书“AI问书”项目中,Meson助力大数据任务节省了9成的资源消耗。
腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LoRA模型;同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。
这一AI框架使智能体无需特别训练,直接像人一样控制键盘和鼠标,与任意开闭源软件进行交互,不依赖任何内部API。Cradle是首个能够同时玩转多种商业游戏和操作各类软件应用的AI框架,其论文、项目和代码均已开源。在具有挑战性的benchmark OSWorld上击败了使用真值标签的基线EFLOPS,两年打造AI原生城市:
北京市经济和信息化局总经济师、数字经济专班执行长唐建国表示:“北京市明确提出,到2025年本地智算供给规模达到45EFLOPS,形成北京市内东西南北四个亿级以上算力中心,构建‘京津冀蒙’算力供给走廊,为人工智能大模型的训练和推理应用提供高效的算力供给。同时,推出一系列人工智能商业场景,预计利用两年时间打造AI原生城市。”
百度创始人、董事长兼首席执行官李彦宏谈及2023年国内出现了百模大战,造成了社会资源的绝大浪费,但也使得国内追赶世界上最先进的基础模型能力得到建立。李彦宏强调闭源模型的优势,称激烈竞争环境下,商业化闭源模型最能打。另外,没有应用,基础模型一文不值。同时他称智能体是最看好的AI应用方向。最简单的AI应用开发就是智能体,未来将会有数百万量级的智能体出现,而搜索是智能体分发的最大入口。
商汤科技董事长兼 CEO 徐立指出,当前 AI 行业确实很热,但“还没有到一个超级时刻”—— 因为 AI 暂未真正走进行业垂直应用,或引起广泛变化。当下的大模型只是一个“记忆器”,只是背下了所有的知识点,仅有的一点点智能其实是来自互联网上的数据背后带有的一个“高阶逻辑思维链”。在谈到“超级时刻”时徐立补充说,超级时刻和应用是相互成就的。“超级时刻”带来认知变化,才能推动应用。如果有应用来支撑,那么当下就是“超级时刻”。“就像 iPhone 一样,因为有了平台,后面才有 App Store 的生态。所以我想,这个时代是否是 AI 的超级时刻,一个关键就在于应用。”
菲尔兹奖首位华人得主丘成桐表示,“人工智能的上游、中游、下游要同步做,上游(基础学科)要领导,中、下游要帮忙,中国尤其要重视上游的工作。”
杨杰表示:“AI 到底是人类的助手还是对手、是机遇还是威胁,已经成为全社会共同的话题。我个人认为,AI 不会取代人类智能,但是会重构很多行业和领域,擅长使用 AI 的人将会替代不会使用 AI 的人。”
华为常务董事、华为云 CEO 张平安表示,中国的 AI 发展离不开算力基础设施的创新,并且要敢于开放行业场景,让 AI 在行业应用上领先。张平安提出,中国的 AI 发展道路,追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI,积极地开放行业的业务场景,中国很有机会在 2B 领域构筑起全球的领先优势。
法国开源AI研究实验室Kyutai发布实时语音多模态模型Moshi,具备看、听、说等功能。该实验室的八人研究团队耗时六个月从零开始开发。Moshi对标OpenAI GPT-4o,可以听取人的语音提问后进行实时推理回答内容,能够以 70 种情绪和风格进行交流,并且可以在 Kyutai 的网站上进行免费的交互式演示。Kyutai 计划公开 Moshi 模型的代码和权重。
2024世界人工智能大会上,特斯拉二代人形机器人Optimus正式亮相。特斯拉介绍,二代Optimus在直立行走的基础上,行走速度提升了30%;其手指还“进化”到除了感知和触觉,可以在轻握鸡蛋和搬运重物时做到“游刃有余”。近期二代 Optimus 已经在特斯拉工厂尝试“打工”。借助视觉神经网络和 FSD 芯片,二代 Optimus 可以模仿人类操作,进行电池的分拣训练。
开发者Pedro Vieito在Thread平台发布动态,表示 macOS 版 ChatGPT 应用会以纯文本方式在计算机上存储用户对话,可能被恶意行为者访问。OpenAI 公司回应称已更新其应用,对存储在 Mac 设备上的聊天记录进行了加密处理。
微软公司更新了支持文档,鼓励开发者在 Windows 11 系统中充分利用 AI 功能,打造优质应用程序。文档介绍了相关专业术语和内容,推荐开发者使用 OnnxRuntime 等框架来使用本地或者云端的 AI 模型,除了 C++ 和 Python 之外,还推荐使用 C# 开发 Windows 应用程序。同时,微软提醒开发者要注意数据隐私和安全问题,鼓励公开数据收集情况,用户应对数据拥有控制权。
新版Pro Search不仅能处理更复杂的查询,还具备多步推理能力,能执行高级数学和编程计算,提供更全面的调研结果。通过整合WolframAlpha引擎,Pro Search在解决复杂数学问题方面的准确性和速度得到显著提升。所有用户每四小时可免费使用Pro Search五次。Perplexity Pro订阅者则享有几乎无限制的每日使用权限。
Cloudflare发布了新的免费工具,用于防止 AI 机器人爬取其托管网站的数据,以训练 AI 模型。Cloudflare 通过分析 AI 机器人和爬虫的流量,优化了自动机器人检测模型,以便更准确地识别和标记那些试图模仿浏览器使用者行为以逃避检测的 AI 机器人。此外还设立了一个表单,供主机商报告可疑的 AI 机器人和爬虫,并承诺随着时间的推移不断手动将 AI 机器人列入黑名单。
VOICE ISOLATOR不仅能消除不需要的背景噪音,还能从任何音频中提取出清晰的对话,让播客、采访或电影听起来就像在专业录音室录制的一样。它的Extract vocals功能可以增强人声,同时清除街道噪音、麦克风杂音以及其他任何不需要的背景噪音。
三星负责芯片设计的系统LSI部门正在进行业务和组织重组,将优先发展AI芯片。此次从事汽车处理器“Exynos Auto”开发的的人员已在该部门内重新分配到AI系统级芯片团队,该团队现在是三星设计工作的重点。目前,该部门集中了100-150名专门设计人员,致力于AI芯片设计。
普渡大学计算机科学专业学生 Sambhav S. 完成了一项创新的技术项目,该项目能够让完整的 Linux 发行版直接从 Google Drive 启动。他利用 FUSERAM 磁盘技术,在 Linux 启动过程中直接从 Google Drive 加载操作系统的关键组件、应用程序和网络二进制文件。最终成功地在一台没有本地存储空间的备用笔记本电脑上启动了这个系统。虽然速度较慢,权限和属性也受到影响,但仍然可用。Sambhav 认为这种技术可能有实际应用,比如从 Git 仓库或 SSH 连接启动环境,甚至可能让公司完全依赖云技术而不是硬件存储。
这个数据集经过严格的预处理后,缩减为2.07TB,减少了68%。对于确保高质量、无偏见、符合伦理和法律的数据集,以满足企业应用场景需求至关重要。数据集由多个来源精心策划而来,包括 arXiv、Common Crawl、DeepMind Mathematics、Free Law、GitHub Clean、Wikimedia 等。IBM 发布了四个 Granite 代码模型的版本,参数范围从30亿到340亿。
盖茨曾预言每个办公桌上都会有一台电脑,现在他又预言每个人的耳边都将配备一个人工智能助手。他指出,目前对人工智能的狂热远超过去互联网泡沫时期,进入人工智能领域的门槛非常低,资本正在以前所未有的速度涌入这个新领域。虽然谷歌和微软等大公司在人工智能领域拥有大量资本,但这并没有阻止其他公司在基础能力或垂直领域的发展。人工智能技术在全球经济中所占的份额虽然相对较小,但其潜力巨大,即使是小型机构也能借助这些工具与大型机构竞争,并提供更优质的服务。
Ariglad是一款创新的AI工具,专注于自动化知识库的创建和更新。它能够无缝整合来自Zendesk、支持票据和Slack等多个渠道的信息,为企业提供一站式的帮助中心解决方案。通过分析海量数据,Ariglad已生成超过30,000条建议,处理了500,000多张支持票据。
这款工具简化了知识库的维护过程,确保了信息的实时更新和安全性(获得SOC2认证)。通过自动识别知识空白、整合产品更新和利用Slack对话,Ariglad帮助企业节省时间成本,同时提高客户满意度。在当今81%的客户倾向于自助寻找答案的背景下,Ariglad为企业提供了维护高质量、始终最新的知识库的有力工具。
通过简单操作实现视频语音识别、字幕翻译+配音,生成带有字幕+配音的新视频(把视频从一种语言翻译成另一种语言并配音);支持自动视频翻译,集成faster-whisper模型,支持自定义huggingface模型; 集成批量处理工具,批量语音转字幕、批量字幕翻译和批量配音;支持多种配音和翻译渠道,如edgeTTS、AzureTTS、OpenAiTTS、Elevenlabs、Google、ChatGPT、DeepL、Gemini等;翻译渠道替换为本地模型,配音渠道替换为clone-voice,即可实现完全本地离线视频翻译
Widgera是一款新兴的无代码网站和应用开发平台,专为初创企业和中小企业打造。该平台目前处于Alpha 0.0.11阶段,提供拖放式界面和高度定制化功能,无需编码或设计技能即可创建强大的网站和应用。
Mutahunter是一款基于大型语言模型的突变测试工具,引起开发者关注。这个开源项目支持多种编程语言,通过AI生成上下文相关的错误注入,模拟真实世界的软件漏洞。其特点包括自托管选项、与Tree-Sitter的集成,以及详细的覆盖率报告生成。
LlamaGen在GitHub上获得了近900颗星标的认可。在ImageNet测试基准上,LlamaGen的表现超越了LDM、DiT等扩散模型。LlamaGen的技术实现基于几个关键设计原则:图像压缩/量化器、可扩展的图像生成模型,以及高质量的训练数据。研究团队采用了与VQ-GAN相似的CNN架构,将连续图像转化为离散Token,并在两个阶段的训练过程中,显著提升了图像的视觉质量和分辨率。
上海交通大学 GAIR 团队开发了全球首个完全开源、自回归、原生的多模态大模型 Anole,它能够通过纯 token 自回归预测实现文字与图像的生成。Anole 基于 Meta AI 的 Chameleon 模型,通过精心构建的约 6,000 张图像数据集进行微调,实现了出色的图像生成和理解能力。该模型不仅能够生成图像并附带相关文本描述,还能够根据文本生成图像,并且在初步测试中表现出卓越的能力,能够产生高质量的图像和交错的文本 - 图像内容,与用户提示密切吻合。GAIR 团队已经对 Anole 项目进行了全方位开源,提供了模型微调代码、权重转换代码、推理代码、以及用于微调的 5k + 图片,以及详细的使用教程,旨在帮助研究人员更容易上手和实验。
InstantStyle-Plus是一项由Haofan Wang团队开发的创新技术,旨在解决文本到图像生成中的一个关键挑战:如何在转换视觉风格的同时保持原始内容的完整性。这项技术巧妙地将风格迁移任务分解为风格、空间结构和语义内容三个核心元素,通过轻量级处理实现高效的风格注入。
该技术的独特之处在于其多方面的创新:使用反转内容的潜在噪声和可插拔的Tile ControlNet保持原始布局,集成全局语义适配器提高语义保真度,并采用风格提取器作为判别器提供额外的风格指导。尽管目前仍处于预实验阶段,InstantStyle-Plus已展示出在实际应用中的巨大潜力,为未来的图像生成和风格迁移技术开辟了新的可能性。
Magic Insert允许用户将任意风格的图像主体无缝融入到风格迥异的目标图像中,同时保持主体的原有风格和真实感。它通过巧妙地结合风格感知个性化和对象插入两大技术,克服了传统图像合成方法的局限。
InternLM/InternLM 是一个公开的 GitHub 仓库,最近发布了 InternLM2.5 版本,其中包括 7B 参数规模的基础和聊天模型。这个版本具有 1M(10^6)的上下文支持能力,这意味着模型能够处理大量的文本输入,适用于复杂的自然语言处理任务。
“我们正在进入一个新的计算范式,大语言模型就像CPU一样,使用Token而不是字节,并且有一个上下文窗口而不是RAM。这就是大语言模型操作系统。”