LeoTalk AI周知 6: AI浏览器大战
随着OpenAI和微软在这周进入AI浏览器大战,现在的战局已经是:
Perplexity的Comet:最近也免费了
The Browser Company的Dia(还有之前的Arc,很多人还在用):前段时间公司被Atlassian(做Jira的公司)收购
Opera的Neon
Google的Chrome:最近在美国推,其他地区暂无
OpenAI的Atlas
Zen Browser:开源的
Fellou
AI功能基本都是集中在侧边栏聊天、划词什么的,相对来说还是基础了一些,一些有半自动化的功能,但是场景也很限制,全自动化更是远了。并且这些产品基本都是基于Chromium(Chrome的开源)二开的。
在思考安全问题,这些浏览器无一例外都面临了类似提示词注入(Prompt Injection)的风险。假设一下,一个页面上看不到但是隐含了一下内容,是被精心设计好用来针对大模型的,那有可能在摘要一个页面的时候被攻击了,大模型有浏览器的控制权,类似CSRF之类的攻击就可以轻易实施了。
ChatGPT的用户访问量过去一年持续下降,而Google的Gemini增加了12.9%。不过大头还是在ChatGPT
Galileo的Mastering AI Agents
Glean的Building AI agents for the enterprise
NVIDIA Inception计划
Starcloud是NVIDIA的Inception计划(面向AI初创的加速计划)成员。starcloud计划部署搭载了H100的卫星,在太空中建设数据中心。几个点:
能源几乎无限:靠太阳能驱动
冷却高效:利用真空环境做散热,通过红外辐射排热
环境效益大:发射的碳排放只发生一次,长期看可减少约10倍CO2排放
DeepSeek推出DeepSeek-OCR,上周发了,不过还是再发一次,DS提出了将文本转成图片,再用图片输入到大模型,可以达到消耗更少的token。算是这周比较多人在讨论的一个东西
OpenAI推出浏览器Atlas
微软的Edge浏览器支持Copilot模式
Anthropic将Claude记忆推送到pro和max,可以区分工作和个人的记忆了
腾讯开源世界模型Hunyuan World 1.1(HunyuanWorld-Mirror)
Claude Code可在Web上使用了
Anthropic推出Claude for Life Sciences,新的科学研究平台连接器、AI实验技能和生物医学任务的性能提升
Google推出Google Skills,包含3000 AI和技术课程
Fish Audio推出Fish Audio S1
PokeeResearch,7B的SOTA模型,用于Deep Research
Lightricks推出LTX-2,开源视频模型,可以生成50fps+十几秒长度的4k
松延动力推出家庭友好的机器人Bumi,1400美元(9998元)的价格非常便宜了
宇树推出H2。也推出了面向教育的宇树四足机器人实训平台
亚马逊推出Blue Jay用于仓储分拣
加速进化推出k1,针对孩子和教育
苹果推出UltraCUA基础CUA模型
Huggingface发布Hugging Chat
Anthropic推出Sandbox Runtime,是开源的,不需要容器,直接对进程施加文件和网络限制
OpenEvidence(号称ChatGPT for doctors)估值达到60亿美元,仅仅三个月估值就翻了一倍。其模型基于可信医学资料(如美国医学会杂志,新英格兰医学杂志等)训练,主要是帮助医生和护士获取专业的医学知识,今年7月以来,月度咨询量飙升到1500万次
OpenAI收购Software Applications Incorporated(sky背后的公司),更多开始布局CUA?
Amazon计划在美国用机器人替换掉600K+的工作岗位
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning :蚂蚁集团的Ring-linear系列模型,一种高效的长上下文推理模型架构
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action:苹果新推出的基础CUA模型,主要点是将GUI操作(点击、滚动)和程序化调用(API、工具函数)结合的混合动作(Hybrid Action)
WALT: Web Agents that Learn Tools:web agent框架,让agent学会网站自带的功能,而不是一步步去点击输入。一开始利用工具构建智能体去做工具发现、构建和验证,最后再用浏览器智能体使用这些工具
Tensor Logic: The Language of AI:提出一种新的编程语言Tensor Logic,用来统一神经网络(Neural)和符号推理(Symbolic)两大AI范式,期望成为C for AI的底层语言标准
Robot Learning: A Tutorial:牛津和Hugging Face发的
Qwen3Guard Technical Report
Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report:早稻田大学发布轻量级ColBERT检索模型,17M/32M的参数却超越ColBERTv2,在低维嵌入下保持高性能,并大幅节省内存和算力,适合边缘设备高效检索
A2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
BitNet Distillation:微软提出将全精度模型蒸馏为三值权重网络(BitNet),结合子层归一化与注意力蒸馏,实现极大内存节省与更快CPU推理速度。
RAG-Anything: All-in-One RAG Framework:港大学提出统一多模态文档的 RAG 框架,通过双图结构与跨模态混合检索,实现对长篇异构证据的统一推理
评论已关闭