浏览器AI自动化技术的现状分析
在当今的互联网时代,浏览器AI自动化技术正逐渐成为研究和应用的热点。本文将探讨三种不同的浏览器自动化工具:pplx的comet、oai的atlas以及开源的chrome插件nanobrowser,并分析它们在打码、玩游戏和注册账号这三个任务上的表现。
首先,我们来看看打码任务。测试使用的验证码网站是https://www.google.com/recaptcha/api2/demo。在打码方面,comet表现尚可,虽然有时会漏掉一些验证码,但对于简单的验证码还是能够成功识别。然而,对于一些特殊的验证码,比如点完会原地消失更新的,comet就无能为力了。atlas在遇到验证码时则必须人工介入,似乎没有找到有效的越狱方法。至于nanobrowser,虽然能够帮助点验证码,但在遇到新出现的验证码图片时就会卡壳,可能是因为接入的模型没有视觉识别功能。
接下来是玩游戏任务。首先是NYTimes的Wordle游戏。comet在玩这个游戏时表现得非常流畅,能够正确处理点错的情况。atlas则完全无法自主访问游戏URL,导致游戏体验不佳。nanobrowser在游戏控制方面也存在问题,无法正确处理鼠标操作,导致游戏无法顺利进行。
最后是注册账号任务。以注册tiktok ads为例,这个任务中包含了一个特殊的3D验证码。comet虽然尝试去点验证码,但总是点歪,并且无法正确处理注册按钮上的复选框。atlas在处理复选框时表现得比较聪明,但遇到验证码时还是需要人工介入。nanobrowser则因为缺乏视觉功能,无法处理验证码。
综上所述,目前浏览器AI自动化技术还存在许多不足之处。oai的atlas虽然注重合规性,但在自动化任务上表现不佳。comet虽然能够处理一些简单的任务,但在复杂任务上显得笨拙。开源的nanobrowser则因为缺乏视觉功能而无法胜任需要图像识别的任务。未来,随着技术的进步,浏览器AI自动化有望取得更大的突破。
评论已关闭