LaVague-利用LLM通过自然语言与浏览器交互

通过将自然语言指令转换为无缝的浏览器交互来重新定义互联网冲浪。LLM模型指向Azure/OpeAI需要做适合AWS的改造。

自然语言处理 ：理解自然语言指令以执行浏览器交互。
Selenium 集成 ：与 Selenium 无缝集成，以实现 Web 浏览器自动化。
开源：基于 Transformer 和 llama-index 等开源项目构建，并利用本地或远程的开源模型，以确保代理的透明度并确保其符合用户的利益。
用于隐私和控制的本地模型 ：支持本地模型，例如 Gemma-7b让用户可以完全控制自己的AI助手，并有隐私保障。
先进的人工智能技术 ：使用本地嵌入（ bge-small-en-v1.5）首先执行 RAG 来提取最相关的 HTML 片段，以提供回答查询的 LLM，因为直接删除完整的 HTML 代码不适合上下文。然后利用少样本学习和思想链来引出最相关的 Selenium 代码来执行操作，而无需微调 LLM（ Nous-Hermes-2-Mixtral-8x7B-DPO) 用于代码生成。