Các AI agent có khả năng điều khiển trình duyệt web và thực hiện các tác vụ như con người không còn là khái niệm xa vời. Những công cụ mạnh mẽ như ChatGPT Operator mang lại hiệu quả vượt trội nhưng đi kèm với mức giá không hề nhỏ. Thay vì bỏ ra một khoản chi phí lớn, tôi đã tìm kiếm một giải pháp thay thế miễn phí và bất ngờ tìm thấy một công cụ hoạt động cực kỳ hiệu quả.
Browser Use: Giải Pháp Mã Nguồn Mở Tối Ưu Cho AI Điều Khiển Trình Duyệt
ChatGPT Operator có thể điều khiển trình duyệt web và thực hiện các hành động như nhấp chuột, cuộn trang một cách tự động. Bạn chỉ cần hướng dẫn ChatGPT những gì cần làm, chẳng hạn như đặt vé hoặc nhập văn bản vào Google Docs, và nó sẽ thực hiện. Tuy nhiên, để tiếp cận công cụ này, người dùng phải trả một mức phí khá cao – 200 USD mỗi tháng trong gói ChatGPT Pro. Vì không đủ khả năng chi trả gói đăng ký này, tôi đã tìm kiếm một giải pháp thay thế và biết đến Browser Use.
Browser Use là một AI agent mã nguồn mở tương tự như ChatGPT Operator. Nó có khả năng tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện các tác vụ. Điều đáng chú ý là chi phí của nó chỉ bằng một phần nhỏ so với dịch vụ của ChatGPT. Hơn nữa, có hai tùy chọn để người dùng lựa chọn. Tùy chọn đầu tiên là trả phí đăng ký 30 USD để chạy AI agent trên dịch vụ đám mây của họ. Tùy chọn còn lại là tự thiết lập cục bộ trên máy tính cá nhân, và đây là lựa chọn tiết kiệm nhất (bạn sẽ chỉ phải trả phí sử dụng API). Tôi đã chọn phương án tiết kiệm chi phí nhất này.
Giao diện website Browser Use hiển thị các gói dịch vụ và tùy chọn cài đặt
Việc thiết lập Browser Use không đơn giản như ChatGPT Operator, nhưng chỉ với vài dòng mã lệnh, tôi đã có thể khởi chạy nó một cách suôn sẻ. Nếu tôi có thể làm được, chắc chắn bạn cũng sẽ làm được!
Hướng Dẫn Cài Đặt Browser Use Trên Máy Tính Của Bạn
Để bắt đầu, bạn sẽ cần hai yếu tố: Python 3.11 được cài đặt trên máy tính và quyền truy cập API từ OpenAI (hoặc một mô hình ngôn ngữ lớn – LLM – được lưu trữ cục bộ nếu bạn muốn).
Vì Browser Use là một AI agent, nó yêu cầu một mô hình ngôn ngữ lớn (LLM) để hoạt động. Đối với việc này, bạn có thể lấy quyền truy cập API từ trang web của OpenAI hoặc bất kỳ API nào khác tương thích với Browser Use. Lợi ích của việc sử dụng API là bạn có sự linh hoạt để lựa chọn giữa các mô hình khác nhau (như GPT-3.5 và GPT-4) và bạn chỉ phải trả tiền cho những gì bạn sử dụng, thay vì một khoản phí đăng ký trả trước.
Trong quá trình thử nghiệm của mình, tôi đã sử dụng mô hình ChatGPT 4-o. Tổng chi phí tôi phải trả cho bảy tác vụ mà tôi yêu cầu Browser Use thực hiện là dưới 1 USD. Tuy nhiên, nếu bạn kết hợp nó với API của DeepSeek, chi phí sẽ còn rẻ hơn nhiều lần.
Bạn cũng có thể sử dụng một LLM cục bộ trên máy tính của mình. Tuy nhiên, việc chạy một LLM cục bộ có hiệu suất tương đương với ChatGPT 4-o đòi hỏi sức mạnh tính toán đáng kể, điều mà hầu hết mọi người có thể không có. Tôi đã thử nghiệm mô hình LLM 7B của DeepSeek trên máy tính của mình, và hiệu suất tệ một cách không ngạc nhiên. Vì vậy, tôi khuyên bạn nên sử dụng API vào thời điểm hiện tại.
Sau khi có quyền truy cập API, bạn có thể tạo một môi trường ảo trong VS Code bằng cách vào View > Command Palette và gõ create environment. Sau đó, mở một terminal mới và cài đặt Browser-use bằng pip:
pip install browser-use
Tạo một tệp .env
trong thư mục và thêm khóa API của bạn vào đó:
OPENAI_API_KEY="Your API Here"
Tạo một tệp Python mới với tên app.py
và dán đoạn mã sau:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Thay thế lời nhắc bằng câu lệnh của riêng bạn, chẳng hạn như “Tìm kiếm Albert Einstein và mở trang Wikipedia của ông ấy.” Cuối cùng, chạy tệp python app.py
bằng terminal:
python app.py
Đánh Giá Hiệu Suất Thực Tế: Browser Use Có Đáp Ứng Kỳ Vọng?
Tôi bắt đầu thử nghiệm với các tác vụ đơn giản, chẳng hạn như tìm kiếm “Albert Einstein” trên Google và mở trang Wikipedia của ông ấy. Khi tôi chạy script, AI agent đã mở một cửa sổ trình duyệt mới và thực hiện tác vụ một cách hoàn hảo.
Tiếp theo, tôi yêu cầu nó tìm kiếm các mẫu laptop gaming trên Amazon và mở kết quả đầu tiên. Một lần nữa, AI agent đã hoàn thành tác vụ thành công.
Ở thời điểm này, tôi đã bị thuyết phục rằng Browser Use có thể điều hướng web một cách thông minh. Để đẩy nó xa hơn, tôi đã hướng dẫn nó truy cập Yahoo News và tóm tắt năm bài viết hàng đầu. Điều ngạc nhiên là Browser Use có thể hoàn thành tác vụ này trong vài phút. Các bản tóm tắt ngắn gọn và đúng trọng tâm.
Tuy nhiên, mọi thứ trở nên khó khăn hơn đối với Browser Use khi tôi yêu cầu nó tìm kiếm các chuyến bay từ London đến Paris trên skyscanner.com. Ban đầu, trang web đã chặn truy cập do phát hiện bot, vì vậy tôi phải can thiệp và vượt qua cơ chế phát hiện bot. Dù vậy, Browser Use vẫn gặp khó khăn – nó đã nhấp vào nút tìm kiếm mà không nhập chính xác “London” và “Paris” vào các trường tương ứng.
Bạn có thể kết nối Browser Use với trình duyệt chính của mình, nơi tất cả các tài khoản của bạn đã được đăng nhập. Điều này cho phép AI agent nhập dữ liệu vào Google Sheet hoặc dán các bản tóm tắt từ Yahoo News vào Google Doc. Tuy nhiên, tôi đã gặp vấn đề khi thiết lập nó với trình duyệt đang hoạt động của mình, vì vậy tôi tạm thời gác lại việc này.
Nhìn chung, đây là một thử nghiệm thú vị. Việc quan sát một AI agent điều hướng web và thực hiện các tác vụ thật sự hấp dẫn. Mặc dù Browser Use chưa hoàn hảo, nhưng nó còn lâu mới trở thành một AI agent vững chắc có khả năng duyệt web.
Tuy nhiên, công nghệ này vẫn đang ở giai đoạn sơ khai, vì vậy chúng ta có thể mong đợi những cải tiến trong tương lai. Hiện tại, nếu bạn sẵn sàng mày mò với việc thiết lập và không ngại những trục trặc nhỏ, hãy khởi động máy tính của bạn và cài đặt Browser Use. Đừng ngần ngại chia sẻ trong các diễn đàn nếu bạn gặp khó khăn và cần sự giúp đỡ.