Anthropic, công ty đứng sau chatbot Claude, vừa đề xuất các hãng trí tuệ nhân tạo (AI) hàng đầu thế giới tìm ra cách phối hợp để tạm dừng phát triển các hệ thống AI tiên tiến, cảnh báo rằng công nghệ đang cải thiện quá nhanh khiến con người có nguy cơ mất kiểm soát.
Trong một bài đăng trên blog hôm thứ Năm, Anthropic cho biết khi AI tiên tiến ngày càng thực hiện nhiệm vụ nhanh hơn, “sẽ tốt cho thế giới nếu có lựa chọn làm chậm hoặc tạm dừng” sự phát triển của nó. Công ty cho biết viện nghiên cứu nội bộ của họ có kế hoạch khám phá vấn đề này cùng với các bên khác và “thực hiện các hành động” để giúp xây dựng các hệ thống cho việc làm chậm hoặc tạm dừng đáng tin cậy, mà không nêu chi tiết cụ thể.
Đối thủ của Anthropic là OpenAI đã đưa ra một cách tiếp cận khác trong một báo cáo công bố hôm thứ Tư, cho rằng “các chính phủ dân chủ — chứ không phải các công ty tư nhân hành động đơn lẻ — cuối cùng phải xác định các quy tắc, biện pháp bảo vệ và cơ chế giải trình”. “Quan điểm của chúng tôi là các quyết định về tốc độ đổi mới AI không nên để bất kỳ phòng thí nghiệm, công ty hay nhóm lợi ích đặc biệt nào quyết định,” OpenAI cho biết.
Anthropic cho biết các mô hình AI đang ngày càng nhanh hơn, với sự gia tăng nhanh chóng về tốc độ thực hiện các tác vụ phần mềm như tự viết mã. Dựa trên xu hướng hiện tại và với đủ sức mạnh tính toán, một hệ thống AI có thể tự thiết kế và phát triển phiên bản kế nhiệm của chính nó, một quá trình được gọi là “cải thiện bản thân đệ quy” (recursive self-improvement).
AI tự xây dựng sẽ là một cột mốc công nghệ lớn, mang lại lợi ích trong khoa học, y tế và các lĩnh vực khác, nhưng “cũng có thể làm tăng nguy cơ con người mất kiểm soát đối với các hệ thống AI,” Anthropic nói. Một số nhân vật trong ngành công nghệ từ lâu đã cảnh báo về kịch bản như vậy.
Bài đăng của Anthropic xuất hiện sau một cảnh báo khác trong tuần này từ nhóm nghiên cứu tại Đại học Toronto, những người đã chỉ ra cách các công cụ AI có thể được sử dụng để tạo ra một loại “sâu” AI mới, thích ứng chiến lược tấn công khi nó lây lan từ thiết bị này sang thiết bị khác và chiếm quyền điều khiển một mạng máy tính rộng lớn.
“Tôi nghĩ điều thực sự quan trọng là mọi người hiểu rằng không chỉ những mô hình ngôn ngữ lớn nhất, mạnh nhất mới gây ra lo ngại về an ninh,” nhà nghiên cứu chính Nicolas Papernot cho biết trong một cuộc phỏng vấn.
Các tác giả của bài đăng Anthropic, đồng sáng lập Jack Clark và Marina Favaro, người đứng đầu viện nghiên cứu, cho biết việc tạm dừng sẽ được sử dụng để cho phép “các cấu trúc xã hội và nghiên cứu căn chỉnh” (alignment research) theo kịp các tiến bộ AI. “Căn chỉnh” là thuật ngữ trong ngành để đảm bảo công nghệ phù hợp với các giá trị và ý định của con người.
Việc phối hợp được đề xuất sẽ cho phép các phòng thí nghiệm AI tiên tiến xác minh rằng các đối thủ toàn cầu đã thực sự dừng hoặc làm chậm công việc của họ, “và một tác nhân xấu không thể lợi dụng sự phối hợp chậm lại để bí mật vượt lên”. Công ty cho biết cần có một cơ chế phối hợp toàn cầu, bởi vì nếu không, việc làm chậm phát triển AI có thể cho phép những “người chơi ít thận trọng nhất” bắt kịp và gây thêm áp lực lên các công ty và chính phủ khi họ đưa ra các lựa chọn khó khăn về an toàn AI.
Lo ngại rằng các hệ thống AI tiên tiến có thể thoát khỏi tầm kiểm soát của con người và gây hại cho xã hội đã gia tăng khi công nghệ ngày càng trở nên có khả năng. Mô hình Mythos của chính Anthropic đã gây chấn động các ngành công nghiệp, bao gồm ngân hàng và phần mềm, vào đầu năm nay nhờ khả năng tìm ra lỗ hổng trong mã hiện có.
Tuy nhiên, quá trình quản lý diễn ra chậm, đặc biệt là ở Mỹ, nơi có hầu hết các phòng thí nghiệm AI hàng đầu. Một sắc lệnh hành pháp của chính quyền Trump hồi đầu tuần đã đặt trách nhiệm lên các phòng thí nghiệm, yêu cầu họ tự nguyện nộp các mô hình mạnh nhất của mình để kiểm tra an ninh mạng của chính phủ trước khi phát hành công khai.
Các nhà nghiên cứu AI trước đây cũng đã kêu gọi tạm dừng, nhưng ít thành công. Elon Musk, chủ sở hữu phòng thí nghiệm AI xAI, là một trong những người ủng hộ nỗ lực năm 2023 của Viện Tương lai Sự sống (Future of Life Institute) phi lợi nhuận nhằm ngừng phát triển AI trong sáu tháng để có thời gian thiết lập các biện pháp bảo vệ an toàn.
Anthropic từ lâu đã tự định vị là phòng thí nghiệm AI tập trung vào an toàn. Đầu năm nay, họ từ chối cho quân đội Mỹ sử dụng các mô hình của mình cho giám sát nội địa và vũ khí tự động hoàn toàn, dẫn đến phản ứng dữ dội từ chính phủ, vốn đã đưa công ty vào danh sách đen an ninh quốc gia, dự kiến có hiệu lực vào cuối năm 2026.
Bài đăng của Anthropic được đưa ra khi công ty này và OpenAI, nhà sản xuất ChatGPT, đang chạy đua bán cổ phiếu ra thị trường chứng khoán, trong một IPO có thể định giá Anthropic ở mức gần một nghìn tỷ đô la.
Papernot đã thông báo cho các cơ quan an ninh mạng Canada trước khi công bố báo cáo của mình, cho thấy cách các nhà nghiên cứu phát triển con sâu trong phòng thí nghiệm bằng cách sử dụng một công cụ AI “mã nguồn mở” mà các nhà phát triển phần mềm dễ dàng truy cập và sửa đổi với chi phí thấp.
“Trước đây, những kẻ tấn công mạng sẽ tập trung vào các mục tiêu có giá trị rất cao,” ông nói, “Hệ thống ngân hàng, bệnh viện, lưới điện, nhà máy xử lý nước, trường học.” Papernot đồng ý rằng cần có nhiều sự hợp tác hơn giữa các công ty, cơ quan chính phủ và nhà nghiên cứu học thuật để phát triển các biện pháp đối phó khi các công cụ tấn công do AI hỗ trợ tăng tốc tìm kiếm lỗ hổng máy tính.
“Chiếc máy tính xách tay cũ trong tầng hầm mà bạn không thường xuyên kiểm tra có vẻ không phải là mục tiêu có giá trị cao, nhưng nó có thể được sử dụng làm bàn đạp để tấn công các mục tiêu có giá trị cao hơn,” ông nói. “Bất cứ thứ gì kết nối internet hiện nay đều có nguy cơ vì chi phí thực hiện các cuộc tấn công mạng này đã trở nên quá thấp.”