Công ty khởi nghiệp Patronus AI nhận thấy, các mô hình AI đang gặp khó khăn khi phải đọc những hồ sơ của Ủy ban Chứng khoàn và Giao dịch Mỹ (SEC).
Theo đó, ngay cả cấu hình mô hình trí tuệ nhân tạo hoạt động tốt nhất mà họ đã thử nghiệm như GPT-4-Turbo của OpenAI, vẫn chỉ đạt tỷ lệ trả lời đúng 79% dù
đư???c đọc toàn bộ hồ sơ và thường xuyên gặp tình trạng “ảo giác” những số liệu hay sự kiện không có thật.
“Loại tỷ lệ hiệu suất đó hoàn toàn không thể chấp nhận
đư???c”, Anand Kannappan, người đồng sáng lập Patronus AI cho biết. “Tỷ lệ trả lời đúng phải cao hơn nhiều để có thể tự động hoá và sẵn sàng sản xuất”.
Phát hiện này nêu bật một số thách thức mà các mô hình AI phải đối mặt khi các công ty lớn, đặc biệt trong các ngành
đư???c quản lý chặt chẽ như tài chính, tìm cách kết hợp công nghệ tiên tiến vào hoạt động của họ, cho dù là dịch vụ khách hàng hay nghiên cứu.
“Ảo giác” số liệu tài chính
Khả năng trích xuất các con số quan trọng một cách nhanh chóng và thực hiện phân tích báo cáo tài chính
đư???c coi là một trong những ứng dụng hứa hẹn nhất cho chatbot kể từ khi ChatGPT
đư???c phát hành vào cuối năm ngoái.
Hồ sơ của SEC chứa dữ liệu quan trọng và nếu bot có thể tóm tắt chính xác hoặc trả lời nhanh các
câu hỏi v?
? nội dung trong đó, nó có thể giúp người dùng có lợi thế trong ngành tài chính cạnh tranh.
AI gặp khó ngay ở trong khâu tổng hợp số liệu - tác vụ mà chúng
đư???c kỳ vọng sẽ trợ giúp con người nhiều nhất.
Trong năm qua, Bloomberg LP đã phát triển mô hình AI của riêng mình cho dữ liệu tài chính, các giáo sư trường kinh doanh đã nghiên cứu xem liệu ChatGPT có thể phân tích các tiêu đề tài chính hay không.
Trong khi đó, JPMorgan cũng phát triển một công cụ đầu tư tự động
đư???c hỗ trợ bởi AI. Một dự báo gần đây của McKinsey cho biết AI tạo sinh có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.
Song, chặng
đư???ng này còn ở khá xa. Khi Microsoft lần đầu tiên ra mắt Bing Chat tích hợp GPT của OpenAI, họ đã sử dụng chatbot này để tóm tắt nhanh thông cáo báo chí về thu nhập. Những người quan sát nhanh chóng nhận ra những con số mà AI trả lời bị sai lệch, hay thậm chí bịa đặt.
Cùng dữ liệu, đáp án khác nhau
Một phần của thách thức khi kết hợp LLM vào các sản phẩm thực tế là thuật toán không mang tính xác định, nghĩa là chúng không
đư???c đảm bảo sẽ trả ra cùng một kết quả dù có đầu vào giống nhau. Đồng nghĩa các công ty cần thực hiện kiểm tra nghiêm ngặt hơn để đảm bảo rằng AI đang hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.
Patronus AI xây dựng bộ gồm hơn 10.000
câu hỏi và câu trả lời
đư???c rút ra từ hồ sơ của SEC từ các công ty giao dịch đại chúng lớn,
đư???c gọi là FinanceBench. Tập dữ liệu bao gồm các câu trả lời chính xác cũng như vị trí chính xác trong bất kỳ tệp cụ thể nào để tìm thấy chúng.
Không phải tất cả các câu trả lời đều có thể
đư???c lấy trực tiếp từ văn bản và một số
câu hỏi yêu cầu tính toán hoặc lý luận nhẹ nhàng.
Tham gia bài kiểm tra tập con 150
câu hỏi có bốn mô hình LLM: GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và Llama 2 của Meta.
Kết quả, GPT-4-Turbo khi
đư???c cấp quyền vào hồ sơ cơ bản của SEC, chỉ đạt tỷ lệ chính xác là 85% (so với 88% trả lời sai khi không
đư???c truy cập dữ liệu), dù đã
đư???c con người trỏ chuột đến chính xác đoạn văn bản để AI tìm câu trả lời.
Llama 2, một mô hình
AI nguồn mở do Meta phát triển, có số “ảo giác” cao nhất, trả lời sai tới 70% trường hợp và chỉ trả lời đúng 19% khi
đư???c cấp quyền truy cập vào một phần của các tài liệu cơ bản.
Claude 2 của Anthropic hoạt động tốt khi
đư???c đưa ra "bối cảnh dài", trong đó gần như toàn bộ hồ sơ SEC có liên quan
đư???c đưa vào cùng với
câu hỏi. Nó có thể trả lời 75% số
câu hỏi
đư???c đặt ra, trả lời sai 21% và từ c
hối trả lời 3%. GPT-4-Turbo cũng hoạt động tốt với ngữ cảnh dài, trả lời đúng 79%
câu hỏi và trả lời sai 17% trong số đó.
(Theo CNBC)
Cuộc chạy đua đầu tư vào các công ty khởi nghiệp AI của các Big Tech
Công nghệ AI ra đời đã làm rung chuyển thế giới công nghệ, tuy nhiên có một điều vẫn không thay đổi - Big Tech vẫn nắm giữ quyền lực tuyệt đối.
Công nghệ AI cách mạng hóa khởi nghiệp thương mại điện tử
Trong lĩnh vực thương mại điện tử cạnh tranh, AI đang trao cơ hội cho các công ty khởi nghiệp biết tận dụng công nghệ để phục vụ khách hàng và hợp lý hóa quy trình hoạt động.
AI lần đầu tiên thành công biến suy nghĩ của con người thành hình ảnh chân thực
Với sự hỗ trợ của công nghệ trí tuệ nhân tạo (AI), phát kiến mới trong nghiên cứu suy nghĩ của con người có thể
đư???c so sánh với việc mở ra một thế giới hoàn toàn mới bên trong chúng ta.
Nguồn bài viết : Cách chơi bắn cá