Claude hỗ trợ phân tích NMR: so sánh với ChemDraw và MestReNova

Tóm tắt nhanh Anthropic phối hợp với các nhà hóa học tổng hợp, tính toán và phân tích để cải thiện khả năng xử lý hóa học của Claude. Bài công bố đầu tiên trong loạt này tập trung vào một đầu vào phân tích rất phổ biến với nhà hóa học: phổ NMR 1D.

Bối cảnh Khi làm việc với phân tử, nhà hóa học phải chuyển giữa nhiều dạng biểu diễn — phác thảo trên bảng, kết quả thiết bị, chuỗi truy vấn cơ sở dữ liệu, và các ký hiệu kỹ thuật trong bài báo hoặc bằng sáng chế. Việc dịch chính xác giữa các biểu diễn này rất quan trọng nhưng tốn thời gian, đặc biệt khi kho dữ liệu hóa học lớn và phân mảnh. AI đa phương thức và có khả năng suy luận hiện mở ra cơ hội giải quyết phần lớn công việc chuyển đổi và tích hợp này.

Thiết kế thử nghiệm Anthropic so sánh ba model Claude (Opus 4.7, Opus 4.6, Sonnet 4.6) với hai phần mềm NMR kinh điển—ChemDraw và MestReNova—trong hai nhiệm vụ:

Dự đoán tiến (forward prediction): dự đoán vị trí các pík 1H và 13C từ cấu trúc (đưa dưới dạng SMILES) cho 20 hợp chất mới lấy từ preprint sau ngưỡng huấn luyện của model.
Suy luận ngược (inverse/structure elucidation): từ danh sách pík 1D và công thức phân tử (HRMS), model đề xuất cấu trúc cho 15 bài toán (8 bài dễ, 7 bài khó; các bài khó có thêm gợi ý cấu trúc chất khởi nguồn). Mỗi model Claude được truy vấn ba lần cho mỗi hợp chất để đánh giá biến thiên; ChemDraw và MestReNova trả kết quả cố định. Ngưỡng được dùng để coi là đúng: ±0.20 ppm cho 1H và ±1.0 ppm cho 13C. Ngoài ra còn đo sai số trung bình (MAE), RMSE và khả năng khớp mẫu tách (splitting / sub-peak spacing).

Kết quả chính

Opus 4.7 đạt hiệu suất tốt nhất cho proton (¹H) với sai số trung bình khoảng ±0.079 ppm — thấp hơn đáng kể ngưỡng chấp nhận — và có tỉ lệ pík đúng cao nhất.
Ở carbon (¹³C), Opus 4.7 và MestReNova có hiệu suất tương đương (MAE ~1.37–1.48 ppm).
Claude vượt trội trong dự đoán hình dạng tín hiệu và khoảng cách giữa các sub-peak: khoảng 80% các lần dự đoán của Claude nằm trong 0.5 Hz so với thực nghiệm, so với 26–35% của ChemDraw và MestReNova.
Opus 4.7 ổn định hơn giữa các lần chạy so với các phiên bản khác.
Trong nhiệm vụ suy luận ngược, Opus 4.7 tìm đúng cả 8 cấu trúc đơn giản ở mọi lần chạy chỉ từ phổ 1D và công thức; với 7 bài khó hơn (khi có gợi ý chất khởi nguồn), model trả về kết quả chính xác cho phần lớn bài toán (4 bài đúng cả 3 lần, một số bài đúng 2/3 lần).

Những hạn chế quan trọng Anthropic nêu rõ vài giới hạn cần lưu ý:

Quy mô đánh giá nhỏ: 20 hợp chất cho bài toán tiến và 15 cho bài toán ngược, nên kết luận mang tính chỉ báo hơn là khẳng định tổng quát.
Phản hồi kém trên các scaffold dày đặc: với các mục tiêu phức tạp mà không có gợi ý bổ sung, model có thể “vòng lặp” trong suy luận và không đưa ra kết luận dứt khoát.
Phạm vi scaffold và dung môi hạn chế (chủ yếu DMSO-d6, CDCl3, D2O); một số hệ như NH chậm trao đổi ngoài chloropyridazines vẫn cần mở rộng kiểm tra.
2D NMR (COSY, HSQC, HMBC) và hóa học lập thể (stereochemistry) nằm ngoài phạm vi vì phổ 1D không đủ để xác định cấu hình.

Ý nghĩa và hướng tiếp theo Kết quả cho thấy một model tổng quát (không tinh chỉnh chuyên biệt cho NMR) có thể sánh ngang hoặc vượt công cụ chuyên dụng trong nhiều tác vụ 1D và làm cho việc suy luận cấu trúc từ dữ liệu 1D trở nên thực tế hơn. Anthropic định tiếp tục đẩy mạnh các điểm nghẽn mà nhà hóa học thực tế gặp phải, trong đó ưu tiên:

đọc và chuyển đổi cấu trúc (từ hình vẽ, bằng sáng chế, hoặc phác thảo) sang định dạng máy đọc được;
lý luận phản ứng và lập kế hoạch tổng hợp (retrosynthesis);
diễn giải cơ chế phản ứng với ngôn ngữ chuyên môn (mũi tên electron, trung gian, trạng thái chuyển tiếp);
hiểu nội dung tài liệu hóa học (method sections, supporting information, bằng sáng chế).

Kêu gọi hợp tác Anthropic mở rộng chương trình AI for Science và mời các nhà nghiên cứu hợp tác nếu công việc của họ có thể hưởng lợi từ Claude, đặc biệt những bài toán liên quan đến suy luận đa phương thức. Liên hệ qua scienceblog@anthropic.com hoặc nộp đơn qua chương trình AI for Science.

Ghi chú nguồn Bài viết gốc và white paper chi tiết được công bố bởi Anthropic (xem liên kết nguồn).