
DeepSeek V4 vừa thay đổi cục diện thị trường AI chỉ trong một đêm. Hai phiên bản Pro và Flash được phát hành theo giấy phép MIT, hoàn toàn miễn phí về mã nguồn – điều mà OpenAI chưa bao giờ dám làm. Giá API V4-Pro chỉ 3,48 USD/triệu token đầu ra, bằng 1/8 GPT-5.5. Về hiệu năng: V4-Pro vượt Claude Sonnet 4.5 trong toán, khoa học kỹ thuật và lập trình thi đấu; chế độ không suy luận sâu tiệm cận Opus 4.6. DSA (DeepSeek Sparse Attention) cho cửa sổ ngữ cảnh 1 triệu token, giảm mạnh tài nguyên GPU. Huawei Ascend 950 sẽ khiến giá còn giảm sâu cuối năm sau. Đây không phải câu chuyện cảm xúc – đây là kiến trúc, tối ưu và chiến lược. Hãy đọc kỹ các con số.
1. Chênh lệch chi phí 8 lần – cú sốc cho mọi mô hình lợi nhuận
3,48 USD so với 30 USD. Không phải giảm giá khuyến mãi, mà là định giá cố định. Bất kỳ startup AI nào đang xây dựng sản phẩm trên API OpenAI đều phải tính lại bài toán unit economy. DeepSeek không chỉ rẻ hơn – họ mở mã nguồn MIT. Bạn có thể tải, chạy cục bộ, chỉnh sửa, không ràng buộc thương mại. Một thông điệp lặng lẽ nhưng cực kỳ mạnh mẽ: “Trí tuệ AI không còn là tài sản độc quyền.”
2. Hiệu năng vượt Sonnet 4.5, tiệm cận Opus 4.6 – nhưng chưa thắng tuyệt đối
Điểm mạnh của V4-Pro nằm ở các tác vụ có cấu trúc rõ ràng: toán, khoa học kỹ thuật, lập trình thi đấu. Ở đó, nó sạch sẽ hơn Claude. Nhưng ở chế độ suy luận sâu (deep reasoning) với các bài toán mơ hồ, thiếu dữ liệu, Opus 4.6 vẫn giữ ngôi vương. Đáng chú ý: nhân viên DeepSeek dùng V4 hàng ngày cho coding, và feedback nội bộ cho thấy chất lượng “gần bằng Opus 4.6”. Khoảng cách đang được thu hẹp với tốc độ đáng kinh ngạc.
3. Kiến trúc DSA – giảm tài nguyên, giữ nguyên ngữ cảnh
Attention truyền thống có độ phức tạp O(n²). Với 1 triệu token, điều đó là bất khả thi trên GPU tầm trung. DSA nén chiều token và kết hợp attention thưa, đưa cửa sổ 1M token thành tiêu chuẩn trên mọi dịch vụ chính thức của DeepSeek. Hệ quả kỹ thuật: bạn có thể cho toàn bộ codebase của một dự án vừa vào context, hoặc hàng nghìn trang tài liệu, mà không cần RAG phức tạp. Đối với người làm Agent, đây là thứ đã chờ đợi từ lâu.
4. V4-Flash – sự đánh đổi thông minh
Flash có hiệu năng kiến thức toàn cầu thấp hơn Pro một chút, nhưng suy luận tương đương, tốc độ và chi phí vượt trội nhờ quy mô tham số nhỏ hơn. Trong các tác vụ Agent đơn giản, Flash gần như không thua kém. Phù hợp cho doanh nghiệp cần độ trễ thấp, tác vụ mức trung bình. Nếu Pro là “xe thể thao”, Flash là “xe bán tải” – không phong độ đỉnh cao nhưng chở được nhiều hàng, tiết kiệm xăng.
5. Ràng buộc về hạ tầng – điểm yếu có chủ ý
DeepSeek thừa nhận: hiện tại thông lượng Pro rất hạn chế vì thiếu nguồn cung sức mạnh tính toán cao cấp. Tuy nhiên, kế hoạch phụ thuộc vào Huawei Ascend 950 – khi chip này được tung ra hàng loạt vào nửa cuối năm sau, giá Pro sẽ giảm sâu hơn nữa. Điều này cho thấy DeepSeek đang đi theo chiến lược “phần cứng nội địa hóa” để thoát khỏi ách thống trị của NVIDIA. Rủi ro? Có. Nhưng nếu thành công, đó sẽ là mô hình tham khảo cho toàn ngành.
6. Agent và khả năng tương thích
DeepSeek tuyên bố đã tối ưu V4 cho các Agent chính thống như Claude Code, OpenClaw, OpenCode, CodeBuddy. Cải thiện rõ rệt trong code generation và tạo tài liệu. Ở cấp độ API, cả hai model đều hỗ trợ chế độ suy luận sâu (khuyến nghị bật và cường độ tối đa cho Agent phức tạp). Đây là tín hiệu DeepSeek không chỉ làm model thuần túy, mà đang hướng đến hệ sinh thái Agent hoàn chỉnh.
Kết – dành cho người làm kỹ thuật, nhưng gợi mở sự chiêm nghiệm:
Sẽ có người thở phào nhẹ nhõm vì chi phí giảm. Sẽ có người lo lắng vì lợi thế cạnh tranh của họ bị xói mòn. Nhưng nếu nhìn thẳng vào kiến trúc DSA, con số 3,48 USD, và lộ trình Ascend 950, bạn sẽ thấy một chiến lược rất rõ: Làm cho AI đủ mạnh, đủ rẻ, đủ mở để không ai có thể giữ độc quyền lâu dài.
Cảm xúc ở đây không phải là “hy vọng” hay “lo lắng” mơ hồ. Cảm xúc của người kỹ thuật là sự phấn khích trước một giải pháp tối ưu thực sự. Hãy tải model về, chạy benchmark của riêng bạn, và tự đưa ra kết luận.
Bởi vì cuối cùng, thứ duy nhất đáng tin cậy là mã nguồn và con số.
