AI for Vietnam: Xây 'đường cao tốc dữ liệu' cho hệ sinh thái AI Việt
Trong cuộc đua trí tuệ nhân tạo (AI) toàn cầu, dữ liệu đang trở thành “hạ tầng lõi” quyết định năng lực cạnh tranh của mỗi quốc gia. Nhiều chuyên gia công nghệ cho rằng Việt Nam cần xây dựng hệ sinh thái AI riêng, bắt đầu từ dữ liệu, benchmark và các nền tảng dùng chung cho cộng đồng nghiên cứu, doanh nghiệp. Dự án ViGen – sáng kiến do Meta, NIC và AI for Vietnam phối hợp triển khai – đang được kỳ vọng trở thành một trong những nền tảng đầu tiên cho mục tiêu này.

Trao đổi với phóng viên, TS Vũ Xuân Sơn, Phó Giáo sư tại RSS Division, Lund University, CTO tại WASP Media & Language và AI for Vietnam chia sẻ về những thách thức lớn nhất của AI tiếng Việt hiện nay, bài toán thu hút nhân tài công nghệ, cũng như điều Việt Nam cần làm ngay để không bỏ lỡ cơ hội trong làn sóng AI toàn cầu.
PV: Trong bối cảnh AI đang phát triển rất nhanh trên toàn cầu nhưng dữ liệu tiếng Việt vẫn còn khá hạn chế, theo ông, vì sao Việt Nam cần xây dựng một hệ thống benchmark và dữ liệu riêng cho AI tiếng Việt như Project ViGen, thay vì chỉ dựa vào các bộ đánh giá quốc tế?
TS Vũ Xuân Sơn: Hiện nay, dữ liệu tiếng Việt trong quá trình huấn luyện các mô hình AI toàn cầu còn rất ít, chỉ khoảng 1%. Điều đó có nghĩa là AI “hiểu” tiếng Việt chưa nhiều, phần lớn vẫn là chuyển dịch tri thức từ các ngôn ngữ khác sang tiếng Việt.
Khi dùng AI cho các nhu cầu thông thường thì kết quả có thể khá tốt. Nhưng khi muốn làm chủ công nghệ và đưa AI vào các lĩnh vực chuyên sâu của đời sống, kinh tế hay các ngành dọc thì nhiều vấn đề bắt đầu xuất hiện. Ví dụ, trong lĩnh vực y tế, khi bác sĩ sử dụng tên bệnh bằng tiếng Việt hoặc kết hợp thuật ngữ Việt – Anh, AI có thể trả lời sai gần như hoàn toàn.
Nếu chỉ dùng AI để trò chuyện đơn giản thì chưa thấy rõ hạn chế, nhưng khi đi vào chuyên môn sâu sẽ phát sinh rất nhiều vấn đề. Đó là lý do Việt Nam cần có chiến lược riêng về dữ liệu và AI tiếng Việt. Từ sứ mệnh đó, AI for Vietnam được thành lập và sau đó dự án ViGen ra đời với sự phối hợp của Trung tâm Đổi mới sáng tạo Quốc gia (NIC), tập đoàn Meta và tổ chức AI for Vietnam nhằm kết nối cộng đồng cùng xây dựng bộ dữ liệu tốt cho người Việt.
Ở đây chúng tôi không phân biệt là thuộc cơ quan hay doanh nghiệp nào, vì khi chưa có dữ liệu tốt thì tất cả đều như nhau, AI nào cũng kém như nhau. Nhưng khi có một nền tảng chung tốt rồi thì nó giống như xây một “đường cao tốc”. Có đường cao tốc rồi thì các doanh nghiệp mới có thể phát triển thêm những ứng dụng riêng cho giáo dục, y tế, tài chính… Lúc đó nền kinh tế AI mới thực sự hình thành.

Khi bắt tay xây dựng một hệ sinh thái AI tiếng Việt với quy mô lớn như vậy, đặc biệt là hướng tới các lĩnh vực chuyên sâu như y tế, giáo dục hay tài chính, dự án ViGen hiện đang đối mặt với những khó khăn lớn nào?
Khó khăn lớn nhất hiện nay vẫn là dữ liệu. Phần lớn dữ liệu chất lượng cao đều liên quan đến bản quyền. Đây không chỉ là vấn đề của Việt Nam mà thế giới cũng đang gặp phải. Vì vậy cần tìm được cơ chế hài hòa giữa bảo vệ bản quyền và phát triển AI.
Bản thân các nhà sáng tạo nội dung cũng sẽ hưởng lợi khi AI phát triển, nên nếu chỉ tập trung vào tranh chấp hay “kiện tụng” thì sẽ rất khó đi đường dài. Điều tích cực là thời gian gần đây, nhiều doanh nghiệp Việt Nam đã sẵn sàng hỗ trợ các dự án cộng đồng như ViGen khi thấy đây là một dự án trung lập, phi lợi nhuận và hướng tới lợi ích chung cho AI Việt Nam.
Một vai trò rất quan trọng của hệ thống benchmark là tạo ra một bên đánh giá độc lập. Nếu doanh nghiệp tự đánh giá AI của mình thì người khác có thể chưa tin tưởng. Nhưng nếu có một hệ thống trung lập đứng giữa để đánh giá chéo thì sẽ tạo được niềm tin cho cộng đồng, giúp mọi người biết AI đang ở đâu trong từng ngành dọc và từng nhu cầu ứng dụng cụ thể.
Ngoài ra, Việt Nam hiện chưa có nhiều mô hình AI và công cụ xử lý dữ liệu lớn cho tiếng Việt. Với tiếng Anh, thế giới đã có rất nhiều hệ thống hỗ trợ làm sạch dữ liệu, phân tích dữ liệu hay huấn luyện mô hình, còn với tiếng Việt thì các công cụ này vẫn còn khá hạn chế.
Tuy nhiên, Việt Nam không bắt đầu từ con số 0. Những bài toán xử lý tiếng Việt cơ bản như tách từ, phân tích cụm từ, nhận diện sắc thái hay xử lý văn bản thực tế đã có nền tảng tương đối tốt. Vấn đề khó hiện nay là xây dựng các mô hình xử lý dữ liệu lớn và “định vị dữ liệu”.
Ví dụ, làm sao để AI hiểu được một văn bản có thực sự chứa tri thức hay chỉ là nội dung spam, quảng cáo, sim rác… Đây là bài toán rất khó mà ngay cả thế giới cũng đang tìm cách giải quyết. ViGen đang xây dựng các hệ thống để AI có thể phân tích và hiểu dữ liệu tiếng Việt ở mức sâu hơn.
Từ câu chuyện xây dựng dữ liệu và hệ thống benchmark, ông kỳ vọng dự án ViGen sẽ đóng vai trò như thế nào trong việc kết nối giữa các trường đại học, doanh nghiệp công nghệ và những ứng dụng AI thực tế tại Việt Nam?
Tôi thường ví đây như xây “bản đồ số” cho dữ liệu tiếng Việt. Nếu không có bản đồ thì sẽ không biết mình đang ở đâu và cần đi tới đâu. AI cũng vậy. Nếu không biết dữ liệu hiện có là gì thì không thể xây dựng các mô hình chuyên sâu cho tài chính, y tế, giáo dục hay pháp luật.
Mục tiêu cuối cùng là xây dựng được những hệ thống AI giống như một “sinh viên giỏi tốt nghiệp đại học”, nghĩa là AI cũng phải đi từ kiến thức cơ bản đến nâng cao rồi mới chuyên sâu theo từng lĩnh vực. Nếu xây dựng được “bản đồ dữ liệu” cho tiếng Việt thì chúng ta sẽ biết AI Việt Nam đang ở đâu và cần phát triển tiếp theo hướng nào.
Việc kết nối hiện nay cũng diễn ra rất mạnh. Nhiều trường đại học như Đại học Bách khoa, Đại học FPT, Đại học Duy Tân… đã cử giảng viên, sinh viên tham gia hỗ trợ dự án. Các doanh nghiệp cũng đồng hành rất tích cực.
Khó nhất ban đầu là tạo niềm tin. Nhưng chỉ trong khoảng bảy tháng, dự án đã cho thấy có thể xây dựng được những hệ thống có giá trị thực tế. Đến nay, sau hơn một năm, các hệ thống benchmark và đánh giá AI đã bắt đầu được đưa vào sử dụng, đó là lý do nhiều bên bắt đầu tin tưởng và chung tay hỗ trợ.

Qua quá trình làm việc với nhiều trường đại học, doanh nghiệp cũng như cộng đồng AI trong và ngoài nước, ông đánh giá như thế nào về tiềm năng nguồn nhân lực AI của Việt Nam hiện nay?
Tôi thấy chuyển động trong lĩnh vực AI tại Việt Nam thời gian gần đây rất rõ nét. Nguồn nhân lực AI của Việt Nam, dù đang ở trong nước hay ở nước ngoài, đều đang cho thấy tín hiệu rất khởi sắc.
Hiện nay, Việt Nam cũng đang có quyết tâm lớn trong việc thu hút kiều bào, đặc biệt là các chuyên gia công nghệ và AI quay trở về đóng góp cho quê hương. Không nhất thiết phải về nước toàn thời gian, mà có thể tham gia theo nhiều hình thức khác nhau như cố vấn, nghiên cứu, đào tạo hay đồng hành cùng các dự án công nghệ trong nước.
Các bạn trẻ Việt Nam cũng rất nỗ lực. Nhiều sinh viên có thể vừa học vừa tham gia dự án thực tế trong suốt 4 năm đại học. Khi ra trường, các bạn đã có kinh nghiệm thực chiến. Đây là điều mà nhiều nơi trên thế giới cũng không dễ làm được.
Tôi thấy Việt Nam hiện có một lợi thế lớn là sự đồng lòng giữa trường đại học, doanh nghiệp và cả cơ quan quản lý. Mọi người vừa làm vừa học, vừa đổi mới rất nhanh. Đó là tín hiệu rất tích cực cho hệ sinh thái AI Việt Nam.
Việt Nam hiện cũng đang đặt nhiều kỳ vọng vào việc thu hút chuyên gia công nghệ và người Việt ở nước ngoài quay trở về đóng góp cho quê hương. Theo ông, đâu là những yếu tố quan trọng nhất để tạo được sức hút với đội ngũ nhân lực AI chất lượng cao này?
Theo tôi, ở đây có hai vấn đề. Thứ nhất là động lực của các chuyên gia, và thứ hai là sức hút của Việt Nam. Trong bối cảnh thế giới phẳng hiện nay, làm việc ở đâu người ta cũng có thể đóng góp cho Việt Nam được, chứ không nhất thiết phải trực tiếp về nước.
Còn về sức hút thì tôi nghĩ hiện nay vẫn chưa đủ lớn. Dù Việt Nam đã có nhiều nỗ lực và chính sách thu hút nhân tài, nhưng khi đi vào thực tế vẫn còn nhiều vướng mắc. Có những người đã thử về làm việc nhưng cuối cùng vẫn phải quay ra nước ngoài, vì đơn giản là họ luôn có lựa chọn khác tốt hơn. Không phải cứ Việt Nam chào đón là người ta sẽ tự động quay về.
Tất nhiên, cũng có nhiều trường hợp trở về vì họ thực sự muốn đóng góp cho quê hương. Cho nên giữa “động lực cá nhân” và “sức hút của môi trường” là mối quan hệ tương hỗ với nhau.
Từ thực tế mà ông quan sát được, vì sao nhiều chuyên gia dù có mong muốn quay về vẫn còn đắn đo? Và theo ông, đâu là điều kiện quan trọng nhất để có thể giữ chân nhân tài công nghệ cao trong dài hạn?
Từ ngày 17 đến 19/7 tại Đà Nẵng sẽ diễn ra chương trình Vietnam AI Innovation Challenge 2026 do Trung tâm Đổi mới sáng tạo quốc gia (NIC) phối hợp cùng Tập đoàn Meta, Tổ chức AI for Vietnam và Đại học Duy Tân tổ chức.
Đây là lần đầu tiên Việt Nam có một hackathon AI-native ở quy mô quốc gia, nơi người tham gia không chỉ viết code mà trực tiếp xây dựng sản phẩm AI giải quyết bài toán của doanh nghiệp trong thời gian thực.
Chương trình quy tụ từ 2.000 - 3.000 lập trình viên cùng xây dựng sản phẩm giải quyết bài toán thực tế từ doanh nghiệp trong 48 giờ.
Ban cố vấn cho thí sinh là các chuyên gia trí tuệ nhân tạo quốc tế, đội ngũ kỹ sư và nhà nghiên cứu đến từ Google Research, Stanford University, TikTok, NVIDIA, Instagram và nhiều công ty AI hàng đầu thế giới.
Theo tôi, vấn đề không chỉ nằm ở lương thưởng hay đãi ngộ. Chính sách thì hiện nay cũng đã có, nhưng điều quan trọng là cơ chế thực thi và mức độ cởi mở trong quá trình triển khai.
Ví dụ trước đây Trung Quốc có chương trình “Ngàn nhân tài”, trong đó các nhà khoa học được trao quyền tự chủ rất lớn về sử dụng nguồn lực, tài chính và định hướng nghiên cứu. Họ nhận được sự hỗ trợ mạnh từ trường đại học, doanh nghiệp và cả Nhà nước, từ đó mới có thể xây dựng được những chương trình công nghệ mạnh.
Theo tôi, điều quan trọng là phải có cơ chế đủ mở để chuyên gia thực sự được làm chuyên môn. Nếu chỉ thu hút người ta về nhưng chưa biết để họ làm gì, hoặc không cho họ quyền tự chủ về tài nguyên, nhân lực, tài chính hay hạ tầng nghiên cứu thì rất khó giữ chân lâu dài.
Nhiều khi vấn đề không nằm ở lương. Có người được mời về nhưng cuối cùng lại phải dành quá nhiều thời gian cho thủ tục, giấy tờ, họp hành hay các công việc hành chính. Trong khi điều họ cần là được tập trung vào chuyên môn, nghiên cứu và phát triển công nghệ.
Chỉ cần có một vài trường hợp gặp vướng mắc như vậy thì những người khác ở nước ngoài cũng sẽ chùn bước. Đây là điều ảnh hưởng rất lớn đến niềm tin của cộng đồng chuyên gia.
Trong bối cảnh cuộc đua AI trên thế giới đang diễn ra rất nhanh, theo ông, Việt Nam cần bắt đầu từ đâu và cần làm gì ngay từ bây giờ để không bỏ lỡ cơ hội này?
Theo tôi, điều Việt Nam cần làm ngay lúc này là phải đặt ra những bài toán lớn, rất cụ thể cho AI trong từng lĩnh vực. Hiện nay, cả Hà Nội lẫn TP.HCM đều có rất nhiều nhu cầu thực tế, từ y tế, giáo dục cho đến giao thông, môi trường hay quản trị đô thị. Phần lớn những bài toán đó đều có thể được giải quyết bằng AI.
Khi Nhà nước và các chính sách đặt ra được những bài toán đủ lớn, đủ cụ thể thì việc thu hút chuyên gia giỏi hay huy động nguồn lực sẽ rõ ràng hơn rất nhiều. Các chuyên gia cần nhìn thấy mục tiêu cụ thể, giá trị cụ thể và những vấn đề thực tế cần giải quyết, chứ không phải chỉ dừng ở những định hướng chung chung hay quá nhiều cuộc họp.
Ông từng tham gia nhiều dự án nghiên cứu AI quốc tế, trong đó có các chương trình lớn tại Thụy Điển. Từ những kinh nghiệm đó, theo ông, Việt Nam có thể học hỏi gì để xây dựng một hệ sinh thái AI đủ mạnh cho cả nghiên cứu lẫn ứng dụng thực tế?
Ví dụ, dự án mà tôi đang tham gia tại Thụy Điển là một chương trình AI lớn với tổng đầu tư khoảng 600 triệu USD trong vòng 20 năm. Giai đoạn đầu dự kiến kéo dài đến năm 2034. Cách làm của họ là xây dựng sẵn các nền tảng và hệ thống hỗ trợ nghiên cứu AI.
Chẳng hạn, nếu tôi muốn nghiên cứu AI cho xử lý video hay ô nhiễm không khí thì đã có sẵn các nhóm và nền tảng hỗ trợ phía dưới. Nhờ vậy, các nhóm nghiên cứu không phải làm lại từ đầu mọi thứ từ A đến Z. Nếu cái gì cũng tự làm từ đầu thì sẽ rất tốn nguồn lực, tiền bạc và thời gian, rất khó để đi tới mức ứng dụng thực tế.
Thay vào đó, họ xây dựng các “foundation” – tức những nền tảng lõi hỗ trợ cho nhiều hướng nghiên cứu khác nhau. Người đi sau có thể tận dụng ngay những gì đã có để tiếp tục phát triển, thay vì phải bắt đầu lại từ đầu. Theo tôi, đây là điều Việt Nam cần học hỏi rất nhiều.
Để AI thực sự đi vào đời sống thay vì chỉ dừng ở các định hướng hay khẩu hiệu, theo ông, Việt Nam cần thêm những cơ chế hỗ trợ nào cho cộng đồng nghiên cứu, startup và doanh nghiệp công nghệ trong thời gian tới?
Một điểm quan trọng là phải tạo ra cơ chế kết nối giữa các nhóm nghiên cứu AI với các ngành ứng dụng thực tế. Ví dụ, khi có bài toán trong y tế thì sẽ có cơ chế để các nhóm AI, bệnh viện, doanh nghiệp công nghệ cùng bắt tay xin tài trợ và giải quyết bài toán đó.
Quan trọng hơn là các nhóm này được hỗ trợ từ những nền tảng dùng chung đã xây dựng sẵn. Ngay cả những hệ thống AI nền tảng như mô hình ngôn ngữ lớn cũng cần được hỗ trợ cho nghiên cứu. Nhiều doanh nghiệp nhỏ hoặc nhóm nghiên cứu hiện không đủ tiền để tiếp cận các hệ thống AI lớn trên thế giới.
Vì vậy, theo tôi, cần có các nền tảng mở hoặc các hệ thống hỗ trợ dùng chung cho cộng đồng nghiên cứu và startup. Ban đầu có thể cho phép sử dụng miễn phí hoặc hỗ trợ hạ tầng để họ phát triển sản phẩm. Khi có khách hàng và mô hình kinh doanh rồi thì doanh nghiệp có thể tự đầu tư tiếp.
Như vậy, AI mới thực sự đi vào ứng dụng thực tế và tạo ra hệ sinh thái phát triển bền vững, thay vì chỉ dừng ở mức nói nhiều về AI nhưng chưa giải quyết được các bài toán cụ thể của xã hội.
Trân trọng cảm ơn ông!
ViGen: Đưa bản sắc Việt vào AI
Dự án ViGen – “The Vietnamese AI Evaluation Platform” – được phát triển như một hệ thống đánh giá quy mô quốc gia dành riêng cho AI tiếng Việt. Dự án hướng tới xây dựng một bảng xếp hạng minh bạch, toàn diện và phù hợp với bối cảnh Việt Nam, giúp đo lường chính xác năng lực thực tế của các mô hình AI tạo sinh.
ViGen kết hợp cả các bộ tiêu chuẩn đánh giá chất lượng cao dành riêng cho tiếng Việt (benchmarks) cùng hình thức đánh giá thực tế từ người dùng theo mô hình “arena-style”/blind test. Cách tiếp cận này không chỉ đo khả năng xử lý ngôn ngữ, mà còn đánh giá mức độ phù hợp văn hóa, khả năng hội thoại, lập luận và ứng dụng trong đời sống.
Bộ khung đánh giá theo chuẩn quốc tế
Một trong những điểm nổi bật của ViGen là bộ nguyên tắc thiết kế cốt lõi gồm ba tiêu chí chính.
Thứ nhất, ưu tiên tiếng Việt. Các nhiệm vụ đánh giá được xây dựng trực tiếp bởi người bản ngữ, được bản địa hóa kỹ lưỡng thay vì dịch máy, nhằm phản ánh đúng sự đa nghĩa, thành ngữ và các cách diễn đạt đặc thù trong tiếng Việt.
Thứ hai, hệ thống được xây dựng theo chuẩn SOTA bảo đảm quy mô và độ khắt khe tương đương với các bộ tiêu chuẩn hàng đầu thế giới như MMLU hay HumanEval.
Thứ ba, ViGen áp dụng cơ chế “đánh giá kép”, kết hợp giữa đánh giá tự động khách quan và đánh giá ẩn danh từ người dùng thực tế nhằm tăng tính toàn diện và giảm thiên lệch.
Hướng tới “chủ quyền ngôn ngữ” trong AI
ViGen không chỉ phục vụ giới nghiên cứu mà còn hướng đến nhiều nhóm đối tượng khác nhau.
Đối với các đơn vị phát triển AI, hệ thống cung cấp kết quả kiểm định khách quan, giúp tối ưu mô hình và giảm rủi ro khi triển khai sản phẩm.
Với nhà đầu tư, ViGen mang lại dữ liệu kỹ thuật xác thực thay cho các tuyên bố marketing, giúp giảm chi phí thẩm định và đảm bảo tiềm năng phát triển bền vững.
Ở cấp độ quốc gia, dự án được kỳ vọng hỗ trợ chiến lược AI quốc gia và thúc đẩy “chủ quyền ngôn ngữ” thông qua các cơ sở thực chứng để ra quyết định đầu tư và ứng dụng AI.
Nền tảng ViGen Leaderboard hoàn toàn miễn phí, cho phép người dùng trải nghiệm và đánh giá trực tiếp 12 mô hình AI tại địa chỉ: https://rank.aiforvietnam.org.