Các nhà khoa học phát triển thành công phần mềm dịch ngôn ngữ hiếm ra tiếng Việt

Viện Công nghệ Thông tin vừa phát triển thành công phần mềm dịch ngôn ngữ hiếm, có thể dịch tự động tiếng Việt ra các ngôn ngữ khu vực Đông Nam Á.
Tăng cường hợp tác trong lĩnh vực công nghệ thông tin, khởi nghiệp giữa Việt Nam và Ấn Độ Chính sách ưu đãi cho doanh nghiệp hoạt động trong khu công nghệ thông tin tập trung Cần sớm hoàn thiện hệ thống cơ sở hạ tầng và phần mềm chuyển đổi số

Viện Công nghệ Thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) đã thành công trong việc ứng dụng Phần mềm dịch ngôn ngữ "Made in Viet Nam" có chất lượng cao, bước đầu dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ: Khmer, Lào, Thái Lan, Malaysia, Indonesia.

Phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm

Xuất phát từ việc muốn cho ra đời một sản phẩm "made in Viet Nam", có thể được sử dụng thông dụng với nhiều tiện ích, thậm chí có thể thay thế các sản phẩm dịch tự động nước ngoài, nhóm nghiên cứu thuộc Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) gồm nhiều chuyên gia như: PGS.TS Nguyễn Việt Anh, ThS Đào Quang Toàn, ThS Bùi Minh Thành, ThS Vũ Thị Nhạn, ThS Vũ Thị Lan Anh… đã chung tay nghiên cứu thành công sau gần 1 năm và cho ra đời Phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ khác, trong đó, bước đầu nghiên cứu và ứng dụng thành công đối với các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm dịch thuật thương mại nổi tiếng trên thế giới.

Thực tế hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến với chất lượng dịch rất tốt cho các câu đơn, tuy nhiên, việc dịch một đoạn văn bản dài hơn, có tham chiếu thực thể, ngữ cảnh giữa các câu làm ảnh hưởng tới chất lượng dịch, khiến nhiều câu dịch trở nên hài hước và có phần ngô nghê.

Ngoài ra, các sản phẩm dịch thuật thương mại cũng yêu cầu khách hàng trả tiền theo thời gian sử dụng hoặc số lượng câu dịch. Bên cạnh đó, các hệ thống này không có chất lượng dịch tốt đồng đều cho tất cả các cặp ngôn ngữ đặc biệt là các ngôn ngữ nghèo tài nguyên như tiếng dân tộc thiểu số của Việt Nam hoặc các ngôn ngữ hiếm như tiếng Lào, Khmer…

Các nhà khoa học phát triển thành công phần mềm dịch ngôn ngữ hiếm ra tiếng Việt
Nhóm tác giả phần mềm (Ảnh:NVCC)

Một vấn đề nữa của các hệ thống dịch tự động được sử dụng phổ biến hiện nay là khả năng thích ứng miền chuyên biệt (domain-specific), nghĩa là, chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng (general public) nhưng chất lượng dịch rất kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…

Để khắc phục các tồn tại nói trên, nhóm nghiên cứu của Viện Công nghệ thông tin đã phát triển hệ thống dịch thuật lấy tiếng Việt làm trung tâm - một Phần mềm dịch ngôn ngữ có khả năng dịch hai chiều sang các ngôn ngữ nghèo tài nguyên với chất lượng được người sử dụng đánh giá tốt. Qua quá trình nghiên cứu đưa vào thực tiễn, Phần mềm dịch ngôn ngữ "made in Viet Nam" này có chất lượng luôn tương đương hoặc cao hơn một số hệ thống dịch tự động được sử dụng phổ biến hiện nay đối với cùng văn bản. Ngoài ra, ưu điểm của phần mềm này không hạn chế độ dài của văn bản.

Tự động dịch thuật với nhiều định dạng

Theo PGS.TS Nguyễn Việt Anh – thành viên nhóm nghiên cứu Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin, trong giai đoạn 2022-2023, để tập trung vào một số dự án với đối tác nước ngoài, hệ thống Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin tập trung vào triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models - LLMs) vào việc ưu tiên các cặp ngôn ngữ: Việt - Khmer và Khmer - Việt; Việt - Lào và Lào - Việt; Việt - Thái Lan và Thái Lan - Việt; Việt - Indonesia và Indonesia - Việt: Việt - Malaysia và Malaysia - Việt; Việt - Myanmar và Myanmar - Việt.

Các nhà khoa học phát triển thành công phần mềm dịch ngôn ngữ hiếm ra tiếng Việt
Phần mềm tự động dịch thuật với nhiều định dạng

Cũng theo PGS.TS Nguyễn Việt Anh, ngay cả với ngôn ngữ tiếng Anh, hệ thống Phần mềm dịch ngôn ngữ này đảm bảo chất lượng gần tương đương với hệ thống dịch tự động khác đang được sử dụng phổ biến hiện nay.

Nhóm nghiên cứu cũng cho biết, hệ thống Phần mềm dịch ngôn ngữ được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa.

Dẫn chứng trong quá trình nghiên cứu Phần mềm dịch ngôn ngữ, nhóm các tác giả đã gặp vô vàn khó khăn, đơn cử như dịch tiếng Thái sang tiếng Việt thì dễ hiểu nhưng tiếng Việt sang tiếng Thái thì vấp phải không ít trở ngại. Các chuyên gia lại phải dùng biện pháp "check chéo" để tìm đáp án chuẩn nhất. Hay ví dụ khi dịch tên riêng của người thì thuật toán dùng theo dạng thống kê và tìm ra tên một người Việt gần nhất để gắn vào, kết quả nhiều khi rất ngô nghê, lỗi, sai, khiến nhóm tác giả vốn toàn chuyên gia công nghệ mất nhiều tâm sức để xử lý.

Qua đó, mô hình Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin đã "học" được cách "thích ứng" với tất cả những đặc điểm đặc biệt này của các ngôn ngữ nói trên, cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài hiện nay.

Nhóm nghiên cứu tự hào với điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng (on premise): lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ, đảm bảo an ninh, an toàn và không lộ lọt thông tin cho bên thứ ba.

Cùng với đó, các mô hình dịch máy được huấn luyện trên hệ thống máy chủ Nvidia DGX A100 tại Viện Công nghệ thông tin có cấu hình tiên tiến bậc nhất ở nước ta hiện nay.

Được biết, đây cũng là hệ thống máy chủ vẫn còn đang thuộc hàng "hiếm" tại Việt Nam, hiện chỉ có một vài đơn vị, doanh nghiệp trên cả nước sở hữu để từ đó triển khai ứng dụng AI vào phục vụ cuộc sống. Trong đó, Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST) đang nghiên cứu phát triển hệ thống siêu tính toán với chip A100 của Nvidia để ứng dụng rộng rãi trong các lĩnh vực khoa học và công nghệ, y tế, giáo dục.

Phần mềm dễ dàng mở rộng ứng dụng sang các ngôn ngữ dân tộc thiểu số tại Việt Nam

PGS.TS Nguyễn Việt Anh cho biết, kiến trúc tổng thể hệ thống dịch máy dựa trên công nghệ Transformer hiện đại. Để có kết quả dịch chuẩn xác, nhóm nghiên cứu đã áp dụng rất nhiều kỹ thuật khác nhau để làm giàu bộ dữ liệu bao gồm kỹ thuật dịch ngược (back-translation), kỹ thuật xoay trục (pivoting) xung quanh một ngôn ngữ phổ biến, kỹ thuật học chuyển giao…

Một kỹ thuật rất tiên tiến khác nữa cũng được áp dụng để cải thiện chất lượng dịch. Cụ thể, mô hình được huấn luyện đồng thời cho nhiều cặp ngôn ngữ. Các ngôn ngữ giàu tài nguyên được huấn luyện trước, sau đó "tri thức" ngôn ngữ sẽ được chuyển giao cho các ngôn ngữ nghèo tài nguyên, giúp cải tiến hiệu suất của mô hình dịch cho các ngôn ngữ này.

PGS.TS Nguyễn Việt Anh chia sẻ: Mô hình dịch được xây dựng dựa trên mô hình Pre-trained thường có kích thước rất lớn, do đó yêu cầu nhiều về tài nguyên tính toán như bộ nhớ RAM, các bộ vi xử lý CPU và chip GPU phục vụ tính toán AI/ML khi triển khai thực tế. Ví dụ: ChatGPT sử dụng GPT-3.5 hiện nay của OpenAI có khoảng 175 tỷ tham số.

Tuy nhiên, hệ thống dịch ngôn ngữ này của Viện Công nghệ thông tin khoảng 40 tỷ tham số. Mô hình dịch ngôn ngữ có qui mô rất lớn có thể ảnh hưởng tới tốc độ thực thi mô hình (execution) trên môi trường có năng lực tính toán hạn chế. Do vậy, việc tối ưu mô hình thông qua một số kỹ thuật như lượng tử hóa trong số (weights quantization), dung hòa các lớp nút mạng nơ-ron trong mô hình (layers fusion), sắp xếp thứ tự xử lý các thành phần của câu đầu vào (batch reordering),… để tăng tốc độ thực thi và giảm bộ nhớ sử dụng trên CPU và GPU.

Thu Hường
Bạn thấy bài viết này thế nào?
Kém Bình thường ★ ★ Hứa hẹn ★★★ Tốt ★★★★ Rất tốt ★★★★★

Có thể bạn quan tâm

Tin mới nhất

Trường Đại học Công nghiệp Dệt may Hà Nội: Giải quyết các vấn đề thực tiễn qua nghiên cứu khoa học

Trường Đại học Công nghiệp Dệt may Hà Nội: Giải quyết các vấn đề thực tiễn qua nghiên cứu khoa học

Để giải quyết vấn đề thực tiễn của doanh nghiệp, những năm qua Trường Đại học Công nghiệp Dệt may Hà Nội đã đẩy mạnh công tác nghiên cứu khoa học.
Các xu hướng đe dọa mạng mới cần theo dõi trong năm 2025 và sau đó

Các xu hướng đe dọa mạng mới cần theo dõi trong năm 2025 và sau đó

Theo Fortinet, năm 2025, hoạt động tội phạm mạng liên tục phát triển và từ năm 2025, xuất hiện một số xu hướng đặc biệt.
Chính thức cung cấp dịch vụ 5G tốc độ nhanh nhất hiện nay, VNPT bước vào không gian phát triển mới

Chính thức cung cấp dịch vụ 5G tốc độ nhanh nhất hiện nay, VNPT bước vào không gian phát triển mới

Ngày 20/12, tại hội nghị Triển khai Kế hoạch năm 2025, Tập đoàn VNPT công bố chính thức cung cấp dịch vụ mạng VinaPhone 5G, phủ sóng 63/63 tỉnh, thành.
Ký kết hợp tác chiến lược, thúc đẩy tăng trưởng ngành logistics Việt Nam

Ký kết hợp tác chiến lược, thúc đẩy tăng trưởng ngành logistics Việt Nam

Hợp tác chiến lược giữa các bên sở hữu thế mạnh chuyên môn sẽ góp phần vào việc đổi mới sáng tạo và thúc đẩy phát triển ngành logistics Việt Nam.
Bộ Công Thương tích cực đẩy mạnh thanh toán không dùng tiền mặt

Bộ Công Thương tích cực đẩy mạnh thanh toán không dùng tiền mặt

Bộ Công Thương đã, đang và sẽ có những chính sách thúc đẩy thanh toán không dùng tiền mặt nhằm kích thích hoạt động tiêu dùng trong nước phát triển.

Tin cùng chuyên mục

Nhà Thông Minh Rạng Đông: Giải pháp sống tiện nghi và bền vững cho tương lai xanh

Nhà Thông Minh Rạng Đông: Giải pháp sống tiện nghi và bền vững cho tương lai xanh

Rạng Đông là đơn vị tiên phong trong lĩnh vực công nghệ nhà thông minh tại VN, với hệ sinh thái chú trọng vào công nghệ hiện đại và đề cao giá trị nhân văn.
Công viên Logistics Viettel sắp khai trương có gì đặc biệt?

Công viên Logistics Viettel sắp khai trương có gì đặc biệt?

Với công nghệ hiện đại hàng đầu trong ngành logistics, chi phí dịch vụ cho hàng hóa tại Công viên Logistics Viettel sẽ rất cạnh tranh, giúp giảm đến 30-40%.
Hải Dương: Chuyển biến tích cực trong công tác chuyển đổi số, phát triển kinh tế số

Hải Dương: Chuyển biến tích cực trong công tác chuyển đổi số, phát triển kinh tế số

Về hoạt động chuyển đổi số, phát triển kinh tế số, xã hội số, tỉnh Hải Dương đã triển khai nhiều giải pháp đồng bộ nhằm tạo ra sự chuyển biến đột phá.
Pháp lý tài sản số trước thềm ban hành Luật Công nghiệp công nghệ số

Pháp lý tài sản số trước thềm ban hành Luật Công nghiệp công nghệ số

Khi hành lang pháp lý tài sản số được hoàn thiện, dòng vốn 105 tỷ USD đổ về Việt Nam hàng năm có thể sẽ được chuyển một phần vào khu vực hợp pháp.
Khai mạc Hội nghị Thành phố thông minh Việt Nam - châu Á năm 2024

Khai mạc Hội nghị Thành phố thông minh Việt Nam - châu Á năm 2024

Sáng 2/12, tại Hà Nội, VINASA phối hợp với Sở Thông tin và Truyền thông Hà Nội tổ chức khai mạc Hội nghị Thành phố thông minh Việt Nam - châu Á năm 2024.
Sinh viên Đại học Công nghiệp Dệt may Hà Nội đạt giải ba cuộc thi Năng suất chất lượng 2024

Sinh viên Đại học Công nghiệp Dệt may Hà Nội đạt giải ba cuộc thi Năng suất chất lượng 2024

Tại cuộc thi “Tìm hiểu kiến thức về Năng suất chất lượng trong sinh viên 2024” khu vực miền Bắc, sinh viên Đại học Công nghiệp Dệt may Hà Nội đã đạt giải ba.
Chuyển đổi số hướng tới sản xuất thông minh: Cơ hội cho doanh nghiệp Việt

Chuyển đổi số hướng tới sản xuất thông minh: Cơ hội cho doanh nghiệp Việt

Ngày 25/11, tại Hà Nội đã diễn ra Tọa đàm "Chuyển đổi số hướng tới sản xuất thông minh: Cơ hội cho doanh nghiệp Việt" do Tạp chí Công Thương tổ chức.
Doanh nghiệp

Doanh nghiệp 'bắt tay' với trường đại học đào tạo phát triển nhân tài số

Khoảng 700 sinh viên xuất sắc đã được lựa chọn tham gia chương trình tìm kiếm, nuôi dưỡng, phát triển nguồn nhân tài số Viettel Digital Talent.
ICT Competition 2024 - 2025 chính thức khởi động, nhiều cơ hội học tập cho sinh viên công nghệ

ICT Competition 2024 - 2025 chính thức khởi động, nhiều cơ hội học tập cho sinh viên công nghệ

Huawei Việt Nam chính thức khởi động cuộc thi ICT Competition 2024-2025. Đây là cuộc thi thường niên dành cho sinh viên chuyên ngành công nghệ toàn thế giới.
Nguy cơ an ninh mạng vẫn là

Nguy cơ an ninh mạng vẫn là 'thảm hoạ' với sự tồn tại của doanh nghiệp

Việc cảnh báo giúp các doanh nghiệp nâng cao nhận thức và chủ động ứng phó trước các cuộc tấn công mạng ngày càng tinh vi hiện là nhiệm vụ cấp bách.
Tập trung phát triển bộ giải pháp, dịch vụ an ninh mạng cho doanh nghiệp

Tập trung phát triển bộ giải pháp, dịch vụ an ninh mạng cho doanh nghiệp

Công ty cổ phần An ninh mạng SCS vừa công bố bộ nhận diện thương hiệu mới và ra mắt bộ giải pháp, dịch vụ an ninh mạng cho tổ chức, doanh nghiệp.
Thứ trưởng Bộ Tư pháp: Sẽ đẩy mạnh số hoá, dùng AI phục vụ công tác pháp điển

Thứ trưởng Bộ Tư pháp: Sẽ đẩy mạnh số hoá, dùng AI phục vụ công tác pháp điển

Thứ trưởng Bộ Tư pháp Đặng Hoàng Oanh cho biết, sẽ tăng cường ứng dụng công nghệ thông tin, đặc biệt đẩy mạnh số hoá, dùng AI phục vụ công tác pháp điển.
Câu chuyện từ những doanh nghiệp thành công trong chuyển đổi số

Câu chuyện từ những doanh nghiệp thành công trong chuyển đổi số

Chuyển đổi số là giải pháp 'sống còn' cho doanh nghiệp trong bối cảnh hiện nay. Tuy nhiên, không phải doanh nghiệp nào cũng thành công trong chuyển đổi số.
Tăng tốc kết hợp 5.5G và AI để dẫn đầu kỷ nguyên AI di động

Tăng tốc kết hợp 5.5G và AI để dẫn đầu kỷ nguyên AI di động

Diễn đàn toàn cầu về Băng thông rộng Di động 2024 (MBBF 2024) do Huawei tổ chức với chủ đề “5.5G dẫn đầu kỷ nguyên AI di động”, đang diễn ra tại Thổ Nhĩ Kỳ.
Nhiều nhân viên của các tổ chức thiếu kiến thức cơ bản về an ninh mạng

Nhiều nhân viên của các tổ chức thiếu kiến thức cơ bản về an ninh mạng

Báo cáo của Fortinet công bố cho thấy, gần 70% tổ chức cho rằng nhân viên của họ thiếu kiến thức cơ bản về an ninh mạng, tăng so với con số 56% vào năm 2023.
Tập đoàn Viettel nói về giá và chất lượng mạng 5G sau 9 ngày thử nghiệm

Tập đoàn Viettel nói về giá và chất lượng mạng 5G sau 9 ngày thử nghiệm

Tốc độ nhanh gấp 10 lần so với 4G, sau 9 ngày trải nghiệm mạng 5G do Tập đoàn Viettel cung cấp, nhiều khách hàng quan tâm giá các gói dịch vụ 5G ra sao?
Câu chuyện chuyển đổi số ở tỉnh nghèo Hà Giang

Câu chuyện chuyển đổi số ở tỉnh nghèo Hà Giang

Với xếp hạng 17/63 tỉnh, thành phố về chỉ số phục vụ người dân, doanh nghiệp, Hà Giang đã khẳng định hướng đi của chuyển đổi số khi lấy người dân làm trung tâm.
Để mục tiêu kinh tế số đóng góp 30% vào GDP không còn là thách thức

Để mục tiêu kinh tế số đóng góp 30% vào GDP không còn là thách thức

Việt Nam đặt mục tiêu đến năm 2025 và 2030, kinh tế số đóng góp tương ứng 20% và 30% vào GDP. Để hỗ trợ cho mục tiêu này, công nghệ 5G đóng vai trò quan trọng.
Nâng cao năng lực cho mạng lưới chuyên gia chuyển đổi số Việt Nam

Nâng cao năng lực cho mạng lưới chuyên gia chuyển đổi số Việt Nam

Chương trình đạo tào quốc tế “Nâng cao năng lực cho mạng lưới chuyên gia chuyển đổi số tại Việt Nam” diễn ra rừ ngày 24-27/9.
Thị trường IT Việt Nam cần 500.000 lao động công nghệ từ nay đến năm 2025

Thị trường IT Việt Nam cần 500.000 lao động công nghệ từ nay đến năm 2025

Thị trường IT Việt Nam cần bổ sung ít nhất 500.000 lao động công nghệ từ nay đến năm 2025 để đáp ứng nhu cầu​.
Xem thêm
Mobile VerionPhiên bản di động