Các nhà khoa học phát triển thành công phần mềm dịch ngôn ngữ hiếm ra tiếng Việt

Viện Công nghệ Thông tin vừa phát triển thành công phần mềm dịch ngôn ngữ hiếm, có thể dịch tự động tiếng Việt ra các ngôn ngữ khu vực Đông Nam Á.
Tăng cường hợp tác trong lĩnh vực công nghệ thông tin, khởi nghiệp giữa Việt Nam và Ấn Độ Chính sách ưu đãi cho doanh nghiệp hoạt động trong khu công nghệ thông tin tập trung Cần sớm hoàn thiện hệ thống cơ sở hạ tầng và phần mềm chuyển đổi số

Viện Công nghệ Thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) đã thành công trong việc ứng dụng Phần mềm dịch ngôn ngữ "Made in Viet Nam" có chất lượng cao, bước đầu dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ: Khmer, Lào, Thái Lan, Malaysia, Indonesia.

Phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm

Xuất phát từ việc muốn cho ra đời một sản phẩm "made in Viet Nam", có thể được sử dụng thông dụng với nhiều tiện ích, thậm chí có thể thay thế các sản phẩm dịch tự động nước ngoài, nhóm nghiên cứu thuộc Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) gồm nhiều chuyên gia như: PGS.TS Nguyễn Việt Anh, ThS Đào Quang Toàn, ThS Bùi Minh Thành, ThS Vũ Thị Nhạn, ThS Vũ Thị Lan Anh… đã chung tay nghiên cứu thành công sau gần 1 năm và cho ra đời Phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ khác, trong đó, bước đầu nghiên cứu và ứng dụng thành công đối với các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm dịch thuật thương mại nổi tiếng trên thế giới.

Thực tế hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến với chất lượng dịch rất tốt cho các câu đơn, tuy nhiên, việc dịch một đoạn văn bản dài hơn, có tham chiếu thực thể, ngữ cảnh giữa các câu làm ảnh hưởng tới chất lượng dịch, khiến nhiều câu dịch trở nên hài hước và có phần ngô nghê.

Ngoài ra, các sản phẩm dịch thuật thương mại cũng yêu cầu khách hàng trả tiền theo thời gian sử dụng hoặc số lượng câu dịch. Bên cạnh đó, các hệ thống này không có chất lượng dịch tốt đồng đều cho tất cả các cặp ngôn ngữ đặc biệt là các ngôn ngữ nghèo tài nguyên như tiếng dân tộc thiểu số của Việt Nam hoặc các ngôn ngữ hiếm như tiếng Lào, Khmer…

Các nhà khoa học phát triển thành công phần mềm dịch ngôn ngữ hiếm ra tiếng Việt
Nhóm tác giả phần mềm (Ảnh:NVCC)

Một vấn đề nữa của các hệ thống dịch tự động được sử dụng phổ biến hiện nay là khả năng thích ứng miền chuyên biệt (domain-specific), nghĩa là, chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng (general public) nhưng chất lượng dịch rất kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…

Để khắc phục các tồn tại nói trên, nhóm nghiên cứu của Viện Công nghệ thông tin đã phát triển hệ thống dịch thuật lấy tiếng Việt làm trung tâm - một Phần mềm dịch ngôn ngữ có khả năng dịch hai chiều sang các ngôn ngữ nghèo tài nguyên với chất lượng được người sử dụng đánh giá tốt. Qua quá trình nghiên cứu đưa vào thực tiễn, Phần mềm dịch ngôn ngữ "made in Viet Nam" này có chất lượng luôn tương đương hoặc cao hơn một số hệ thống dịch tự động được sử dụng phổ biến hiện nay đối với cùng văn bản. Ngoài ra, ưu điểm của phần mềm này không hạn chế độ dài của văn bản.

Tự động dịch thuật với nhiều định dạng

Theo PGS.TS Nguyễn Việt Anh – thành viên nhóm nghiên cứu Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin, trong giai đoạn 2022-2023, để tập trung vào một số dự án với đối tác nước ngoài, hệ thống Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin tập trung vào triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models - LLMs) vào việc ưu tiên các cặp ngôn ngữ: Việt - Khmer và Khmer - Việt; Việt - Lào và Lào - Việt; Việt - Thái Lan và Thái Lan - Việt; Việt - Indonesia và Indonesia - Việt: Việt - Malaysia và Malaysia - Việt; Việt - Myanmar và Myanmar - Việt.

Các nhà khoa học phát triển thành công phần mềm dịch ngôn ngữ hiếm ra tiếng Việt
Phần mềm tự động dịch thuật với nhiều định dạng

Cũng theo PGS.TS Nguyễn Việt Anh, ngay cả với ngôn ngữ tiếng Anh, hệ thống Phần mềm dịch ngôn ngữ này đảm bảo chất lượng gần tương đương với hệ thống dịch tự động khác đang được sử dụng phổ biến hiện nay.

Nhóm nghiên cứu cũng cho biết, hệ thống Phần mềm dịch ngôn ngữ được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa.

Dẫn chứng trong quá trình nghiên cứu Phần mềm dịch ngôn ngữ, nhóm các tác giả đã gặp vô vàn khó khăn, đơn cử như dịch tiếng Thái sang tiếng Việt thì dễ hiểu nhưng tiếng Việt sang tiếng Thái thì vấp phải không ít trở ngại. Các chuyên gia lại phải dùng biện pháp "check chéo" để tìm đáp án chuẩn nhất. Hay ví dụ khi dịch tên riêng của người thì thuật toán dùng theo dạng thống kê và tìm ra tên một người Việt gần nhất để gắn vào, kết quả nhiều khi rất ngô nghê, lỗi, sai, khiến nhóm tác giả vốn toàn chuyên gia công nghệ mất nhiều tâm sức để xử lý.

Qua đó, mô hình Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin đã "học" được cách "thích ứng" với tất cả những đặc điểm đặc biệt này của các ngôn ngữ nói trên, cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài hiện nay.

Nhóm nghiên cứu tự hào với điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng (on premise): lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ, đảm bảo an ninh, an toàn và không lộ lọt thông tin cho bên thứ ba.

Cùng với đó, các mô hình dịch máy được huấn luyện trên hệ thống máy chủ Nvidia DGX A100 tại Viện Công nghệ thông tin có cấu hình tiên tiến bậc nhất ở nước ta hiện nay.

Được biết, đây cũng là hệ thống máy chủ vẫn còn đang thuộc hàng "hiếm" tại Việt Nam, hiện chỉ có một vài đơn vị, doanh nghiệp trên cả nước sở hữu để từ đó triển khai ứng dụng AI vào phục vụ cuộc sống. Trong đó, Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST) đang nghiên cứu phát triển hệ thống siêu tính toán với chip A100 của Nvidia để ứng dụng rộng rãi trong các lĩnh vực khoa học và công nghệ, y tế, giáo dục.

Phần mềm dễ dàng mở rộng ứng dụng sang các ngôn ngữ dân tộc thiểu số tại Việt Nam

PGS.TS Nguyễn Việt Anh cho biết, kiến trúc tổng thể hệ thống dịch máy dựa trên công nghệ Transformer hiện đại. Để có kết quả dịch chuẩn xác, nhóm nghiên cứu đã áp dụng rất nhiều kỹ thuật khác nhau để làm giàu bộ dữ liệu bao gồm kỹ thuật dịch ngược (back-translation), kỹ thuật xoay trục (pivoting) xung quanh một ngôn ngữ phổ biến, kỹ thuật học chuyển giao…

Một kỹ thuật rất tiên tiến khác nữa cũng được áp dụng để cải thiện chất lượng dịch. Cụ thể, mô hình được huấn luyện đồng thời cho nhiều cặp ngôn ngữ. Các ngôn ngữ giàu tài nguyên được huấn luyện trước, sau đó "tri thức" ngôn ngữ sẽ được chuyển giao cho các ngôn ngữ nghèo tài nguyên, giúp cải tiến hiệu suất của mô hình dịch cho các ngôn ngữ này.

PGS.TS Nguyễn Việt Anh chia sẻ: Mô hình dịch được xây dựng dựa trên mô hình Pre-trained thường có kích thước rất lớn, do đó yêu cầu nhiều về tài nguyên tính toán như bộ nhớ RAM, các bộ vi xử lý CPU và chip GPU phục vụ tính toán AI/ML khi triển khai thực tế. Ví dụ: ChatGPT sử dụng GPT-3.5 hiện nay của OpenAI có khoảng 175 tỷ tham số.

Tuy nhiên, hệ thống dịch ngôn ngữ này của Viện Công nghệ thông tin khoảng 40 tỷ tham số. Mô hình dịch ngôn ngữ có qui mô rất lớn có thể ảnh hưởng tới tốc độ thực thi mô hình (execution) trên môi trường có năng lực tính toán hạn chế. Do vậy, việc tối ưu mô hình thông qua một số kỹ thuật như lượng tử hóa trong số (weights quantization), dung hòa các lớp nút mạng nơ-ron trong mô hình (layers fusion), sắp xếp thứ tự xử lý các thành phần của câu đầu vào (batch reordering),… để tăng tốc độ thực thi và giảm bộ nhớ sử dụng trên CPU và GPU.

Thu Hường
Bạn thấy bài viết này thế nào?
Kém Bình thường ★ ★ Hứa hẹn ★★★ Tốt ★★★★ Rất tốt ★★★★★

Có thể bạn quan tâm

Tin mới nhất

Năm 2024 đẩy mạnh chuyển đổi số quốc gia, tạo bứt phá phát triển kinh tế - xã hội

Năm 2024 đẩy mạnh chuyển đổi số quốc gia, tạo bứt phá phát triển kinh tế - xã hội

Thủ tướng Chính phủ Phạm Minh Chính - Chủ tịch Ủy ban Quốc gia về chuyển đổi số ký Quyết định 58/QĐ-UBQGCĐS ban hành Kế hoạch hoạt động năm 2024 của Ủy ban này.
Hơn 13.750 cuộc tấn công mạng vào các hệ thống thông tin tại Việt Nam

Hơn 13.750 cuộc tấn công mạng vào các hệ thống thông tin tại Việt Nam

Tính từ đầu năm 2023 đến nay, đã có hơn 13.750 cuộc tấn công mạng vào các hệ thống thông tin tại Việt Nam gây ra sự cố.
Thêm giải pháp an ninh mạng cho các doanh nghiệp trong lĩnh vực ngân hàng, dịch vụ tài chính

Thêm giải pháp an ninh mạng cho các doanh nghiệp trong lĩnh vực ngân hàng, dịch vụ tài chính

ManageEngine đặt kế hoạch hỗ trợ về công nghệ thông tin cho 500 khách hàng doanh nghiệp tại Việt Nam ở các lĩnh vực ngân hàng, dịch vụ tài chính và bảo hiểm.
Google, Apple có thể phải “tách nhỏ” khi bị các nhà lập pháp điều tra

Google, Apple có thể phải “tách nhỏ” khi bị các nhà lập pháp điều tra

Các ông lớn công nghệ đang đối mặt với nguy cơ phải tách thành các công ty nhỏ khi Hoa Kỳ và châu Âu tiến hành điều tra về các cáo buộc chống cạnh tranh.
Vì sao người Việt ngày càng ít giữ tiền mặt trong ví?

Vì sao người Việt ngày càng ít giữ tiền mặt trong ví?

Thói quen thanh toán của người Việt Nam đang có sự chuyển biến mạnh mẽ, thể hiện qua xu hướng gia tăng sử dụng phương thức thanh toán không tiền mặt.

Tin cùng chuyên mục

Apple bị kiện vì độc quyền iPhone trên thị trường Hoa Kỳ

Apple bị kiện vì độc quyền iPhone trên thị trường Hoa Kỳ

Ngày 21/3, Bộ Tư pháp và nhiều bang của Hoa Kỳ đã đệ đơn kiện chống lại tập đoàn Apple cáo buộc tập đoàn này độc quyền bất hợp pháp thị trường.
Tập đoàn Intel chuẩn bị đầu tư 100 tỷ USD khắp 4 bang của Hoa Kỳ

Tập đoàn Intel chuẩn bị đầu tư 100 tỷ USD khắp 4 bang của Hoa Kỳ

Intel có kế hoạch đầu tư 100 tỷ USD trên khắp 4 bang của Hoa Kỳ để xây dựng và mở rộng nhà máy sau khi được 19,5 tỷ USD tiền tài trợ và khoản vay liên bang.
Apple đang trở nên nghiêm túc hơn với lĩnh vực trí tuệ nhân tạo

Apple đang trở nên nghiêm túc hơn với lĩnh vực trí tuệ nhân tạo

Apple dường như cuối cùng đã vén bức màn về một số nỗ lực trong lĩnh vực trí tuệ nhân tạo (AI).
Tập đoàn công nghệ nói về thị trường công nghệ số và AI tại Việt Nam

Tập đoàn công nghệ nói về thị trường công nghệ số và AI tại Việt Nam

Ngày 18/3 tại Hà Nội, Viettel IDC cùng các tập đoàn công nghệ đã tổ chức hội nghị DCCI Summit với chủ đề Phát triển tương lai số bền vững.
Các tiểu bang Hoa Kỳ đồng loạt kêu gọi Meta ngăn chặn việc “Hack tài khoản” mạng xã hội

Các tiểu bang Hoa Kỳ đồng loạt kêu gọi Meta ngăn chặn việc “Hack tài khoản” mạng xã hội

Bốn mươi tiểu bang của Hoa Kỳ đã kêu gọi Meta Platforms, trấn áp những kẻ “Hack tài khoản” Facebook và Instagram giải quyết tình trạng chiếm tài khoản gia tăng.
Bộ trưởng Điện tử và Công nghệ Thông tin Ấn Độ: Google không được phép xóa ứng dụng của Ấn Độ

Bộ trưởng Điện tử và Công nghệ Thông tin Ấn Độ: Google không được phép xóa ứng dụng của Ấn Độ

Ngày 02/03, Bộ trưởng Điện tử và Công nghệ Thông tin Ấn Độ cho biết việc Google gỡ một số ứng dụng của Ấn Độ khỏi cửa hàng ứng dụng là "không được phép".
Đón đầu kỷ nguyên thương mại hóa 5.5G

Đón đầu kỷ nguyên thương mại hóa 5.5G

Trong khuôn khổ Triển lãm Di động Thế giới MWC 2024, Huawei đã giới thiệu loạt sản phẩm và giải pháp 5.5G, F5.5G và Net5.5G.
Phát động phong trào ứng dụng công nghệ số, trí tuệ nhân tạo để làm việc tốt hơn

Phát động phong trào ứng dụng công nghệ số, trí tuệ nhân tạo để làm việc tốt hơn

Mới đây, Bộ Thông tin và Truyền thông phát động phong trào thi đua “Ứng dụng công nghệ số, trí tuệ nhân tạo để làm việc tốt hơn”.
Khai phóng tiềm năng tăng trưởng mới của 5G và thương mại hóa 5.5G

Khai phóng tiềm năng tăng trưởng mới của 5G và thương mại hóa 5.5G

Đồng hành cùng với các nhà mạng, Huawei cho biết sẽ khai phá tiềm năng của 5G và 5.5G vượt bậc hơn nữa, đồng thời thúc đẩy sự tăng trưởng mới.
Hiệu quả từ phần mềm “Hệ thống giám sát thị trường điện” tại Nhiệt điện Hải Phòng

Hiệu quả từ phần mềm “Hệ thống giám sát thị trường điện” tại Nhiệt điện Hải Phòng

Nhờ ứng dụng “Hệ thống giám sát thị trường điện” công tác lấy dữ liệu liên quan đến thị trường điện của Công ty CP Nhiệt điện Hải Phòng được kịp thời.
Analog Devices đạt thỏa thuận hợp tác với TSMC: Tăng năng lực cho ngành bán dẫn

Analog Devices đạt thỏa thuận hợp tác với TSMC: Tăng năng lực cho ngành bán dẫn

Thỏa thuận đặc biệt sẽ thông qua công ty JASM, nhằm đảm bảo nguồn cung chip dài hạn của Analog Devices, Inc.
Vì sao mạng xã hội “X” vẫn được gọi là Twitter ?

Vì sao mạng xã hội “X” vẫn được gọi là Twitter ?

Mạng xã hội Twitter đã được công bố đổi tên thành X sau thuộc quyền sở hữu của tỷ phú công nghệ Elon Musk.
Tắt sóng 2G, những chiếc điện thoại Vertu tiền tỷ sẽ thành “cục gạch”

Tắt sóng 2G, những chiếc điện thoại Vertu tiền tỷ sẽ thành “cục gạch”

Những chiếc điện thoại Vertu tiền tỷ cũ chỉ hỗ trợ 2G sẽ trở thành “cục gạch” và không còn giá trị sử dụng khi lộ trình cắt sóng 2G hoàn tất.
Xu hướng đáng chú ý về công nghệ thông tin doanh nghiệp năm 2024

Xu hướng đáng chú ý về công nghệ thông tin doanh nghiệp năm 2024

Quyền riêng tư và trải nghiệm bằng AI, ưu tiên trải nghiệm số… là xu hướng đáng chú ý trong lĩnh vực công nghệ thông tin doanh nghiệp năm 2024.
Liên minh châu Âu điều tra khiến TikTok có nguy cơ bị phạt nặng

Liên minh châu Âu điều tra khiến TikTok có nguy cơ bị phạt nặng

Liên minh châu Âu sẽ điều tra TikTok về việc vi phạm quy tắc trực tuyến nhằm bảo vệ trẻ em và đảm bảo quảng cáo minh bạch khiến Tiktok có nguy cơ bị phạt nặng.
Mark Zuckerberg chế nhạo fan Apple sau bài phê bình Vision Pro

Mark Zuckerberg chế nhạo fan Apple sau bài phê bình Vision Pro

Mark Zuckerberg - Giám đốc điều hành Meta, có khá nhiều điều để nói về người hâm mộ Apple sau khi ông đánh giá sản phẩm Vision Pro mới của hãng.
Đã có bao nhiêu nền tảng tham gia chuyển đổi số quốc gia?

Đã có bao nhiêu nền tảng tham gia chuyển đổi số quốc gia?

Thêm 4 nền tảng được bổ sung lần này, tổng số nền tảng tham gia chuyển đổi số, phát triển chính phủ số, kinh tế số, xã hội số gồm 38 nền tảng.
Trí tuệ nhân tạo chuyển thể văn bản thành video và nỗi lo mất việc làm

Trí tuệ nhân tạo chuyển thể văn bản thành video và nỗi lo mất việc làm

OpenAI (công ty mẹ của ChatGPT) đã tung ra một mô hình tạo video mới có tên là Sora.
Google triển khai chiến dịch chống thông tin sai lệch trước cuộc bầu cử tại EU

Google triển khai chiến dịch chống thông tin sai lệch trước cuộc bầu cử tại EU

Gã khổng lồ công nghệ Google đang chuẩn bị triển khai chiến dịch chống thông tin sai lệch trên khắp 5 quốc gia trong khu vực nhằm bảo vệ cuộc bầu cử tại EU.
“Đứa trẻ” AI đầu tiên trên thế giới có thể suy nghĩ và lý luận như con người

“Đứa trẻ” AI đầu tiên trên thế giới có thể suy nghĩ và lý luận như con người

Mới đây, các nhà khoa học Trung Quốc đã cho ra mắt phiên bản bé gái trí tuệ nhân tạo (AI) đầu tiên trên thế giới.
Xem thêm
Mobile VerionPhiên bản di động