Tại hội thảo AI4VN ngày 15/8 ở Hà Nội, một số doanh nghiệp phản ánh các giải pháp nhận diện tiếng Việt hoạt động thực tế không như quảng cáo.
PGS. Lương Chi Mai, Đại học Khoa học và Công nghệ Hà Nội, cho biết trong vòng 10 năm qua, giới công nghệ rất tích cực tham gia phát triển các giải pháp xử lý ngôn ngữ tự nhiên và đầu tư nghiên cứu về trí tuệ nhân tạo (AI), hình thành nên một động đồng lớn mạnh.
Tuy vậy, đại diện một số doanh nghiệp chia sẻ, họ rất muốn mua và sử dụng các giải pháp AI về nhận diện ngôn ngữ, nhưng khi thử nghiệm thực tế, chất lượng khác xa kỳ vọng, cũng chưa có bộ tiêu chuẩn nào được lập ra để giúp họ xác định thế nào là sản phẩm tốt.
PGS. Lương Chi Mai thừa nhận, việc triển khai thực tế bao giờ cũng đa dạng và phức tạp hơn nhiều so với lý thuyết. "Mỗi doanh nghiệp lại một đặc điểm riêng, yêu cầu riêng, nguồn dữ liệu riêng. Do đó, đơn vị phát triển phải đi cùng, kết hợp chặt chẽ với doanh nghiệp để đưa ra giải pháp phù hợp, chứ không thể có một chìa khoá vạn năng, ứng dụng ngay lập tức. Chẳng hạn, chatbot phục vụ tổng đài phải khác chatbot cho các trang thương mại điện tử", bà Mai nói.
![]() |
PGS. Lương Chi Mai. |
Tại phiên hội thảo chuyên đề "Phát triển nền tảng AI xử lý ngôn ngữ tự nhiên - tiếng Việt" trong khuôn khổ sự kiện Ngày hội Trí tuệ nhân tạo (AI4VN), các diễn giả cũng giới thiệu một số giải pháp cho thấy những bước tiến trong việc nhận diện ngôn ngữ của các công ty Việt Nam.
Ông Đỗ Quốc Trường, Giám đốc công ty Hệ thống Trí tuệ nhân tạo Việt Nam VAIS, trình diễn khả năng chuyển tiếng nói theo thời gian thực (speech to text) của công ty. Bài phát biểu của ông được phần mềm nhận diện và hiển thị nội dung văn bản trực tiếp trên màn hình hội thảo.
Theo ông, hai vấn đề lớn nhất khi chuyển giọng nói sang dạng text là sự khác biệt về vùng miền trong việc phát âm và độ nhiễu của môi trường. Một khảo sát của công ty cho thấy khi không nhiễu, chất lượng nhận diện giữa con người và máy gần như nhau, nhưng khi có nhiễu, độ chênh lệch lên tới một nửa, tức con người nghe tốt gấp hai lần so với máy.
Giải pháp của VAIS được khẳng định đạt độ chính xác đạt 93% đối với giọng nói của cả ba miền, thời gian xử lý bằng 1/20 thời gian audio, tức một file ghi âm 20 phút chỉ mất một phút để chuyển sang văn bản. "Mục tiêu của chúng tôi không phải để thay thế con người, mà nhằm hỗ trợ, giảm thời gian và công sức cho người làm", ông Trường cho hay.
Trong khi đó, bà Nguyễn Thị Thu Trang, giảng viên Viện CNTT&TT - Đại học Bách Khoa Hà Nội, lại đề cập tới các giải pháp chuyển đổi văn bản thành giọng nói (text to speech). "Nhu cầu tổng hợp tiếng nói ngày càng tăng cao trong những năm gần đây, từ việc xuất bản nói, sách nói, bài giảng số, thuyết minh phim, số hoá nội dung cho đến trợ lý ảo, voice bot, vạn vật kết nối", bà Trang chia sẻ. "Công nghệ này có thể hỗ trợ cho người khuyết tật, khiếm thị tiếp cận thông tin, hay người mất khả năng nói có thể diễn đạt được ý của mình.
![]() |
Bà Nguyễn Thị Thu Trang, giảng viên Đại học Bách Khoa Hà Nội. |
Theo bà Trang, Google và Microsoft đã đưa ra dịch vụ chuyển đổi văn bản thành giọng nói tiếng Việt nhưng chưa chú trọng nên chỉ có một giọng nói đơn điệu, chưa hỗ trợ tuỳ chỉnh theo nhu cầu thực tế Trong khi đó, ở Việt Nam cũng bắt đầu có một số sản phẩm được thương mại hoá, tích hợp trí tuệ nhân tạo như của FPT, Viettel...
Ông Đỗ Văn Hải, thuộc Trung tâm không gian mạng Viettel, cho biết giải pháp VTCC.AI của họ ứng dụng công nghệ tiên tiến trong lĩnh vực trí tuệ nhân tạo như mạng nơron học sâu để sản sinh ra tiếng nói tiếng Việt với ngữ điệu tự nhiên, đa dạng và dễ dàng tích hợp trên các hệ thống. "Các sản phẩm nhận dạng tiếng nói tiếng Việt đã chín muồi, chúng ta không phải ngại Google, Microsoft và sẽ còn nhiều cơ hội cho các công ty cung cấp giải pháp ở Việt Nam", ông Hải nói.
Một ứng dụng khác của xử lý ngôn ngữ tự nhiên là nhận dạng tài liệu, chữ viết tay. Ông Nguyễn Tấn Minh, Phó giám đốc công ty GMO-Z.com, nhận định trong nền công nghiệp 4.0, việc "số hóa hiện trường" là điều kiện quan trọng để triển khai các ứng dụng công nghệ khác. Phần mềm SmartOCR dựa trên nền tảng AI hỗ trợ nhận dạng, trích xuất văn bản chữ in và chữ viết tay từ dữ liệu hình ảnh, văn bản scan, ảnh chụp... giúp doanh nghiệp số hóa tài liệu.
"Việc xử lý ngôn ngữ tiếng Việt thường gặp nhiều khó khăn do cấu trúc từ, dấu và ngữ nghĩa, ngữ pháp đa dạng và phức tạp. Bn cạnh đó, các công trình nghiên cứu về vấn đề này còn ít và hạn chế. Các sản phẩm, bộ dữ liệu ít được công khai hay thương mại hóa, dẫn đến việc các sản phẩm tham chiếu và so sánh chưa có nhiều", ông Minh cho hay. "Để nâng cao chất lượng thì việc sử dụng AI với các công nghệ học máy, học sâu trong xử lý ngôn ngữ rất cần thiết".
0 comments:
Post a Comment