Chủ Nhật, 11 tháng 12, 2011

Siri “phiên bản Việt”

Kể từ khi ứng dụng nhận diện giọng nói Siri ra đời cùng với iPhone 4S, các tín đồ của quả táo cắn dở vẫn mỏi cổ mong ngóng một phiên bản tiếng Việt tương tự. Thì nay, với hai ứng dụng của phòng thí nghiệm trí tuệ nhân tạo: VIS – hệ thống tự động chuyển cuộc gọi và iSago – tìm kiếm địa điểm ăn uống ở Sài Gòn, không cần đến bàn phím mà chỉ cần giọng nói “tròn vành rõ chữ”, “trợ lý Siri” đã manh nha hiện hình.
Gọi số nội bộ bằng giọng nói với phần mềm VIS.


Tìm quán bằng giọng nói

Bà H. Nhung (quận 3, TP.HCM) mở ứng dụng iSago trên chiếc điện thoại di động iPhone 4, đọc rõ ràng từng tiếng: “Tôi muốn ăn bún bò ở quận 3 (TP.HCM)”. Sau đó khoảng 5 giây, trên màn hình hiện ra hàng loạt địa chỉ có bán món bún bò ở khu vực quận 3 theo yêu cầu của bà Nhung. Mỗi địa chỉ còn được kết nối với Google Maps, chỉ cần chạm vào địa chỉ nào, sẽ hiện rõ đường đi đến địa chỉ đó. Như chưa tin vào khả năng tuyệt vời đó, bà Nhung tiếp tục yêu cầu: “Tôi muốn ăn hải sản ở quận 1 (TP.HCM)”. Quy trình trên được lặp lại với hàng loạt quán ăn có bán hải sản tại khu vực quận 1, hiện ra trên màn hình với đầy đủ chỉ dẫn đường đi tới những quán ăn đó. Chưa biết những địa chỉ trên chính xác đến đâu, nhưng việc máy “hiểu” giọng nói bằng tiếng Việt và thực hiện những yêu cầu của người sử dụng, là “lần đầu tiên xuất hiện tại Việt Nam”.

Đậu Ngọc Hà Dương, cộng tác viên của phòng thí nghiệm trí tuệ nhân tạo (đại học Khoa học tự nhiên TP.HCM) gõ trên bàn phím đầu số 08.38325929. Từ số máy này, một giọng nữ cất lên: “Đây là trường đại học Khoa học tự nhiên TP.HCM. Bạn cần gì?” Dương yêu cầu bằng chính giọng của mình: “Tôi muốn gặp phòng đào tạo”. Phía bên kia hỏi lại: “Bạn muốn gặp phòng đào tạo?” Dương xác nhận: “Đúng vậy”. Hệ thống tổng đài tự động chuyển đến phòng đào tạo. Dương lại yêu cầu tiếp: “Tôi muốn gặp phòng tài vụ”. Hệ thống tổng đài hỏi lại yêu cầu và tự động chuyển máy đến nơi Dương cần gặp. Dương lại yêu cầu đến những phòng ban khác bằng giọng của mình, tay không hề đụng đến bàn phím để bấm số nội bộ như hiện nay các tổng đài nội bộ đang thực hiện.

Nhận dạng tiếng nói


Từ giọng nói của chính mình khi sử dụng chiếc điện thoại iPhone 4, để tìm được những địa chỉ quán ăn tại Sài Gòn, bà Nhung phải sử dụng phần mềm “iSago – tìm kiếm địa điểm ăn uống ở Sài Gòn”. Còn Đậu Ngọc Hà Dương muốn kết nối với tổng đài để kết nối liên lạc với các phòng ban của trường đại học Khoa học tự nhiên TP.HCM, trên chiếc máy iPhone 4, Dương đã cài sẵn ứng dụng “VIS – hệ thống tự động chuyển cuộc gọi”.

Trên là hai ứng dụng Việt dành cho điện thoại di động iPhone 4 do phòng thí nghiệm trí tuệ nhân tạo nghiên cứu trong ba năm kể từ 2008. PGS.TS Vũ Hải Quân, giám đốc phòng thí nghiệm trí tuệ nhân tạo cho biết, cả hai ứng dụng trên do đội ngũ kỹ sư của phòng thí nghiệm nghiên cứu trong thời gian qua. Còn về bản chất công nghệ, iSago dựa trên nền tảng công nghệ nhận dạng tiếng nói của hãng điện thoại di động AT&T (Mỹ) nghiên cứu từ nhiều năm qua với ứng dụng tiêu biểu là Speak4it. Còn ứng dụng VIS, cũng là một giải pháp của lĩnh vực trí tuệ nhân tạo nhưng được phát triển trên phần mềm “Tiếng nói phương Nam – VOS” đã xuất hiện từ năm 2009. Phần mềm này của chính phòng thí nghiệm trí tuệ nhân tạo thiết kế và phát triển.

Sẽ phát triển trên nhiều hệ điều hành

PGS.TS Vũ Hải Quân cho biết, hiện nay, hai ứng dụng iSago và VIS mới chạy được trên những chiếc iPhone 3/3Gs và 4 với hệ điều hành iOS của hãng Apple, còn những hệ điều hành khác, chưa phát triển. Cũng theo TS Quân, Viettel đã có kế hoạch hợp tác với phòng thí nghiệm trí tuệ nhân tạo để phát triển iSago chạy trên hệ điều hành Android. “Chúng tôi nhận được thông tin hợp tác từ Viettel nhưng đến nay vẫn chưa ký chính thức. Nếu ký, trong vòng một tháng, chúng tôi sẽ hoàn tất chuyển đổi sang Android”, TS Quân nói. Trong tương lai gần, iSago sẽ được đưa lên App Store để người sử dụng iPhone tại Việt Nam được tải miễn phí.

iSago không thể so sánh với ứng dụng nhận dạng tiếng nói Siri của hãng SRI (Mỹ) vì đây là ứng dụng quá chuyên nghiệp. Hiện nay, iSago chỉ có số lượng từ khoá (key word) khoảng chừng 100, còn ứng dụng VIS khoảng chừng 80 từ nên mức độ chính xác sẽ không cao. TS Quân xác nhận, hiện nay, hai phần mềm iSago và VIS chỉ “quen giọng” miền Nam (Sài Gòn) và giọng miền Bắc (Hà Nội), còn những giọng của miền Trung như Nghệ Tĩnh, Huế, Quảng Ngãi, Bình Định…, vì chưa được xử lý nên sẽ có sự hiểu lầm khi dùng hai ứng dụng trên. KS Lê Quốc Toàn (Viễn thông TP.HCM) đánh giá cao công nghệ của hai ứng dụng trên dựa trên nền tảng trí tuệ nhân tạo. Ông Toàn cho rằng, VIS phù hợp với mô hình hệ thống tổng đài của các doanh nghiệp vừa và nhỏ, muốn dùng trong tổng đài của các tập đoàn hay các doanh nghiệp viễn thông, cần phải bổ sung thêm “key word” để hệ thống thông minh hơn.

Cơ chế hoạt động của iSago và VIS
iSago: giọng nói của con người trên chiếc điện thoại di động (1) sẽ được chuyển vào trung tâm xử lý Core Service, sau đó chuyển vào bộ nhận dạng tiếng nói (2). Sau khi phân tích tiếng nói sẽ được chuyển lại Core Service (3). Từ Core Service, yêu cầu sẽ được mã hoá bằng chữ, chuyển đến Google tìm kiếm (4). Khi Google hoàn tất tìm kiếm dữ liệu sẽ chuyển lại cho Core Service (5). Thông tin từ đây sẽ được chuyển cho bộ tổng hợp tiếng nói (6). Khi hoàn tất phân tích, sẽ chuyển trở lại cho Core Service (7), từ đây sẽ trả lại thông tin đã tìm kiếm theo yêu cầu trên chiếc điện thoại di động (8).
VIS: sau khi bấm số điện thoại và nói rõ số nội bộ cần gặp, yêu cầu này được chuyển tổng đài (1 và 2). Yêu cầu này được chuyển từ tổng đài vào bộ nhận dạng tiếng nói và phân tích yêu cầu (3), sau đó trả lại nội dung cho tổng đài (4). Tổng đài sẽ chuyển đến số nội bộ mà người gọi cần gặp (5).

BÀI VÀ ẢNH: GIA VINH
Theo SGTT

Không có nhận xét nào:

Đăng nhận xét

Girls Generation - Korean