Ông Stephen Cooper, Trưởng nhóm phát triển Công nghệ Nhận diện Giọng nói của Ford, chia sẻ “tôi đã gặp nhiều vụ tai nạn xảy ra do tài xế mất tập trung khi lái xe, và điều đó đã thôi thúc tôi nghiên cứu và phát triển công nghệ này. Nhờ giảm thiểu tối đa sự phân tâm cũng như dễ dàng vận hành, hệ thống kích hoạt bằng giọng nói sẽ đảm bảo tài xế tập trung điều khiển xe một cách an toàn.”
Tính năng ra lệnh bằng giọng nói là một phần gắn liền với hệ thống SYNC ngay từ những phiên bản đầu tiên cách đây 13 năm. Công nghệ SYNC 3 ra đời từ năm 2014 và liên tục được phát triển, cải tiến. Cho tới nay, SYNC 3 đã có khả năng hỗ trợ được 25 ngôn ngữ khác nhau.
Thiết kế cốt lõi SYNC là hệ thống nhận diện và ra lệnh bằng giọng nói – hoạt động giống như một bộ não nhận diện giọng nói. Khi hành khách phát âm câu lệnh, cụm dữ liệu ngôn ngữ tích hợp với phần mềm giải mã sẽ chia nhỏ âm thanh để phân tích và hiểu từng câu mệnh lệnh của người dùng.
Trong đó, cụm dữ liệu ngôn ngữ là một danh sách lớn các từ ngữ hoặc câu lệnh được lập trình để thực hiện một nhiệm vụ cụ thể. Ví dụ như câu lệnh “Gọi John Doe” – sẽ được ghi nhận bằng hơn 25 ngôn ngữ trên hệ thống SYNC.
Tiếp theo, phần mềm giải mã giọng nói sẽ lọc ra đặc tính âm thanh của từng câu lệnh, sau đó phân tích và đối chiếu với cụm dữ liệu ngôn ngữ. Ví dụ câu lệnh “Gọi John Doe” sẽ được “chẻ nhỏ ra” thành các cụm: “Gọi” – “John” – “Doe”.
Từ “gọi” sẽ được đối chiếu để hệ thống hiểu rằng người ra lệnh đang nói bằng tiếng Việt, với ý muốn thực hiện cuộc gọi. Từ “John” – “Doe” sẽ được đối chiếu để hệ thống hiểu rằng đó là tên riêng, nằm trong mục danh bạ của điện thoại. Sau đó, hệ thống sẽ thực hiện lệnh.
Mỗi câu lệnh đều được ghi nhận bằng hơn 25 ngôn ngữ, bởi lẽ mỗi thứ tiếng và ngôn ngữ, lại tồn tại nhiều phương ngữ, tuỳ theo vùng miền, dân tộc… Do đó, hệ thống SYNC 3 liên tục được cập nhật để có thể nâng cao khả năng nhận diện giọng nói.
Hệ thống SYNC 3 luôn đặt con người vào vị trí trung tâm. Nhóm Phát triển Công nghệ Nhận diện Giọng nói của Ford phải thiết kế làm sao để cho hệ thống SYNC 3 vận hành theo hướng đơn giản hoá. Người dùng chỉ cần ra một câu lệnh đơn giản là có thể kích hoạt được đúng theo ý muốn.
Đại diện cho các kỹ sư phần mềm, nữ chuyên gia Yvonne Gloria cho biết: “Đa số người sử dụng phần mềm của chúng tôi đều không phải là kỹ sư. Chính vì vậy, chúng tôi đã phát triển phần mềm này để phục vụ những mục đích cụ thể và thực tế, nhưng không thể ép buộc khách hàng phải có một cái nhìn tương tự về sản phẩm. Điều này đã thúc đẩy tôi đặt mình vào suy nghĩ của một khách hàng, chứ không phải của một kỹ sư.”
Sự tiến hoá không ngừng trên thế giới đã giúp các kỹ sư trong nhóm nỗ lực từng ngày để tinh chỉnh và mở rộng các tính năng của SYNC. Qua quá trình đó, hơn 80% các câu lệnh của SYNC đã có thể thực hiện chỉ với một bước duy nhất.
Thông qua các nghiên cứu và phân tích chuyên sâu qua mạng không dây của SYNC 3, các kỹ sư có thể ghi nhận một nguồn dữ liệu âm thanh đều đặn về cách khách hàng sử dụng SYNC 3 cho các mục đích khác nhau.
Từ đó, họ có thể phát hiện các lỗi phổ biến mà người dùng hay gặp phải, từ đó, sắp xếp và cải tiến các tác vụ phù hợp hơn, thay vì bỏ mặc người dùng tự xoay sở. Tất cả dữ liệu được thu thập đều phải có sự chấp thuận của người dùng.
Tương lai của công nghệ kích hoạt bằng giọng nói “có rất nhiều cơ hội được mở ra cho các phương tiện được trang bị SYNC, nhằm nâng tầm trải nghiệm của tài xế”, bà Gloria giải thích.
“Đặc biệt, công nghệ hiện nay đang phát triển nhanh chóng và các màn hình giải trí cỡ lớn trên xe sẽ dần thay thế những nút bấm truyền thống, tạo nên một sân chơi đầy tiềm năng cho công nghệ kích hoạt bằng giọng nói trong tương lai.”