「與電視對話」的新概念

「與電視對話」的新概念

語音互動

語音互動功能提供了透過語音來操控電視的能力。您將可從電視台畫面切換到「我的首頁」或是搜尋網路,完全不需經過複雜操控。在本文中,我們將針對這個新一代的使用者介面 (UI),訪問開發這項功能的工程師。

「與電視對話」的新概念
我們絕對需要挑戰去達到語音互動應有的願景。

讓我們先開始談談,什麼是語音互動?

Yokohagi: 正如其名,語音互動是一項讓人透過語音來操控電視的功能。使用者可以直接對著特製觸控板控制器或智慧型手機,說出指令字詞或搜尋字詞。
* 這是非常簡單又方便的操控方式。
* 若要在智慧型手機上使用,則智慧型手機上必須安裝「TV Remote 2」。


- 內容搜尋
- 文字輸入
- 瀏覽網路及讀出文字
- 傳統操控方式仍然可用。
(直接進行音量調大/調小、切換頻道等操控)

是什麼因素讓你們開始進行這項功能的開發?

Yokohagi: 這一切要從我們在 2010 年針對日本市場推出的「語音導覽」功能說起。那項功能會以語音告訴觀眾所選擇的頻道、正在觀看的電視節目名稱等等。當初開發那項功能的用意,是為了方便視力不良的使用者使用電視。

自 2013 年推出的新機種起,我們已將這項功能拓展為涵蓋 20 多國語言. 在那前後,我們開了幾次會議來構思新一代的使用者介面。在這些會議上,有人提到語音互動的便利性,所以我們最後決定與其只提供「語音導覽」,不如乾脆提供全新的電視使用方式,讓一般使用者也都透過語音來操控電視。

在將這個概念具體化的過程中,我們面臨了「使用者可以透過語音來互動執行什麼動作?」和「使用者需要說出什麼字?」等問題。由於我們是要同時對電視和遙控器進行大幅更動,讓過去所有透過按下遙控器按鈕來執行的動作都變成能透過語音指令執行,我們等於是進入了未知的新世界。

遙控器上也做了一些重大改良,對嗎?

Sekito: 是的,我們對傳統遙控器做了各種加強,以提高取握性和操控性。不過,有些機種的按鈕多達 50 個,使得有些使用者反應說遙控器太複雜,許多按鈕他們根本不知道該怎麼用。

2012 年我們開發了大幅減少按鈕的觸控板控制器,並於同年將它推廣到市場上。

這款新型「無按鈕式」遙控器與傳統遙控器完全相反。使用者操控時可以用大拇指在中央觸控板上憑著直覺滑動,就像在電腦上使用滑鼠一樣。

2012 年這款新型遙控器推廣到了市場上,用以提升操控性。在 2013 年機種的遙控器中,則更進一步內建了麥克風,讓使用者能夠進行語音操控。毫無疑問地,傳統遙控操作可以輕鬆完成,而遙控器又提供所需的麥克風功能。這兩項功能同時結合到單一裝置中,但為確保使用者不會搞混何時該將它當成麥克風,何時該當成遙控器,我們很努力使這個裝置有輕鬆自然的操作方式,讓任何人都可以輕易上手。

Koganei: 我們一開始是先研究目前別家產品所提供透過語音指令來變更音量與頻道的語音控制功能。那時我們就開始在想,這些功能是否就是使用者真正想要透過語音來執行的動作。
透過語音來操控電視,這畢竟對使用者來說是種尚未熟悉的新概念。如果我們突然說「好了,開始對電視講話吧」或「開始用你的聲音操控電視吧」,使用者一定會不知道該說什麼。這一定會讓使用者無所適從,而我們當然不願見到使用者落入這個窘境。

Konuma: 於是我們開始思考使用者在哪些情境下會自然而然想要使用麥克風。最後我們全都同意,使用者使用麥克風最方便的時候,就是在網路上搜尋資料的時候。

語音辨識引擎具有哪些特色?

Koganei: 簡單來說,我們的引擎有兩個主要大腦。
我們語音功能的優點在於這兩個主要大腦會彼此緊密配合運作。

比方說,基本的電視操控會有固定的表達方式,如「音量調大」。我們稱這些為「固定字詞」,並將它們存在一個大腦內。其他就是使用者可以自由說出的字詞。這對於搜尋資料之類的情況很方便。我們稱這些為「自由字詞」,並將它們存在另一個大腦內。我們引擎的主要特色,就是它能夠同時啟動這兩個大腦:一個儲存固定字詞的詞典,另一個則利用雲端服務來辨識自由字詞。換句話說,這是個混合引擎。透過這樣的方式,就能根據大型資料庫來辨識使用者所說的字詞。

一般來說,當使用者想要執行像「音量調大」這樣的電視操控時,只有電視內建的固定字詞詞典會啟動。同樣地,當使用者想要輸入搜尋字詞時,只有自由字詞辨識引擎會啟動。但這就表示無法透過只講一次指令,就從自由字詞辨識引擎擷取所觀看電視節目的關鍵字。如此就不是很方便。.

A)「網路搜尋」-› [請說關鍵字] -›「Panasonic」
B)「用網路搜尋 Panasonic」。

我們的引擎會同時驅動固定字詞詞典引擎和自由字詞辨識引擎,以便認出是電視操控指令還是自由字詞搜尋句。我們在整個開發過程中顧慮到這種細微之處,盡量讓使用者能方便地使用這項功能。

Konuma: 比方說,當你想要看「花的相片」,卻總是得先說「搜尋」,這樣就不方便。我們想要做出的系統是,只要你說個字詞,系統就能比較像人類一樣直覺辨識出你所要找的東西。因此,在使用我們的系統時,你只要對麥克風說出「花」這個字就可以了。在說出「花」之後,電視就會以進一步的篩選問題回應,例如「您想要找的是相片還是影片?」。

你們對各種語言都提供了這樣的準度嗎?

Yokohagi: 對,我們在語言開發上付出了特別多心血。我們也必須檢驗與 20 多國語言的相容性。那真是項大工程。除了仔細檢驗「讀出」的品質,我們還必須盡量仔細確認使用者通常會選哪些固定字詞和自由字詞來說。例如,「我的首頁」是固定字詞,但也是全球使用的指令。因此,「我的首頁」指令已設為在每個語言中做出正確的回應。除了這類常見設定,我們還已對每個語言的用字提供非常精細準確的回應。

Konuma: 每個語言都有些特定情況容易造成辨識率下降。只要發生問題,我們就努力調查原因,不管原因是出在麥克風、電視內建的引擎字典還是其他地方。

確切來說,是什麼樣的因素造成了辨識率下降?

Konuma: 簡單舉個例,我們在開發階段遇到可能有多種唸法的字詞時遇到困難,像是數字。例如,數字「223」在英文中可以唸成「two-twenty-three」或「two hundred and twenty three」。每個語言都有類似的情況。問題在於對這個字的唸法,以及要如何辨識它。在最初的原型階段,台灣數字就常因為這種原因而辨識不出來。在法文中,數字的唸法則是非常複雜。「70」是唸成「60+10」,而「80」是唸成「4x20」。面對用這類方式表達的語言,要提高詞典的準度就極為困難。

既然你們當中沒有人同時懂 20 個國家的語言,那麼要如何進行檢驗?

Yokohagi: 這就用到了一點小技巧;我們使電腦將控制指令翻成各國語言並讀出來。得到的結果就輸入到開發階段電視中進行檢驗。最後,我們請 Panasonic 的各國當地員工檢驗結果並回報意見。

Koganei: 這牽涉到極為龐大的資料與工作量,但若要將語音辨識當成使用者的介面,就勢必要去面對。所以我們一再重複進行細微的調整,就是為了提高準度。

遙控器對語音辨識而言是如此重要的媒介,你們是如何處理遙控器的開發工作?

Sekito: 我稍早提到,我們在 2012 年開發了無按鈕式觸控板控制器。在其中加入語音控制功能後,就是現在的版本。因此,我們有一隊負責硬體的工程師來做出遙控器,並有另一隊負責軟體的工程師來讓電視的語音操控順利進行。這兩個團隊相互合作來達到單一目標。

 

這是史上第一次有人開發電視語音互動功能。挑戰會不會有點大?

Imai: 嗯,確實是。但團隊合作讓我們克服了難關。在過去,硬體團隊和軟體團隊是分工作業。硬體部門負責開發遙控器裝置,而軟體部門負責開發電視的圖形使用者介面。由於遙控器是如此關鍵的元件,而且目標又是要提高對使用者的便利性以及提升電視的整體使用經驗,所以這一次我們是從兩邊各選一些成員出來組成單一團隊。如此一來,就能在打造產品原型的過程中,直接結合兩邊的技術。


困難的地方在於目標的設定。不像畫質提升這種可以輕易知道目標的工程,語音互動和麥克風整合是全新的領域。我們在開發時,完全沒有清楚的評估準則可依循。如此開發起來就極為困難,因為很難判斷開發工作的確切完成時間。

要將麥克風加入到原本就那麼小的機體,同時又要維持這麼高的品質是不是很困難?

Sekito: 麥克風功能的評估重點在於語音辨識率。這是用三項效能參數來評估:

- 無線效能(不會中斷的通訊)
- 麥克風效能(聲音收集功能)
- 辨識引擎效能(電視端瞭解聲音所代表意義的能力)。

首先,硬體設計的重點是讓無線功能和麥克風具有穩健的效能,而軟體設計則是以微調電視中的辨識引擎為目標。成功的關鍵是在我們必須處理的有限機體空間中,盡量提高效能。

不過,提高效能並非唯一的目標。和其他方面保持平衡也很重要。例如,將麥克風的敏感度提高後,麥克風會連原本不該收錄的聲音也一併收錄,造成操控錯誤。例如,在嘈雜的商店內,或當有一群人觀看刺激電影並驚呼連連時,就一定要只能收錄必要的聲音。但反過來說,如果聲音收集準度範圍太過狹隘,使用者就得提高音量說出指令。因此,我們必須以達到同時兼顧這兩方面的理想程度為目標。

Imai: 在透過反覆試驗來篩選幾百個參數時,我們為電視端找到一些理想參數。在重複檢驗其中一些參數後,我們套用了可產生最高辨識率的參數。

我們對打造遙控器很有信心,但這是我們第一次嘗試將麥克風整合到遙控器中,所以也是全新的挑戰。由於沒有前例可循,我們很難為檢驗結果制定基準規格。我們也運用各種方式,讓遙控器外型更容易使用。

照著這樣的方式,我們努力在包括外型在內的每個地方進行改良,並在內部花了 3 到 4 個月的時間對產品原型進行測試,最後才正式推出產品。這也是我們第一次讓前來進行商務洽談的客戶使用這項新功能。我們得到的回應大多很正面,像是「這真是太棒了!」和「非常方便」。因為有這些鼓勵,我們很有信心產品會成功。


不過,雖然語音操控功能受到高度好評,但有些地方的準度還是要再提升。在所有成員齊心合作下,我們一直到正式生產前都在竭力使設計更完美。

據我了解,在這個電視上方便的不只有搜尋,還有檢視網頁瀏覽器,對嗎?

Nakaoka: 是的,沒錯。它的主要優點之一是可以在大螢幕上顯示網路瀏覽器上的資訊,方便大家一起觀看。

我們認為,它是讓一群人搜尋資料、然後使用螢幕上的資訊做決定的好幫手。例如,大家可以一起看著搜尋到的地圖來決定要去哪個地方,或者一起看著各種食譜來決定要做哪一道菜。

使用傳統遙控器時,必須逐一輸入每個關鍵字,這樣有點奇怪。加入透過語音來輸入搜尋字詞的功能後,傳統遙控器就能像語音操控的智慧型手機一樣方便。我們的電視讓你只要說出字詞,就能直接看到並使用搜尋結果。透過語音來進行搜尋絕對要比逐一輸入字元來輸入整段文字要快許多。它能夠這麼快的秘訣,就在於網路瀏覽器已在背景啟動並進入待命模式。只要一說出觸發字詞,網路瀏覽器就會顯示在前景。這樣可大幅縮短讓人焦急等待搜尋結果出現的時間。此外,因為它讓你可以在眾人面前輕鬆地進行語音搜尋,這是很酷的一點。(笑聲)

能夠在網路瀏覽器中使用朗讀功能,是另一項重大創舉。它可以立即偵測各種網頁的結構,然後準確判斷要採取什麼樣的程序,才能讓人最容易聽懂目前游標所在位置的內容。即使是去聽電視讀出像新聞報導和部落格這類有很多句子的網頁,都會覺得很輕鬆自然。

自從推出以後,市場的反應如何?

Imai: 我們得到的反應都很正面,人們說比起別家產品,Panasonic 的語音辨識能力優秀極了。在日本,我們就聽到客人表達「語音互動功能很棒。我想要試試看能不能用它進行更多操控。」之類的稱讚。

看來這項功能可使得連過去覺得傳統遙控器裝置很麻煩的人,都覺得電視操控起來很愉快。感謝你們大家今天撥冗接受採訪。
Daisuke Yokohagi

Daisuke Yokohagi
語音導覽和其進化的功能
軟體工程師
於 1999 年進入現在的汽車與工業系統事業處。
於 2006 年轉到電視開發部。
為歐盟市場開發互動式電視中介軟體,例如 Data Broadcasts。

我想告訴大家...
WT600 和 WT60 有項獨有的功能,那就是當使用者輸入語音指令時,機櫃下方會亮起 LED 燈號。效果很美麗。能夠看到電視提供一些視覺上的回饋給使用者感覺很好。除了語音辨識,在其他時候也會有類似的反應。例如,當有人打 Skype 進來,或當計時器鬧鐘響的時候。試試看吧!

Tomohiro Koganei

Tomohiro Koganei
語音辨識
軟體工程師
於 2001 年進入 Panasonic 現在的電視開發部。
2002 至 2011 年間為日本市場開發電視應用程式軟體,例如 Data Broadcast Browsers 和「電視導覽」。

我想告訴大家...
使用這套系統進行搜尋時,同一個語音指令其實有好幾個替代詞可用。「語音互動說明指南」中是列出「搜尋」這個詞,但使用「查詢」或「尋找」,系統也聽得懂。這是為了要應付各種不同表達方式。我們從各語言的母語人士那邊收集了多種表達方式,而這些表達方式全已登錄到系統中。
所以,即使不小心講成其他搜尋指令句,系統也可能聽懂並執行所要的動作。你不妨可以試試隨便說幾個指令,看看有沒有用。(笑聲)

Tomohiro Konuma

Tomohiro Konuma
語音辨識
軟體工程師
於 1993 年進入 Panasonic 公司研發部。
1993 至 2012 年間研究開發語音辨識技術與聲音處理技術。
於 2012 年轉到 AVC 公司。

我想告訴大家...
電視指令字詞也可以應付各種不同的表達方式。(但還是有些限度。)「說明指南」中列出的字詞當然全都能用,但電視是設計成能在使用者說得不夠清楚時,認得某些替代發音。

可能的話,我們想要能夠應付世上所有語言的各種不同表達方式,但這是未來的目標。我們真心希望能涵蓋所有不同的講法。開發一台能自然完整地處理語言的電視,是我們的夢想。

Hideaki Nakaoka

Hideaki Nakaoka
瀏覽器系統設計/使用者介面設計
軟體工程師
於 1994 年進入 Panasonic 的公司生產工程部。
於 2000 年轉到公司研發部,研究 IP 廣播的瀏覽器、資料廣播與 DRM。
於 2007 年轉到電視開發部。

我想告訴大家...
我覺得最方便的地方是能夠在首頁上直接透過語音來搜尋網路。可運用這項功能的地方很多。你不需要像在電腦上一樣敲鍵盤來輸入文字,而且畫面上啟動瀏覽器來顯示搜尋結果的速度很快。

你也可以透過語音指令來操控瀏覽器本身。例如,如果瀏覽器中的文字太小,不方便閱讀,這時直接說「放大」就行了。

Makoto Sekito

Makoto Sekito
遙控器、麥克風整合
硬體工程師
於 2002 年進入 Panasonic 現在的電視開發部。
管理北美的 CATV STB 開發工作到 2007 年。
之後,他在 2010 年負責開發新一代廣播的 LSI。

我想告訴大家...
身為遙控器團隊的成員,我們的目標是設計出可讓使用者舒適操控電視的觸控板控制器。

附有大量按鈕的遙控器仍是時下的主流,但我認為到了將來,像觸控板控制器這樣簡單的遙控器會越來越多。我們希望能夠讓遙控器變得越來越方便。

Kazuhiro Imai

Kazuhiro Imai
遙控器、麥克風整合
硬體工程師
於 1998 年進入 Panasonic 現在的電視開發部。
目前負責開發觸控板控制器的硬體。

我想告訴大家...
觸控板控制的設計是徹底研究硬體和軟體層面的結果。在過去,每個國家與地區的遙控器裝置都有不同的語言和按鈕,也就是說我們每年都生產超過 50 種遙控器。而觸控板控制器是全球通用的,也就是說只有唯一一種遙控器。我希望以後我們能繼續推出全世界的人都會樂於使用的新設計。