A beszédtechnológia múltja, jelene és jövője

     

    Dr. Németh Géza, a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékének docense volt az alapítványunk által rendezett áprilisi IT Klub előadója. Előadásában a BME TMIT-n fejlesztett Profivox beszédszintetizátor kapcsán a beszédtechnológiai fejlesztésekről beszélt.

    A beszédtechnológiai kutatások során egymást követik az alapkutatások, a technológiai fejlesztések és az azokra épülő alkalmazások kialakításai. A beszédtechnológia eredeti megalapozását a nyelvtani, fonetikai vizsgálatok jelentették, ezekre épültek a különböző szintetizált számítógépes hangzások. Angol nyelvű szövegfelolvasója volt például már 1984-ben az Apple cégnek, de a kilencvenes években már jól érthető magyar nyelvű beszédtechnológia is rendelkezésre állt. Dr. Németh Géza bemutatta a Profivox beszédszintetizátor fejlesztésének mérföldköveit is. 1994-ben kezdődött a fejlesztés, majd 2002-től szabad szoftverként volt elérhető a szoftver Multivox néven. A jelenleg a JAWS for Windowsban működő verzió 2003-as fejlesztés, de a következő generáció is elérhető már a látássérült emberek számára a DEX szoftveren keresztül.

    A Profivox a mobiltelefonokban is működik, bár jelenleg még kevésbé terjedt el, mint a JAWS révén a számítógépeken, a technológia ugyanakkor minden további nélkül adaptálható az okostelefonok operációs rendszereihez is.

    Németh Géza az előadás közben

    A beszédszintézis technológiája szoros összefüggésben áll a beszédfelismerési technológiával. Ez utóbbit az angol nyelvi környezetben is túlzott marketing ígéretek övezik, teljes körű magyar nyelvű beszédfelismerő technológia pedig még egyáltalán nem létezik. A BME TMIT-nek ugyanakkor mégis jelentős eredményei vannak ezen a téren is. Megoldott például a különálló szavak személyfüggetlen felismerése, 2004-től például ily módon felismertethető bemondás alapján 13 ezer budapesti utcanév. Hasonló, közismert és bárki által kipróbálható alkalmazás a gyógyszerek nevének felismerése a Gyógyszervonal szolgáltatás telefonos verziójában, ahol a beszédfelismerés, illetve a beszédszintézis technológia egyszerre van jelen: a rendszer felismeri a felhasználó által bemondott gyógyszer nevét, majd felolvassa annak betegtájékoztatóját.

    Aki az áprilisi IT Klubba személyesen nem tudott eljönni, az honlapunkról is letöltheti Dr. Németh Géza előadásának teljes hanganyagát. Technikai problémák miatt a felvétel a szokásosnál sajnos rosszabb minőségű lett, ezért az érdeklődők szíves elnézését kérjük!

    Az előadás hanganyagának letöltése

     

     

     

    Hír elküldése e-mail-ben űrlap mutatása

    Vissza a hírekhez

     

    Az oldal tetejére