Stworzony na Dolnym Śląsku AI-Speaker będzie pierwszym inteligentnym głośnikiem mówiącym w języku polskim

Autor: Jakub Mirek

23 października 2017

Wydawałoby się, że inteligentny głośnik, który rozumie i mówi po polsku, jeszcze przez wiele lat pozostanie poza naszym zasięgiem. Grupa pasjonatów z Dolnego Śląska postanowiła jednak skrócić czas oczekiwania i zaspokoić rodzimy rynek nieco wcześniej. W ten sposób powstał AI-Speaker, urządzenie z wirtualnym asystentem AIS, z którym porozmawiamy w języku polskim, angielskim, francuskim i rosyjskim.
AI-Speaker jest małym komputerem, którym steruje się nie za pomocą myszy i klawiatury, ale za pośrednictwem poleceń głosowych. Składa się on z trzech modułów: dwóch pełnozakresowych głośników Hi-Fi (3,5 cala z biernymi membranami i wzmacniaczem 20 watów) oraz modułu środkowego, którym można je ze sobą połączyć. Na pokładzie głośnika znalazł się autorski głosowy asystent AIS. Całe urządzenie przynależy więc do stosunkowo nowego rodzaju produktów nazywanych „inteligentnymi głośnikami”. Te najpopularniejsze takie jak Amazon Echo albo Google Home, nie działają w języku polskim. Nie rozumieją więc komend i nie odpowiadają na nie w naszej rodzimej mowie. AI-Speaker to potrafi.

AI-Speaker powstał, a jakżeby inaczej – w małym warsztacie

Historia powstania AI-Speakera brzmi właściwie jak spełniony sen startupowca. Nie dość, że opracowano go w „garażu”, to podobnie jak Apple I, posiada on drewnianą obudowę, w tym przypadku, z litego kawałka świerka. Urządzenia nie stworzyła żadna korporacja, ale niewielki, dziesięcioosobowy zespół. Pierwszy prototyp Speakera nie powstał też z komercyjną intencją, ale z potrzeby rozwiązania problemu. Początkowo jego twórcy chcieli po prostu opracować sterowane głosem radio internetowe dla niedowidzącego przyjaciela i członka rodziny. Dopiero z czasem pomysł rozwinął się do obecnej postaci, w bardziej kompleksowe rozwiązanie.

Głośnik, który słucha tylko wtedy kiedy chcesz coś powiedzieć

Z tej kameralności całego projektu wynika wiele korzyści, którymi chwalą się autorzy głośnika. Po pierwsze AI-Speaker nie gromadzi żadnych danych na temat użytkownika i nie nasłuchuje bez przerwy jego głosu, tak jak robią to uruchamiani komendą głosową asystenci Google Assistant czy Amazon Alexa (co wymaga wiecznie włączonego mikrofonu).

Kto ma pilota ten ma władzę

By uaktywnić nasłuch należy użyć wyposażonego w mikrofon pilota (działa na częstotliwości 2.4 Ghz, ma zasięg do 10 metrów). Przy interfejsie konwersacyjnym może wydawać się on rozwiązaniem archaicznym, ale to cena jaką płacimy za absolutną władzę nad urządzeniem. Pilot daje też alternatywę dla sterowania głosowego, posiada bowiem własne przyciski. Sprzęt można podłączyć także do telewizora przez złącze HDMI 4K z HDCP lub obsługiwać za pomocą aplikacji WEBowej na smartfonie. Analogowe wyjście audio pozwoli na podpięcie słuchawek. Naturalnie obsługiwane są łączność Wi-Fi oraz bluetooth.

Co potrafi zrobić AI-Speaker?

Z racji swego pierwotnego przeznaczenia, AI-Speaker to urządzenie stworzone przede wszystkim do odtwarzania muzyki, podcastów, audiobooków, zgranych na pen drive’a (głośnik posiada port USB) lub prosto z serwisów streamingowych takich jak: Spotify, SoundCloud, Google Music, Dirble, TuneIn, YouTube, Beets, Banshee.
Oprócz spełniania muzycznych „zamówień”, głośnik potrafi też wyszukiwać informacji w Internecie i na życzenie przedstawiać np. prognozę pogody. Baza rozumianych przez niego słów jak i zdolności wymowy są wciąż rozwijane, tak by urządzenie podejmowało odpowiednią reakcję nawet na luźniej sformułowane polecenie.

Sztuczna inteligencja powstała w polskiej miejscowości. Jak to możliwe?

Zapewne wiele z was zastanawia się – jak to możliwe, że stosunkowo mały zespół, bez korporacyjnego zaplecza, był w stanie stworzyć skomplikowany interfejs konwersacyjny w polskim języku? Niezwykle pomocne w tym procesie okazały się programy i sprzęt o „otwartym źródle”. Twórcy AI-Spekara konstruują swoje urządzenie w oparciu o znane rozwiązania i układy (początkowo w budowie wykorzystywano Rasberry Pi, a system opiera się na Linuxie). Drogę, która prowadziła do powstania oprogramowania asystenta, w skrócie opisała nam Celina Raczkowska, w projekcie AI-Speakera zajmująca się Customer Developmentem:

W ciągu 1.5 roku sprawdziliśmy prawdopodobnie wszystkie biblioteki STT (rozpoznawanie mowy) i TTS (synteza mowy) dostępne na Linux-a, niestety nie spełniły one naszych oczekiwań – współczynnik błędu jest zbyt duży, żeby dało się tego używać w inteligentnym głośniku. Ostatecznie wybraliśmy inną drogę – mechanizm hybrydowy – część rzeczy robimy w chmurze (korzystamy z serwisów) a część na urządzeniu. Prawda jest taka, że obecnie nikt nie jest w stanie zrobić STT bez chmury. Mamy plan/ambicję, żeby robić jak najwięcej bez posiłkowania się serwisami , ale naszym priorytetem jest jakość (najmniejszy współczynnik błędu). W tej chwili w dziedzinach STT i TTS trwa prawdziwa rewolucja, np. Mozilla pracuje nad DeepSpeech (otwarto-źródłowy silnik STT), na zbiorze swoich danych osiąga współczynnik błędu 0%! Bardzo nas to cieszy i cieszymy się, że jest to OpenSource.

ARM Cortex-A7, który znajduje się wewnątrz AI-Speakera, to układ z 2013 roku, który wciąż trzyma się jednak całkiem nieźle. AI-Speaker będzie oferował też 8GB pamięci wewnętrznej eMMc (flash). Nic nie stoi więc na przeszkodzie, by głośnik zamienił się kiedyś w pełnoprawne urządzenie OTT (w rodzaju Apple TV), z którego odtworzymy wideo w wysokiej rozdzielczości na telewizorze (dzięki procesorowi graficznemu Mali400 MP2 ARM). Funkcje głosowe jak na razie rozwijane są jednak głównie wokół audio i sterowania systemem.
Jak poinformowała nas Celina Raczkowska, toczą się już prace nad pozyskaniem certyfikacji, by do AI-Speakera można było oficjalnie wgrywać asystentów Google oraz Alexa, znanych i rozwijanych na największych rynkach europejskich oraz w USA.

Nowoczesna wieża muzyczna – sterowana głosem

AI-Speaker jest więc przede wszystkim obsługiwaną głosowo „wieżą muzyczną” z dostępem do internetowych serwisów streamingowych. Jak na razie nie zainstalujemy w nim aplikacji zewnętrznych producentów, pojawi się jednak opcja sterowania urządzeniami inteligentnego domu (wsparcie dla HASS). Na polskim rynku będzie to więc rozwiązanie unikalne, jako że do tej pory nie doczekaliśmy się inteligentnego głośnika mówiącego w rodzimym języku (spolonizowano jedynie prostego asystenta Google Now). Na filmach udostępnionych w YouTube, reakcje AI-Speakera na komendy są trafne i w miarę szybkie. Również syntezowanie mowy wydaje się działać naprawdę dobrze. Dlatego dziwi nieco, że zagraniczne firmy, przy swoich ogromnych zasobach, tak długo zwlekają z chociaż podstawową polonizacją swoich największych, wirtualnych asystentów.

Polski rynek stoi otworem

Rodzimy rynek może okazać się chłonny na takie niedostępne do tej pory „domowe” systemy głosowe, szczególnie jeśli tego rodzaju produkty znajdą się w szerokiej dystrybucji (nawet w zwykłych sieciach handlowych) i w atrakcyjnej cenie. Podczas gdy wiele osób korzysta już z anglojęzycznej wersji Siri, Alexy lub Google Assistanta, zapewne znalazłaby się także grupa, która chętnie porozumiała się z nimi w rodzimym języku. Ostateczną funkcjonalność i skuteczność polskiego AI-Speakera będzie można sprawdzić dopiero w trakcie codziennego użytkowania.

W listopadzie rozpocznie się akcja crowdfundingowa

Twórcy AI-Speakera potrzebują jednak finansowania do masowej produkcji, dlatego też już w listopadzie wystartują ze zbiórką funduszy, prawdopodobnie w serwisie crowdfundingowym Indiegogo. Więcej informacji na temat głośnika znajdziecie na stronie internetowej: ai-speaker.com lub facebooku.
Jeśli chodzi o przewidywaną cenę AI-Speakera, dla osób biorących udział w kampanii finansującej wczesną produkcję, będzie to tzw. BOM (Bill Of Materials), czyli koszt materiałów, potrzebnych do stworzenia jednego urządzenia. Powinien oscylować on wokoło 50 dolarów za moduł, jednak sprawa wciąż jest jeszcze uzgadniania. Cena nie będzie więc zbyt niska, ale dzięki temu sami nie staniemy się produktem.
Źródło:
ai-speaker.com
sroda.express-miejski.pl
Zdjęcia:
www.facebook.com/pg/AISpeaker

Tweetnij

AI i dane w SEM: jak podejmować lepsze decyzje i zwiększać skuteczność kampanii

Każdy może dziś być strategiem. Dlaczego większość nim nie będzie?

Terminal płatniczy w telefonie a tradycyjny terminal – które rozwiązanie wybrać?

Szafy wydające – jak wybrać rozwiązanie, które usprawni logistykę w firmie?

Finanse potrzebują decyzji, nie kolejnych dashboardów – jak Amibudget ...

Finansowy agent AI – kiedy pieniądze zaczynają z nami rozmawiać

Jak wybrać platformę e-commerce bez kosztownych błędów i na co zwrócić uwagę w 2026 roku?

Jak Log Management przyspiesza wykrywanie problemów IT?

Finanse potrzebują decyzji, nie kolejnych dashboardów – jak Amibudget ...

15 lat innowacji! Poznaj laureatów jubileuszowej edycji Mobile Trends Awards 2025

Umarł GUI, niech żyje… doświadczenie bez interfejsu

UX bez perfekcjonizmu: dlaczego „odpuszczanie” jest dziś kluczową kompetencją projektanta

Jak systemy DAS rewolucjonizują łączność wewnątrzbudynkową?

Czy warto już dziś kupić telefon z 5G, jeśli mieszkasz w Katowicach?

Tablet do czytania – nowy wymiar cyfrowej lektury

Telefony komórkowe Infinix, Doogee czy OPPO – który smartfon będzie najlepszy dla Ciebie?

Cyfrowa rewolucja filantropii. Jak technologia zmienia crowdfunding i dobroczynność w Polsce?

Nowa era wyszukiwania: raport Altavia Kamikaze + K2 odsłania liderów AI Search w 40 kategoriach

Eleni Panagiotopoulou z SOFTSWISS wyróżniona tytułem Best AML Professional 2025

Jak stworzyć naprawdę ergonomiczne stanowisko pracy?

PIAP Connect – lokalne targi branży artykułów promocyjnych w nowej formule

Mobile Trends Conference 2026 – mniej hype’u, więcej świadomych decyzji