Model językowy o nazwie Vall-E (nie mylić z filmem animowanym Wall-E) to kolejna wersja systemu opartego na sztucznej inteligencji, jaki rozwija Microsoft. System ten koncentruje się na rozpoznawaniu naturalnego języka i ludzkiej mowy. Najnowsza wersja Vall-E przewyższa poprzednie wysiłki firmy pod kątem „naturalności”, a także podobieństwa mowy do oryginalnego źródła — w tym wypadku mówcy, na którym opierana i rozwijana jest technologia.
Tutaj pojawia się problem. Choć może wypadałoby to określić inaczej: wyzwanie. Okazało się, że Vall-E w najnowszej wersji osiągnął równorzędność z ludźmi. Brzmi jak człowiek, mówi jak człowiek, nie da się go w zasadzie odróżnić od człowieka. Model językowy został rozwinięty do takiego stopnia, że Microsoft podjął odpowiedzialną decyzję i zdecydował, że nie udostępni go publicznie.
Table of Contents
ToggleModel językowy do klonowania ludzi
Nowy model AI Microsoftu zyskał przede wszystkim dwa usprawnienia, które znacząco poprawiły jego wydajność. Po pierwsze, otrzymał tzw. modelowanie grupowe kodów, co pozwala na lepsze organizowanie próbek dźwiękowych i skutkuje zwiększoną szybkością wnioskowania. W rezultacie AI uczy się szybciej i wprowadza adekwatne korekty.
Drugim usprawnieniem jest lepsze próbkowanie z uwzględnieniem powtórzeń. Tutaj chodzi z kolei o to, aby AI uczyła się przede wszystkim na coraz nowszych i świeżych materiałach, a nie „przerabiała” zbyt wiele razy ten sam materiał źródłowy. Jednocześnie proces ten pomaga ustabilizować pracę całego modelu.
Czytaj także w BUSINESS INSIDER
Microsoft przeprowadził testy Vall-E 2.0 w narzędziach umożliwiającym ocenę modeli AI — odpowiednio LibriSpeech i VCTK.
LibriSpeech to zbiór danych używany w badaniach nad rozpoznawaniem mowy, zawierający tysiące godzin angielskich nagrań mowy wraz z transkrypcjami, które pochodzą z publicznie dostępnych książek z Projektu Gutenberga. Jest szeroko stosowany do trenowania i testowania algorytmów rozpoznawania mowy oraz syntezowania mowy.
Czytaj też: Project Gutenberg chce, aby audiobooki były czytane twoim głosem. Dziecku poczyta książkę AI?
VCTK Corpus to z kolei baza danych mowy zawierająca nagrania wypowiadane przez różnych mówców z różnych regionów, która jest używana do badań nad syntezowaniem mowy oraz rozpoznawaniem mówcy. Dzięki dużej różnorodności akcentów i głosów VCTK jest cennym zasobem do trenowania modeli, które muszą radzić sobie z różnymi wariantami mowy angielskiej.
Oba testy Vall-E 2.0 zakończyły się z dużym sukcesem. Co więcej, Microsoft twierdzi, że narzędzie AI osiągnęło poziom ludzki — wypadło lepiej niż próbki źródłowe pod względem podobieństwa i naturalności. Innymi słowy, narzędzie może generować naturalną mowę, która jest praktycznie identyczna z mową oryginalnego mówcy.
Brzmi niezwykle realistycznie
Microsoft, aby udowodnić skuteczność Vall-E, udostępnił próbki systemu AI na stronie projektu. Nie możemy stworzyć tam własnych nagrań, natomiast możemy posłuchać kilku już przygotowanych.
Rzeczywiście, nagrania zamieszczone przez Microsoft brzmią bardzo realistycznie i są nie do odróżnienia od ludzkiego mówcy. Sztuczna inteligencja bez problemu odnotowuje nawet różne subtelności, jak kładzenie nacisku na właściwe słowo w zdaniu, co ludzie robią podświadomie podczas mówienia. Krótko mówiąc: brzmi jak człowiek.
Najnowsza wersja Vall-E zostanie wyłącznie projektem badawczym. Microsoft dowiedział się, jak tworzyć zadziwiająco skuteczne i „ludzkie” generatory mowy i zachowa te kompetencje dla siebie. Firma podkreśliła, że nie ma planów włączenia technologii do produktów konsumenckich i nie udostępni ich ogółowi społeczeństwa. Są zbyt niebezpieczne, bo za ich pomocą mogłoby powstać wiele fałszywych komunikatów i pewnie szybko trafiłyby w ręce cyberprzestępców do nielegalnych działań (np. podszywanie się, identyfikacja głosowa).
Nie wiadomo czy Microsoft wykorzysta technologię generowania mowy do własnych korzyści. Firma mogłaby np. stworzyć odpowiednie rozwiązania dla branży filmowej i zapewniać dubbing z głosami aktorów i aktorek, którzy już nie żyją, czy też tworzyć mówione treści edukacyjne tanim kosztem. Oczywiście pozostaje kwestia regulacji prawnych i samej etyki czy odbioru przez społeczeństwo, niemniej możliwości są bardzo szerokie.
Na razie trzeba liczyć na to, że Microsoft ma silne zabezpieczenia. Generator mowy tej klasy po prostu nie może trafić w niepowołane ręce.
Autor: Grzegorz Kubera, dziennikarz Business Insider Polska