Szukaj
Close this search box.

OpenAI wprowadza asystenta głosowego jak z filmu Hollywood „Her”. To trzeba zobaczyć [WIDEO]

OpenAI wprowadza asystenta głosowego jak z filmu Hollywood "Her". To trzeba zobaczyć [WIDEO]

Nowy model AI, nazwany GPT-4o, potrafi lepiej przetwarzać obrazy i wideo (oprócz tekstu) i może wchodzić w interakcję z ludźmi za pomocą głosu w czasie rzeczywistym. Ludzie mogą przerywać nowej funkcji głosowej podczas rozmowy, w przeciwieństwie do obecnych asystentów głosowych takich jak Siri, a model jest w stanie odpowiadać niemal natychmiast — przekonuje firma.

Podczas transmisji na żywo w poniedziałek dyrektorzy OpenAI pokazali, jak model może analizować kod, tłumaczyć języki między dwoma rozmówcami lub prowadzić użytkowników przez podstawowy problem z algebry zapisany na kartce papieru. Wszystko to wydaje się dziać w czasie rzeczywistym.

Dalsza część pod materiałem wideo — tłumacz w czasie rzeczywistym:

Wprowadzenie GPT-4o odzwierciedla dążenia OpenAI i innych start-upów oraz gigantów technologicznych do rozszerzenia bazy użytkowników i generowania przychodów z technologii generatywnej sztucznej inteligencji. Ta potrzeba zarobku jest coraz większa, bo firmy zainwestowały ogromne pieniądze w moc obliczeniową i energię potrzebną do opracowania swoich systemów.

OpenAI ogłosiło nowości dzień przed Google’em

Ogłoszenie OpenAI nastąpiło dzień przed rozpoczęciem dorocznej konferencji dla developerów Google, znanej jako I/O. Google rywalizuje z OpenAI oraz jego partnerem i inwestorem, Microsoftem, o dominację w dziedzinie generatywnej AI.

Sam Altman, dyrektor generalny OpenAI, porównał nowy produkt do narzędzi AI zazwyczaj widzianych w filmach. W wystąpieniu w zeszłym roku powiedział, że on i inni dyrektorzy OpenAI znaleźli inspirację w filmie z 2013 r. „Her” o mężczyźnie, który zakochuje się w asystencie głosowym. Altman i inni pracownicy OpenAI zamieścili odpowiednie odniesienia do filmu na platformie X tuż po ogłoszeniu w poniedziałek.

Dalsza część pod materiałem wideo — asystent programowania:

Nowy model może również wykrywać emocje w tonie głosu lub wyrazie twarzy osoby — przekonuje OpenAI. Potrafi także szybciej przełączać się między różnymi tonami emocjonalnymi, od dramatycznego głosu po ton robotyczny, aż po śpiewanie. Ta funkcja zostanie udostępniona w nadchodzących tygodniach użytkownikom ChatGPT Plus, wersji, za którą trzeba opłacać abonament w wysokości 20 dol. miesięcznie.

Dlaczego ChatGPT-4o, a nie 5.0?

GPT-4o będzie również oferowany dla firm. Mira Murati, dyrektor technologiczna OpenAI, powiedziała, że model będzie dwa razy szybszy i o połowę tańszy od obecnej, najbardziej zaawansowanej oferty GPT-4 Turbo.

Dalsza część pod materiałem wideo — różne wariacje głosu:

Firma poinformowała, że litera „o” w nazwie GPT-4o oznacza „omni”. Omni to łacińskie słowo oznaczające „wszystko” lub „wszechstronny”. Używa się go, aby podkreślić wszechstronność lub zdolność obejmowania wielu różnych aspektów. Nazwa ChatGPT 4o pochodzi od tego, że model GPT-4o jest wszechstronnym (omni) modelem sztucznej inteligencji, zdolnym do przetwarzania tekstu, obrazów i dźwięku.

OpenAI już teraz oferuje funkcję o nazwie „tryb głosowy”, która łączy trzy oddzielne modele, aby odpowiedzieć użytkownikom głosowo. Działa ona jednak dość wolno. W przeciwieństwie do tego GPT-4o został zbudowany jako pojedynczy model trenowany na materiałach tekstowych, wizualnych i dźwiękowych — i może szybciej i dokładniej reagować na różne sygnały.

Dyrektorzy OpenAI odmówili opisania, jakiego rodzaju dane zostały użyte do trenowania tego modelu. Odmówili także wyjaśnienia, czy OpenAI udało się wytrenować nowy model przy mniejszej mocy obliczeniowej.

Plany na przyszłość

Obecnie OpenAI pracuje również nad całkowicie nowym modelem AI, nazwanym GPT-5, który ma zapewnić duży krok naprzód w stosunku do obecnej technologii.

Dalsza część pod materiałem wideo — prosta gra:

Murati powiedziała w poniedziałek, że zespół OpenAI nie czerpał inspiracji tak bardzo z filmu „Her”, jak z rozmów międzyludzkich. — Kiedy przestajesz mówić, wchodzi ChatGPT. Może w pewnym stopniu odczytać twój ton i na niego odpowiedzieć. I to jest naprawdę naturalne, bogate i interaktywne — powiedziała. I rzeczywiście, ChatGPT 4o zdaje się działać świetnie i zauważalnie lepiej niż to, co zapewnia Gemini Google’a. Na razie OpenAI wygrywa w bitwie o króla AI.

Autor: Grzegorz Kubera, dziennikarz Business Insider Polska

Źródło https://businessinsider.com.pl/technologie/nowe-technologie/openai-wprowadza-asystenta-glosowego-jak-z-filmu-hollywood-her-to-trzeba-zobaczyc/tjpb2rr

Popularny