Nowe API do transkrypcji Apple w iOS 26 i macOS Tahoe – znacznie szybsze niż Whisper OpenAI

Apple wprowadza rewolucję w dziedzinie transkrypcji mowy na tekst dzięki swoim nowym interfejsom API dostępnym w systemach iOS 26 oraz macOS Tahoe. Testy beta przeprowadzone przez Johna Voorheesa z portalu MacStories wykazały, że nowe narzędzia Apple działają znacznie szybciej niż konkurencyjne rozwiązania, w tym popularny model Whisper opracowany przez OpenAI. Taka przewaga technologiczna może całkowicie zmienić sposób, w jaki użytkownicy korzystają z funkcji transkrypcji na urządzeniach Apple.

W nowych systemach Apple wykorzystuje natywne ramy mowy (speech frameworks), które napędzają funkcje takie jak transkrypcja na żywo w aplikacjach Notatki czy Voice Memos, a także transkrypcję rozmów telefonicznych dostępnych od wersji iOS 18.1. Dla poprawy efektywności w iOS 26 i macOS Tahoe firma wprowadziła zupełnie nową klasę SpeechAnalyzer oraz moduł SpeechTranscriber, które realizują podobne zadania, jednak znacznie szybciej i sprawniej, oferując narzędzia dedykowane do transkrypcji.

Według testów przeprowadzonych przez Voorheesa, nowy model Apple potrafił przetworzyć 34-minutowy plik wideo o rozmiarze 7 GB w zaledwie 45 sekund, korzystając z narzędzia wiersza poleceń Yap, stworzonego przez syna autora testu, Finna Voorheesa. To o 55% szybciej niż konkurencyjny model Large V3 Turbo z MacWhisper, który przetworzył tę samą zawartość w 1 minutę i 41 sekund. Inne narzędzia oparte na technologii Whisper, takie jak VidCap, potrzebowały nawet do dwóch minut na wykonanie tego samego zadania, co pokazuje wyraźną przewagę nowego rozwiązania Apple.

Kluczową zaletą jest fakt, że Apple wykonuje transkrypcję bezpośrednio na urządzeniu, co eliminuje opóźnienia i problemy z łącznością sieciową, które często spowalniają usługi wykorzystujące chmurę. Choć różnica czasowa może wydawać się niewielka przy pojedynczych plikach, zalety nowej technologii stają się tym bardziej widoczne przy jednoczesnym przetwarzaniu wielu materiałów lub dłuższych nagrań, co jest istotne np. dla twórców napisów do filmów, studentów czy profesjonalistów zajmujących się nagraniami wykładów czy konferencji.

Obecnie komponenty frameworka Speech dostępne są na wielu platformach Apple, w tym na iPhone’ach, iPadach, komputerach Mac oraz Vision Pro, w ramach dostępnych wersji beta. Eksperci branżowi spodziewają się, że technologia transkrypcji Apple będzie stopniowo zyskiwać na popularności i ostatecznie może wyprzeć rozwiązania takie jak Whisper, stając się standardem dla aplikacji transkrypcyjnych na Macu i innych urządzeniach. To otwiera nowe perspektywy dla użytkowników, którzy cenią szybkość i wygodę, a także dla deweloperów tworzących zaawansowane narzędzia do rozpoznawania mowy i przetwarzania audio.

Dzięki nowym rozwiązaniom Apple, przyszłość transkrypcji mowy jawi się jako bardziej efektywna, natychmiastowa i dostępna bez konieczności stałego dostępu do internetu. To istotny krok naprzód, który może znacząco wpłynąć na codzienne korzystanie z urządzeń Apple w pracy, nauce i życiu prywatnym.