Все статьи
9 мин чтения

Поддерживаемые форматы файлов: какие аудио- и видеофайлы можно транскрибировать

Один из самых частых вопросов перед первой загрузкой: “Поддерживается ли мой формат файла?” Короткий ответ: с очень высокой вероятностью да. scryp принимает более 50 аудиоформатов и более 50 видеоформатов – от распространённых стандартов вроде MP3 и MP4 до профессиональных форматов вроде FLAC, AC3 или MKV. В этой статье перечислены все поддерживаемые форматы, объяснено, как работает автоматическая конвертация, и на что обратить внимание в отношении качества записи.

Почему так много форматов? Движок конвертации scryp

У scryp есть собственный движок конвертации, способный обработать практически любой распространённый аудио- и видеоформат. Перед транскрипцией каждый загруженный файл автоматически конвертируется в оптимизированный формат – независимо от исходного формата.

Процесс подробно: вы загружаете файл в любом поддерживаемом формате. Наш движок автоматически извлекает аудиодорожку (для видео видеодорожка отбрасывается) и конвертирует её в стандартизированный формат WAV с частотой дискретизации 16 кГц и моноканалом. Этот формат оптимален для распознавания речи с помощью ИИ. Поэтому вам никогда не нужно думать о кодеках, частотах дискретизации или числе каналов – всё происходит полностью автоматически.

Поддерживаемые аудиоформаты (50+)

В следующем списке показаны самые распространённые аудиоформаты, которые scryp принимает напрямую. Если ваш формат здесь, вы можете загрузить файл без какой-либо подготовки:

  • MP3 (.mp3) – Самый распространённый аудиоформат. Сжатый, хороший баланс между размером файла и качеством. Идеален для записей со смартфонов и диктофонов.
  • WAV (.wav) – Несжатый формат с полным качеством звука. Стандарт в профессиональном аудиопроизводстве. Файлы больше, но наилучшая точность транскрипции.
  • M4A / AAC (.m4a, .aac) – Стандартный аудиоформат Apple. Используется iPhone, iPad и macOS. Лучшее качество, чем MP3, при том же размере файла.
  • OGG / Vorbis (.ogg, .oga) – Open-source-формат с хорошим сжатием. Распространён в системах Linux и веб-приложениях.
  • FLAC (.flac) – Формат со сжатием без потерь. Полное качество звука при примерно 50–60 % размера файла WAV. Популярен среди аудиофилов и в музыкальном производстве.
  • Opus (.opus) – Современный кодек с отличным качеством при низких битрейтах. Стандарт для VoIP и WebRTC – часто используется браузерами для аудиозаписей.
  • AIFF (.aiff, .aif) – Несжатый аудиоформат Apple. Эквивалент WAV в мире macOS. Стандарт в музыкальном производстве на устройствах Apple.
  • WMA (.wma) – Windows Media Audio. Проприетарный аудиоформат Microsoft. Используется старыми диктофонами и программами записи Windows.
  • AMR (.amr) – Adaptive Multi-Rate. Компактный речевой формат, используемый многими мобильными телефонами для голосовых записей. Низкий битрейт, но оптимизирован под речь.
  • AC3 (.ac3) – Dolby Digital. Формат объёмного звука, часто используемый на DVD, Blu-ray и в телезаписях. scryp автоматически извлекает и сводит каналы в моно.
  • DTS (.dts) – Digital Theater Systems. Высококачественный формат объёмного звука из кинотеатров и домашних кинотеатров. Автоматически конвертируется в формат, оптимизированный под распознавание речи.
  • WebM Audio (.webm) – Контейнерный формат для веб-аудио. Стандарт для записей из браузера, например через встроенную функцию записи в scryp.

Ещё 38 поддерживаемых аудиоформатов:

Контейнеры и веб: WebM Audio (.webm), CAF (.caf) – Core Audio Format, MKA (.mka) – Matroska Audio, MP2 (.mp2), SPX (.spx) – Speex, 3GP (.3gp).

Без потерь и аудиофильские: APE (.ape) – Monkey's Audio, WavPack (.wv), TTA (.tta) – True Audio, TAK (.tak), Shorten (.shn), DSF (.dsf) – DSD Stream File, Musepack (.mpc).

Объёмный звук и кино: EAC3 (.eac3) – Dolby Digital Plus, DTS-HD (.dtshd), TrueHD (.thd) – Dolby TrueHD, MLP (.mlp).

Телефония и VoIP: GSM (.gsm), iLBC (.lbc), QCP (.qcp), SBC (.sbc) – Bluetooth Audio, G.722 (.g722), G.723 (.g723), G.726 (.g726), G.729 (.g729).

Диктофоны: DSS (.dss) – Digital Speech Standard (Olympus, Philips), ACT (.act) – ACT Voice.

Архивные и устаревшие: AU (.au) – Sun/Unix Audio, W64 (.w64) – Sony Wave64, VOC (.voc) – Creative Voice, OMA (.oma) – Sony OpenMG, PVF (.pvf) – Portable Voice Format, SOX (.sox) – Sound eXchange, VQF (.vqf) – TwinVQ, MMF (.mmf) – Yamaha SMAF, IRCAM (.sf) – Berkeley/IRCAM, AVR (.avr) – Audio Visual Research, SLN (.sln) – Asterisk PCM.

Поддерживаемые видеоформаты (50+)

scryp транскрибирует и видеофайлы напрямую – аудиодорожка извлекается автоматически. Вам не нужно заранее вручную отделять звук:

  • MP4 (.mp4) – Универсальный видеостандарт. Создаётся практически всеми камерами, смартфонами и инструментами видеоконференций (Zoom, Teams, Google Meet).
  • MOV (.mov) – Формат QuickTime от Apple. Стандарт для видео с iPhone и записей экрана на macOS.
  • MKV (.mkv) – Контейнер Matroska. Гибкий open-source-формат, поддерживающий несколько аудио- и субтитровых дорожек. Распространён для скринкастов и видеоархивов.
  • AVI (.avi) – Классический видеоформат Windows. Используется старыми камерами и приложениями Windows. Большие файлы, но универсально совместим.
  • WebM (.webm) – Открытый веб-видеоформат Google. Стандарт для видеозаписей из браузера и загрузок с YouTube.
  • MPEG / MPG (.mpeg, .mpg) – Классический видеоформат. Стандарт для DVD и старых видеоархивов.
  • WMV (.wmv) – Windows Media Video. Видеоформат Microsoft, иногда встречается в обучающих видео и старых записях конференций.
  • FLV (.flv) – Flash Video. Происходит из эпохи Flash, всё ещё встречается в старых видеоархивах.
  • M4V (.m4v) – Видеовариант MP4 от Apple. Используется iTunes и Apple TV.
  • TS / MTS (.ts, .mts) – MPEG Transport Stream. Стандарт для видеокамер (AVCHD) и телезаписей.
  • 3GP / 3G2 (.3gp, .3g2) – Мобильные видеоформаты. Создаются старыми смартфонами и планшетами для видеозаписей.
  • VOB (.vob) – DVD Video Object. Формат файлов на DVD-дисках. Актуален для оцифровки DVD-архивов.

Ещё 44 поддерживаемых видеоформата:

Профессиональные и broadcast: MXF (.mxf) – Material eXchange Format, GXF (.gxf) – General eXchange Format, DV (.dv) – Digital Video, R3D (.r3d) – RED Raw, LXF (.lxf) – VR Native Stream, Y4M (.y4m) – YUV4MPEG, MLV (.mlv) – Magic Lantern Video, MJ2 (.mj2) – Motion JPEG 2000, IVF (.ivf).

Веб и стриминг: OGV (.ogv) – Ogg Video, ASF (.asf) – Advanced Streaming Format, F4V (.f4v) – Flash MP4, SWF (.swf) – ShockWave Flash, NSV (.nsv) – Nullsoft Streaming Video, ISM/ISMV (.ism, .ismv) – Smooth Streaming.

Телезаписи и видеонаблюдение: WTV (.wtv) – Windows Television, TY (.ty) – TiVo, DAV (.dav) – CCTV DVR, EVO (.evo) – HD-DVD.

Архивные и устаревшие: RM/RMVB (.rm, .rmvb) – RealMedia, NUT (.nut), NUV (.nuv) – NuppelVideo, DivX (.divx), FLC/FLI (.flc, .fli) – Autodesk Animator, PSP (.psp), CDXL (.cdxl) – Amiga CDXL.

Игры и мультимедиа: BIK (.bik) – Bink Video, SMK (.smk) – Smacker, ROQ (.roq) – id Software, THP (.thp) – Nintendo, VMD (.vmd) – Sierra, VIV (.viv) – Vividas, XMV (.xmv) – Microsoft XMV, PMP (.pmp) – PSP Media, CPK (.cpk) – Sega FILM, RL2 (.rl2), RPL (.rpl), MTV (.mtv), PDV (.pdv) – PlayDate, IV8 (.iv8) – IndigoVision, BMV (.bmv) – Discworld, TMV (.tmv), YOP (.yop) – Psygnosis, WC3 (.wc3) – Wing Commander.

Как работает автоматическая конвертация

Весь процесс конвертации проходит полностью автоматически на сервере. Независимо от исходного формата каждый файл обрабатывается в три шага: извлечение аудиодорожки, конвертация в 16 кГц моно WAV для распознавания ИИ и последующая транскрипция нашей языковой моделью SX-3.

Технический процесс:

  • 1. Загрузка: Ваш файл шифруется в браузере и загружается в вашем исходном формате.
  • 2. Извлечение: Наш движок конвертации извлекает аудиодорожку. Для чисто аудиофайлов этот шаг пропускается. Для видео используется только звук – визуальный материал не сохраняется.
  • 3. Нормализация: Аудио конвертируется в стандартизированный формат WAV: частота дискретизации 16 кГц, 16-битный PCM, моно. Эти параметры оптимальны для нашей модели распознавания речи SX-3.
  • 4. Транскрипция: Нормализованное аудио обрабатывает SX-3. Параллельно происходит диаризация спикеров, которое различает отдельные голоса.
  • 5. Версия для воспроизведения: Дополнительно создаётся сжатая версия MP3 для воспроизведения в браузере, чтобы вы могли при вычитке слушать напрямую.

Советы для оптимального качества транскрипции

scryp принимает почти любой формат – но качество результата сильно зависит от качества записи. Несколько рекомендаций:

  • Предпочитайте несжатые форматы: WAV и FLAC дают наилучшие результаты, потому что никакие артефакты сжатия не мешают распознаванию речи. Если место в хранилище не проблема, записывайте в WAV.
  • Высокий битрейт для сжатых форматов: Для MP3 битрейт должен быть не менее 128 кбит/с, лучше 192 или 256 кбит/с. Файлы MP3 при 64 кбит/с и ниже могут заметно ухудшить точность распознавания.
  • Загружайте видео напрямую: Вам не нужно вручную извлекать аудиодорожку. Загрузите видеофайл напрямую – scryp позаботится об извлечении автоматически. Это экономит шаг и предотвращает потерю качества от двойной конвертации.
  • Форматы объёмного звука работают: Многоканальные форматы вроде AC3 (Dolby Digital) и DTS автоматически сводятся в моно. Вам не нужно конвертировать звук вручную.
  • Помните о среде записи: Независимо от формата: тихая комната и хороший микрофон влияют на точность транскрипции сильнее, чем выбор между MP3 и WAV.

Часто задаваемые вопросы

Нужно ли мне заранее конвертировать свои файлы? Нет. Загрузите файл в его исходном формате. Конвертация происходит автоматически на сервере.

А если моего формата нет в списке? Просто попробуйте. scryp принимает любой файл с аудио- или видео-MIME-типом. Перечисленные здесь форматы — самые распространённые – на практике наш движок обрабатывает значительно больше.

Работают ли и очень большие видеофайлы? Да. В зависимости от вашего плана подписки можно загружать файлы до 1 ГБ (Nano), 5 ГБ (Pro) или 10 ГБ (Ultra). Для больших файлов используется многочастная загрузка, которая надёжно работает даже при нестабильном соединении.

А как насчёт аудиодорожек на иностранных языках? Формат файла не зависит от языка. scryp автоматически распознаёт более 90 языков. Если хотите ускорить распознавание, можете при загрузке указать подсказку по языку.

Удаляются ли мои файлы после транскрипции? Да. Зашифрованные исходные файлы автоматически удаляются после обработки. На сервере остаётся только зашифрованная версия для воспроизведения (MP3) и зашифрованная транскрипция.

Заключение

scryp поддерживает более 100 аудио- и видеоформатов – от повседневных стандартов вроде MP3 и MP4, через профессиональные форматы объёмного звука вроде AC3 и DTS, до специализированных архивных форматов вроде VOB, MXF или MTS. Наш движок конвертации берёт на себя кодеки и совместимость форматов. Просто загрузите свой файл в исходном формате, а об остальном позаботится автоматика. Для наилучшего возможного качества транскрипции рекомендуется несжатый формат или формат с высоким битрейтом – и, что важнее, хорошая среда записи.

Поддерживаемые форматы файлов: какие аудио- и видеофайлы можно транскрибировать