Система оперативного голосового поиска "Трал Х"
Результатом работы системы является набор папок с файлами, соответствующих искомым дикторам. Трал Х классифицирует входящий поток фонограмм по принадлежности к эталонным записям в соответствии с вероятностью совпадения их биометрических признаков голоса и речи.
Эффективность алгоритмов позволяет сократить объём исследуемого вручную материала на порядок и более. Таким образом, если без Трала Х вам нужно было прослушивать сотни фонограмм в день, уже на следующий день вы можете ограничиться прослушиванием десятка фонограмм, с большой вероятностью содержащих речь интересующих вас дикторов.
Возможно использование в составе любых систем контроля и регистрации телефонных переговоров.
Трал Х имеет удобные средства интеграции, которые позволяют разработчикам систем контроля и регистрации телефонных переговоров бесшовно интегрировать его в свои решения.
Функциональные возможности
- Полностью автоматическая система, с установленными по умолчанию параметрами поиска и порогами принятия решения.
- Два настраиваемых связанных порога принятия решения обеспечивают удобное разделение результатов на «совпадающих» и «похожих» дикторов, которое можно подстроить под особенности работы, каналов и фонограмм.
- Алгоритмы основываются на языко- (акценто- и диалекто-) и текстонезависимых методах автоматического исследования голоса и речи дикторов, характеризующихся высокими показателями надежности.
- Любая фонограмма, поступающая в систему Трал Х, проходит процесс автоматической сегментации – предварительной обработки с целью отсечения непригодных неречевых фрагментов звукового сигнала (тональных гудков, щелчков, музыкальных фрагментов, участков с перегрузками и пр.). Это позволяет свести к минимуму ошибки, возникающие при обработке записей телефонных разговоров.
- Каналы стереофонических фонограмм могут обрабатываться отдельно, что идеально подходит для обработки файлов из систем регистрации, записывающих телефонные звонки в стерео, где дикторы записываются в разные каналы.
- Трал Х обладает уникальной системой разделения диалогов (диаризации), которая позволяет обрабатывать диалог, записанный в монофоническом файле, как речь двух отдельных дикторов. Это решение незаменимо в случаях, когда аппаратура не может записывать стороны телефонного разговора в стерео.
- Быстрота развёртывания (Трал Х устанавливается за 5 минут, настраивается 5 минут, строит модели образцов голосов 5 минут, после чего готов к работе).
- Возможность установки в качестве сервиса Windows обеспечивает полностью автономную работу с автоматическим перезапуском в случае сбоев оборудования.
- Эффективная работа под высокой нагрузкой (автоматическая балансировка нагрузки между несколькими серверами Трал Х).
- Возможность передачи результата по TCP-IP в форме XML для интеграции в решения сторонних производителей (пример программы на C#, принимающей результаты, прилагается).
- Масштабируемость (возможно отслеживание нескольких наборов образцов голоса на одном сервере, если потоки обрабатываемых фонограмм невелики, или обработка большого потока несколькими серверами).
- Высокая надежность поиска/идентификации (до 97 %).
- Адаптируемость к условиям использования.
Технические характеристики
Основные характеристики | |
Минимальная длительность обрабатываемой фонограммы | 3 сек. (рекомендуется 16 сек.) |
Минимальная длительность обрабатываемой фонограммы | 3 сек. (рекомендуется 16 сек.) |
Количество отслеживаемых образцов голоса | от 20 до 10000 в зависимости от лицензии |
Системные требования | |
Минимальная конфигурация | Может быть установлена на мощном ноутбуке для использования в полевых условиях: 2-Core Intel x86 32/64 bit, 2.8 GHz, RAM 1 GB, HDD 160 GB, Windows XP SP2 |
Конфигурация «подразделение» | Может быть установлена на мощной рабочей станции: 4-Core Intel x86 32/64 bit, 2.8 GHz, RAM 4 GB, HDD 500 GB, Ethernet 1 Gbit, UPS,Windows Server 2003 Standard |
Конфигурация «регион» | Потребует 2 сервера обработки данных: 2x 4-Core Intel x86 32/64 bit, 2.8 GHz, RAM 6 GB, HDD 500 GB, 2x Ethernet 1 Gbit, Стоечное исполнение, Windows Server 2003 Standard |
Интеграция и сетевое взаимодействие | |
Сетевые интерфейсы | 1Gbit Ethernet |
Передача данных на обработку | Звуковые файлы необходимо поместить в папку на сервере Трал Х или в общую папку на другом сервере |
Получение результатов обработки | Обработанные звуковые файлы помещаються в папки, соответствующие искомым дикторам, на сервере Трал Х или в общие папки на другом сервере |
Требования к звуковым файлам | |
Формат звукового файла | RIFF WAV ИКМ 16 бит или A-law 8 бит |
Минимальная необходимая продолжительность речевого сигнала | 16 секунд (система принимает на обработку сигналы от 3 секунд длительности, но результат обработки может быть ненадежным) |
Частотный диапазон | 330-3400 Гц или лучше |
Отношение сигнал/шум в частотном диапазоне 330-3400 Гц | не менее 10 дБ |
Неравномерность АЧХ в частотном диапазоне 330-3400 Гц | не более 20 дБ |
Надёжность алгоритмов | |
Показатели надежности сравнения с использованием обобщенного решения для сигналов, имеющих отношение сигнал/шум не менее 20 дБ | 95% при сравнении пары речевых сигналов длительностью не менее 96 сек. каждый; |
Описание актуально на: 14.09.2010.
Для уточнения технических характеристик «Система оперативного голосового поиска "Трал Х"», а также для получения информации по наличию и условиям поставки Вы можете заполнить форму запроса ниже.
Внимание! Поставка оборудования осуществляется только юридическим лицами и только по безналичному расчёту.