Речь в докладе пойдет о распределенном роботе для обхода веба, поиска и извлечения контактной информации с корпоративных веб-сайтов. Фактически, это два компонента: веб-робот для получения контента и отдельное приложение для анализа и извлечения.
Вся система имеет онлайн-архитектуру и построена на очередях. Извлечение выполнено в виде Python-приложения, агрегирующего контент в букеты по хостам и принимающего решение отдельно по каждому букету. С каждого хоста нам нужно извлечь контактную информацию: адрес, телефон, название компании, а также аккаунты в соцсетях, сферы деятельности компании и технологии, на которых построен веб-сайт. Всему этому предшествует классификатор корпоративных сайтов, чтобы отфильтровать хосты, с которых ничего не удастся извлечь, или, наоборот, большие каталоги, где будет тяжело добиться высокой точности.
Основной фокус доклада будет направлен на само извлечение, на наш поиск работающей архитектуры, последовательность алгоритмов и способы сбора обучающих данных. Доклад будет полезен всем, кто работает с обработкой веб-данных или предоставляет решения для обработки больших объемов данных.
Скачать презентацию