Статья опубликована в рамках: XXIV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 03 июля 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ АНАЛИЗА ДАННЫХ ПО НЕДВИЖИМОСТИ (НА ПРИМЕРЕ ООО «ЦЕНТР ОЦЕНКИ ЭКСПЕРТИЗЫ СОБСТВЕННОСТИ», Г. ВЛАДИВОСТОК)
Целью данного исследования является разработка информационной системы для анализа данных по недвижимости для предприятия ООО «Центр оценки экспертизы собственности». Данные по недвижимости предприятие получает из объявлений о продаже и аренде недвижимости сайта farpost.ru. Рассматриваются объявления четырех типов: о продаже земельных участков, о продаже недвижимости, об аренде недвижимости и о продаже квартир.
Необходимость разработки данный системы на предприятии возникла из-за увеличения количества сохраняемых объявлений с сайта farpost.ru, неспособности существующей системы выполнять возложенные ранее на неё задачи и появления новых требований к системе.
Были поставлены следующие задачи:
- проанализировать рынок готовых программных продуктов для парсинга;
- рассмотреть языки программирования и СУБД используемые в системах для парсинга;
- разработать и оптимизировать новую структуру базы данных;
- разработать приложение для синтаксического анализа и записи данных в базу данных.
Объектом исследования выступает процесс синтаксического анализа информации и записи в базу данных информации по объектам недвижимости.
Предметом исследования в бакалаврской работе являются технологии для разработки приложения для синтаксического анализа и записи информации в базу данных.
В настоящее время на рынке имеется большое разнообразие готовых программных продуктов для синтаксического анализа содержимого сайтов – парсеров. Наиболее известными из этих программных решений являются:
- Content Downloder;
- SoftArm;
- Sjs;
- Parser;
- DataCol.
Данные программные продукты невозможно использовать в силу того, что они не имеют алгоритмов для анализа сайта farpost.ru, и не обладают требуемым функционалом. Разработка на заказ так же не решает проблему предприятия, так как после разработки на заказ предоставляется законченный программный продукт, изменение которого в последствии из-за появившихся требований предприятия или изменения в структуре сайта невозможно.
В результате анализа готовых программных продуктов было принято решение, что для самостоятельной разработки системы отвечающей нашим требованиям требуется разработать приложение для синтаксического анализа содержимого сайта, выбрать СУБД отвечающую предоставленным требованиям и разработать структуру для неё.
«Наиболее популярными языками программирования, при помощи которых обычно разрабатываются парсеры, на данный момент являются:
- PHP;
- Delphi;
- Perl;
- Ruby;
- Python;
- С#;
- C++» [1].
Популярность данных языков программирования связана с тем, что они имеют большое количество готовых средств для работы со структурой HTML-документов различной степени сложности работы с ними.
C# – объектно-ориентированный язык программирования. C# относится к семье языков с C-подобным синтаксисом, из них его синтаксис наиболее близок к C++ и Java. Язык имеет статическую типизацию, поддерживает полиморфизм, перегрузку операторов (в том числе операторов явного и неявного приведения типа), делегаты, атрибуты, события, свойства, обобщённые типы и методы, итераторы, анонимные функции с поддержкой замыканий, LINQ, исключения, комментарии в формате XML.
Переняв многое от своих предшественников – языков C++, Pascal, Модула, Smalltalk и, в особенности, Java – С#, опираясь на практику их использования, исключает некоторые модели, зарекомендовавшие себя как проблематичные при разработке программных систем, например, C# в отличие от C++ не поддерживает множественное наследование классов (между тем допускается множественное наследование интерфейсов) [2].
В связи с тем, что из стандарта языка убраны наиболее неприятные и неоднозначные особенности С++, но в то же время язык сохранил мощные возможности, присущие для таких языков, как С++, Java или VB, выбор был остановлен на данном языке программирования, как инструменте для разработки данной системы.
Для хранения данных было принято решение использовать клиент-серверную СУБД – MS SQL Server. Microsoft SQL Server – система управления реляционными базами данных (РСУБД), разработанная корпорацией Microsoft. Основной используемый язык запросов — Transact-SQL, создан совместно Microsoft и Sybase. Transact-SQL является реализацией стандарта ANSI/ISO по структурированному языку запросов (SQL) с расширениями. Используется для работы с базами данных размером от персональных до крупных баз данных масштаба предприятия; конкурирует с другими СУБД в этом сегменте рынка [3]. Выбор данной СУБД обоснован тем, что она имеет тесную интеграцию с другими программными продуктами от Microsoft и возможность экспорта и импорта данных в большинство распространенных форматов данных, что позволяет легко использовать MS SQL Server как центральное хранилище данных. Так же выбор связан с тем, что достаточно просто разрабатывать приложение для операционной системы Windows Server используя эту СУБД как хранилище данных, так как среда разработки на языке C# - Microsoft Visual Studio имеет встроенные средства для эффективной и быстрой настройки соединения между создаваемым приложением и СУБД.
Для данной системы анализа данных по недвижимости в процессе исследования была разработана структура таблиц для хранения информации каждого типа объявлений, в соответствии с требованиями заказчика о необходимых для сохранения данных. Каждая из таблиц имеет префикс, соответствующий их уникальной структуре для идентификации пользователями.
На основе разработанной структуры было разработано оконное приложение позволяющее: выбирать таблицу для сохранения информации, создавать таблицы для сохранения информации, выбирать директорию для анализа, нормализовать имена, сохраненных в директории HTML-документов, директорий, хранящих изображения из документов, и изменять ссылки на них, выбирать тип анализа соответственно выбранному типу таблицы, сохранять информацию в этих таблицах и выводить результаты анализа в интерфейсе приложения.
Доступ к системе анализа данных осуществляется при помощи оконного приложения на удаленных рабочих столах работников предприятия ООО «ЦОЭС», приложение связано с СУБД MS SQL Server находящимся на отдельном сервере. Данные в таблицы базы данных MS SQL Server в процессе работы парсера, приложение открывает каждый файл в директории, анализирует его содержимое, формирует SQL-запрос на добавление или обновление записи, в указанной для сохранения данных таблице. Запись в таблице включает в себя ссылку на файл в директории, который был анализирован, ссылка является первичным ключом таблицы, и так же набор полей, содержащих информацию из объявления, набор с информацией полей является уникальным для каждого типа объявлений, так как каждый из них, имеет некоторую общую, для каждого из типов, информацию, так и обладает индивидуальным набором данных, присущим только ему.
Реализованная система была проверена на различных по объему директориях, содержащих html-объявления различных типов недвижимости, и показала стабильную работу и приемлемые объем и качество получаемых данных в результате работы.
В целом, можно сказать, что введение данной системы увеличило скорость работы по сохранению информации в базу данных, увеличило качество получаемых данных, так же позволило более эффективно работать с получаемыми в результате анализа данными.
Список литературы:
- Парсинг: Что? Зачем? Как? [Электронный ресурс]. – Режим доступа: http://parsing.valemak.com/ (дата обращения: 25.05.2017)
- C# [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/C_Sharp (дата обращения: 25.05.2017)
- MS SQL Server [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Microsoft_SQL_Server (дата обращения: 25.05.2017)
дипломов
Оставить комментарий