Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXIV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 03 июля 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Красько А.А. РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ АНАЛИЗА ДАННЫХ ПО НЕДВИЖИМОСТИ (НА ПРИМЕРЕ ООО «ЦЕНТР ОЦЕНКИ ЭКСПЕРТИЗЫ СОБСТВЕННОСТИ», Г. ВЛАДИВОСТОК) // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. XXIV междунар. студ. науч.-практ. конф. № 13(24). URL: https://sibac.info/archive/meghdis/13(24).pdf (дата обращения: 21.09.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ АНАЛИЗА ДАННЫХ ПО НЕДВИЖИМОСТИ (НА ПРИМЕРЕ ООО «ЦЕНТР ОЦЕНКИ ЭКСПЕРТИЗЫ СОБСТВЕННОСТИ», Г. ВЛАДИВОСТОК)

Красько Андрей Александрович

студент, кафедра математики и моделирования, ВГУЭС,

РФ, г. Владивосток

Мазелис Андрей Львович

научный руководитель,

канд. физ.-мат. наук, доц., ВГУЭС,

РФ, г. Владивосток

Целью данного исследования является разработка информационной системы для анализа данных по недвижимости для предприятия ООО «Центр оценки экспертизы собственности». Данные по недвижимости предприятие получает из объявлений о продаже и аренде недвижимости сайта farpost.ru. Рассматриваются объявления четырех типов: о продаже земельных участков, о продаже недвижимости, об аренде недвижимости и о продаже квартир.

Необходимость разработки данный системы на предприятии возникла из-за увеличения количества сохраняемых объявлений с сайта farpost.ru, неспособности существующей системы выполнять возложенные ранее на неё задачи и появления новых требований к системе.

Были поставлены следующие задачи:

- проанализировать рынок готовых программных продуктов для парсинга;

- рассмотреть языки программирования и СУБД используемые в системах для парсинга;

- разработать и оптимизировать новую структуру базы данных;

- разработать приложение для синтаксического анализа и записи данных в базу данных.

Объектом исследования выступает процесс синтаксического анализа информации и записи в базу данных информации по объектам недвижимости.

Предметом исследования в бакалаврской работе являются технологии для разработки приложения для синтаксического анализа и записи информации в базу данных.

В настоящее время на рынке имеется большое разнообразие готовых программных продуктов для синтаксического анализа содержимого сайтов – парсеров. Наиболее известными из этих программных решений являются:

- Content Downloder;

- SoftArm;

- Sjs;

- Parser;

- DataCol.

Данные программные продукты невозможно использовать в силу того, что они не имеют алгоритмов для анализа сайта farpost.ru, и не обладают требуемым функционалом. Разработка на заказ так же не решает проблему предприятия, так как после разработки на заказ предоставляется законченный программный продукт, изменение которого в последствии из-за появившихся требований   предприятия или изменения в структуре сайта невозможно.

В результате анализа готовых программных продуктов было принято решение, что для самостоятельной разработки системы отвечающей нашим требованиям требуется разработать приложение для синтаксического анализа содержимого сайта, выбрать СУБД отвечающую предоставленным требованиям и разработать структуру для неё.

«Наиболее популярными языками программирования, при помощи которых обычно разрабатываются парсеры, на данный момент являются:

- PHP;

- Delphi;

- Perl;

- Ruby;

- Python;

- С#;

- C++» [1].

Популярность данных языков программирования связана с тем, что они имеют большое количество готовых средств для работы со структурой HTML-документов различной степени сложности работы с ними.

C# –  объектно-ориентированный язык программирования. C# относится к семье языков с C-подобным синтаксисом, из них его синтаксис наиболее близок к C++ и Java. Язык имеет статическую типизацию, поддерживает полиморфизм, перегрузку операторов (в том числе операторов явного и неявного приведения типа), делегаты, атрибуты, события, свойства, обобщённые типы и методы, итераторы, анонимные функции с поддержкой замыканий, LINQ, исключения, комментарии в формате XML.

Переняв многое от своих предшественников – языков C++, Pascal, Модула, Smalltalk и, в особенности, Java – С#, опираясь на практику их использования, исключает некоторые модели, зарекомендовавшие себя как проблематичные при разработке программных систем, например, C# в отличие от C++ не поддерживает множественное наследование классов (между тем допускается множественное наследование интерфейсов) [2].

В связи с тем, что из стандарта языка убраны наиболее неприятные и неоднозначные особенности С++, но в то же время язык сохранил мощные возможности, присущие для таких языков, как С++, Java или VB, выбор был остановлен на данном языке программирования, как инструменте для разработки данной системы.

Для хранения данных было принято решение использовать клиент-серверную СУБД – MS SQL Server. Microsoft SQL Server – система управления реляционными базами данных (РСУБД), разработанная корпорацией Microsoft. Основной используемый язык запросов — Transact-SQL, создан совместно Microsoft и Sybase. Transact-SQL является реализацией стандарта ANSI/ISO по структурированному языку запросов (SQL) с расширениями. Используется для работы с базами данных размером от персональных до крупных баз данных масштаба предприятия; конкурирует с другими СУБД в этом сегменте рынка [3]. Выбор данной СУБД обоснован тем, что она имеет тесную интеграцию с другими программными продуктами от Microsoft и возможность экспорта и импорта данных в большинство распространенных форматов данных, что позволяет легко использовать MS SQL Server как центральное хранилище данных. Так же выбор связан с тем, что достаточно просто разрабатывать приложение для операционной системы Windows Server используя эту СУБД как хранилище данных, так как среда разработки на языке C# - Microsoft Visual Studio имеет встроенные средства для эффективной и быстрой настройки соединения между создаваемым приложением и СУБД.

Для данной системы анализа данных по недвижимости в процессе исследования была разработана структура таблиц для хранения информации каждого типа объявлений, в соответствии с требованиями заказчика о необходимых для сохранения данных. Каждая из таблиц имеет префикс, соответствующий их уникальной структуре для идентификации пользователями.

На основе разработанной структуры было разработано оконное приложение позволяющее: выбирать таблицу для сохранения информации, создавать таблицы для сохранения информации, выбирать директорию для анализа, нормализовать имена, сохраненных в директории HTML-документов,  директорий, хранящих изображения из документов, и изменять ссылки на них, выбирать тип анализа соответственно выбранному типу таблицы, сохранять информацию в этих таблицах и выводить результаты анализа в интерфейсе приложения.

Доступ к системе анализа данных осуществляется при помощи оконного приложения на удаленных рабочих столах работников предприятия ООО «ЦОЭС», приложение связано с СУБД MS SQL Server находящимся на отдельном сервере. Данные в таблицы базы данных MS SQL Server в процессе работы парсера, приложение открывает каждый файл в директории, анализирует его содержимое, формирует SQL-запрос на добавление или обновление записи, в указанной для сохранения данных таблице. Запись в таблице включает в себя ссылку на файл в директории, который был анализирован, ссылка является первичным ключом таблицы, и так же набор полей, содержащих информацию из объявления, набор с информацией полей является уникальным для каждого типа объявлений, так как каждый из них, имеет некоторую общую, для каждого из типов, информацию, так и обладает индивидуальным набором данных, присущим только ему. 

Реализованная система была проверена на различных по объему директориях, содержащих html-объявления различных типов недвижимости, и показала стабильную работу и приемлемые объем и качество получаемых данных в результате работы.

В целом, можно сказать, что введение данной системы увеличило скорость работы по сохранению информации в базу данных, увеличило качество получаемых данных, так же позволило более эффективно работать с получаемыми в результате анализа данными.

 

Список литературы:

  1. Парсинг: Что? Зачем? Как? [Электронный ресурс]. – Режим доступа: http://parsing.valemak.com/ (дата обращения: 25.05.2017)
  2. C# [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/C_Sharp (дата обращения: 25.05.2017)
  3. MS SQL Server [Электронный ресурс]. – Режим доступа:  https://ru.wikipedia.org/wiki/Microsoft_SQL_Server (дата обращения: 25.05.2017)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.