Обработка HTML

Чтобы завершить обсуждение примера HTML-документа, рассмотрим задачу выделения из адреса почтового кода. Вот алгоритм (приблизительный) нахождения почтового кода в разметке HTML:

Если вы нашли параграф с двумя тегами <br>, почтовый код является вторым словом после первой запятой после второго тега разрыва.

Хотя этот алгоритм и работает с данным примером, есть много правильных адресов во всем мире, с которыми он работать не будет. Даже если вы сможете написать алгоритм, который будет находить почтовый код для любого адреса, записанного в HTML, может быть сколько угодно параграфов с двумя тегами разрыва, которые не содержат адресов вообще. Написание алгоритма который ищет в любом параграфе HTML и находит в нем любой почтовый код должно быть очень трудным, если не невозможным.

Содержание раздела