Système d'exploitation: Windows
Éditeur: Opilion Software
Contrôle antivirus: a passé
HTML Cleaner est un puissant parseur HTML open source écrit en Java. Le code HTML contenu dans les pages web est généralement "sale", est médiocrement formé et ne convient pas pour un traitement ultérieur. Pour son utilisation ultérieure, il est nécessaire de le mettre en ordre d'abord, d'organiser et de formater les balises, les attributs et le texte habituel. Le programme prend le document HTML original et le refait, et organise également le contenu en accord avec les standards. En sortie, on obtient un document XML bien formé. Par défaut, le programme suit des règles qui sont très similaires à celles appliquées par la majorité des navigateurs web modernes lors de la création du modèle d'objet du document.
HTML Cleaner peut être utilisé lors du travail avec le code Java, en tant que ligne de commande ou tâche Ant. Il a été conçu comme un petit programme, indépendant d'autres packages (sauf JRE), rapide et flexible. L'objectif principal des développeurs était de créer une application qui préparerait le code HTML pour un traitement ultérieur en XPath, XQuery et XSLT.
HTML Cleaner améliore l'efficacité en transformant un HTML désorganisé et mal structuré en XML bien formé et facilement exploitable.
- Traitement automatique rapide et génération de documents HTML;
- possibilité de spécifier le type de fichier final;
- large gamme d'options pour définir les paramètres;
- vous pouvez exécuter plusieurs copies du programme simultanément;
- peut être utilisé pour le code Java;
- dépendance sur un seul package (JRE 1.5+).