Malé radosti enterprise developera

středa 3. března 2010

Anketa: Jakým způsobem řešíte verzování datového modelu?

V anketě o používaných způsobech verzovaní datového modelu se sešlo 23 hlasů. Díky za ně. Jasným vítězem jsou "skripty v svn", na druhém místě potom vlastní nástroj pro verzování datového modelu.

Zájemcům o řešení, které může snížit režii spojenou s verzováním a správou modelu, doporučuji svůj přehledový článek o nástroji LiquiBase.

sobota 20. února 2010

Unit testy nad in-memory databází

V poslední době jsem několikrát narazil na otázku testování dao tříd a volby databáze, nad kterou testy běží. Překvapilo mě, jak kontroverzní otázka to je a jak vyhraněné názory na ni existují. Testujete dao třídy? Píšete unit testy pro cílovou databázi nebo používáte nějakou in-memory variantu jako HSQL? Mají testy s jinou než cílovou databází smysl? Na tyto a související otázky se pokusí odpovědět tento článek.

Testování dao tříd

Předně bych chtěl říct, že rozhodně jsem zastáncem psaní testů dao tříd. Ať už na projektu používáte ORM, přímý přístup přes JDBC nebo objektovou databázi, dao třídy obsahují množství kódu, jehož funkčnost je třeba ověřit. Správnost mapování, skládání dotazů, zpracování result setů, řešení krajních stavů nebo třeba odolnost vůči sql injection mohou být faktory, na které se typický test zaměří. Možnost použití jiné než cílové databázi (tou myslím databázi - Oracle, MySql, ... - která bude použitá v produkčním prostředí) zásadně závisí na tom, jestli se v kódu dao tříd vyskytuje konkrétní sql dialekt. Pokud se dotazujeme přímo přes JDBC a používáme pokročilé vlastnosti databáze, těžko můžeme dao třídy nechat běžet nad něčím jiným. Jaké jsou tedy důvody, které mohou někoho vést k psaní unit testů nad in-memory databází?

Proč vůbec in-memory databázi používat?

Někdy mohou být zásadní náklady na vytvoření a správu testovacího prostředí. U běžně používaných databází (MySql, Oracle, PostgreSql, ...) většinou nepředstavuje další udržovaná instance velký problém. Existují ale výjimky. Setkal jsem se například s prostředím, kdy byl v produkci použitý Informix a kde vytvoření "další" instance nebylo snadné. Požadavek na novou instanci neznamenal konečnou, ale byl dost nákladný na to, aby ospravedlnil hledání jiných možností.

Dalším důvodem jsou (ne)závislosti, které unit testy potřebují ke svému běhu. V některých prostředích je výhodnější, když unit testy potřebují ke svému běhu jenom svůj a testovaný kód, nikoliv závislosti na dalších systémech včetně databáze. S tím úzce souvisí i opakovatelnost testů, resp. opakovatelnost očekávaného výsledku. Testy nad cílovou databází mohou být citlivější na změny a chyby v testovacích datech, pokud už data před testem obsahují.

Často diskutovaným důvodem je také rychlost spouštění testů. Zastánci testů nad in-memory databází někdy vyzdvihují jejich rychlost, kdy testy nad nimi běží údajně výrazně rychleji než nad cílovou databází. Já tento argument neuznávám. V případě in-memory databáze musíme vedle běhu samotného testu do výsledku započítat určitě vytvoření datového modelu, případně inicializaci dat a to jsou akce, které mohou něco stát.

Unit nebo integrační?

Jsou testy dao tříd nad databází unit testy nebo spíš testy integrační? Odpověď na tuto otázku nemusí ležet v kódu testů, ale v náhledu na ně. Pokud na test nad in-memory databází nahlížíme jako na unit test, můžeme in-memory databázi chápat jako stub, který prostě nahrazuje jednu závislost a dovoluje testu běžet v "izolaci". To je chápání, které je mi blízké. Pokud ale takový přístup nazveme integračním testem, nabízí se otázka jakou má takový test vypovídající hodnotu? O funkčnosti dao třídy toho může test hovořit hodně, ale o integraci s produkční databází velmi málo. Proto testy dao tříd nad in-memory databází za integrační nepovažuji.

Závěr

Jsem zastáncem testů nad in-memory databází tam, kde to má smysl. Dobrými důvody jsou pro mě náklady na správu testovacího prostředí a nezávislost unit testů na dalších systémech.

Testujete na svých projektech dao třídy? Jakou databázi k testům používáte? Cítíte rozpor mezi použitím cílové databáze něbo nějaké in-memory varianty? Podělte se o své názory a zkušenosti v diskuzi pod článkem. Pokud přemýšlíte o tom, jak vytvořit a spravovat datový model pro testy, můžete se podívat na můj článek o nástroji LiquiBase. Pokud řešíte inicializaci dat pro testy, můžete některé odpovědi nalézt v článku o inicializaci databázových dat.

neděle 31. ledna 2010

Verzování datového modelu a LiquiBase

Přidávání tabulek, sloupců, integritních omezení, přejmenovávání a štěpení tabulek, konfigurace vývojového, testovacího a produkčního prostředí... Je mnoho požadavků, které mají vliv na podobu datového modelu. V tomto blogu zkusím popsat běžné činnosti týkající se správy relačního datového modelu a stručně představit nástroj LiquiBase. Článek je volným pokračováním předchozího příspěvku Inicializace databázových dat prostředky Javy.

Různá prostředí kladou na správu datového modelu různé nároky - přizpůsobitelnost, nezávislost na konkrétní databázi, použitelnost pro testy nebo verzování. Krátce jsem je popsal v předchozím příspěvku. Jaké jsou běžné činnosti, které se správou datového modelu souvisí? Samozřejmě potřebujeme evidovat jakékoliv změny formou nějakého changelogu. V jistou chvíli je nutné změny z changelogu aplikovat na nějaký existující model - provést jeho aktualizaci. Někdy může být nutné naopak změny odstranit - provést jejich rollback. Při kvapném rozvoji datového modelu přijde vhod možnost porovnat dva modely. Při zavádění verzování je užitečná možnost reverzního vytvoření changelogu z existující databáze. A v neposlední řadě je dobré mít změny dobře zdokumentované.

Právě na tyto činnosti se zaměřili tvůrci nástroje LiquiBase. Než se k němu ale dostanu, popíšu napřed alternativní možnosti. Změny datového modelu se tradičně dají organizovat pomocí sql skriptů verzovaných nějakým scm nástrojem (jako je třeba Subversion). Pro každou změnu datového modelu se připraví samostatný sql skript, který se prostě vloží do scm systému. Jeho revize potom dovolí vybrat správnou množinu skriptů, které někdo ručně spustí. Některé firmy nedají dopustit na nástroje, které si vyvinuly svépomocí a které dovolí správu modelu alespoň částečně automatizovat. I správa datového modelu je doménou, na které se dá vydělávat a kterou řeší komerční nástroje.

LiquiBase

Na nových projektech se snažím používat LiquiBase. Je to nástroj, který mě zaujal svým úzkým zaměřením (neřeší nic, co by se správou datového modelu nesouviselo), snadnou přístupností (začlenění do vývojového procesu je jednoduché a přímočaré) a perfektní dokumentací. Nebudu suplovat dokumentaci LiquiBase a tutoriály přístupné z jeho webu, chci nástroj jenom stručně představit.

Changelog

Klíčový konceptem je changelog - xml soubor obsahující změny, zvané changesety. Změnou je třeba založení tabulky, přidání sloupce nebo vytvoření indexu. Každá změna je identifikovaná dvojicí (id,author). Changelog představuje historii změn datového modelu, ale neříká nic o tom, jak vypadají konkrétní instance modelu. Proto LiquiBase potřebuje, aby každý spravovaný mode obsahoval tabulku DatabaseChangeLog(id,author,filename,dateexecuted,...), která eviduje changesety aplikované na model.

Příklad changelogu:

<databaseChangeLog

xmlns="http://www.liquibase.org/xml/ns/dbchangelog/1.6"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.liquibase.org/xml/ns/dbchangelog/1.6

http://www.liquibase.org/xml/ns/dbchangelog/dbchangelog-1.6.xsd">

</column>

</column>

</createTable>

</changeSet>

</databaseChangeLog>

Changelog neobsahuje identifikaci databáze nebo chcete-li dialektu. Ten se zadává až při spouštění update a rollback příkazů. Pokud nemáme příliš specifické požadavky, můžeme tedy jeden changelog použít např. pro testovací MySQL nebo produkční Oracle. Vedle předdefinovaných příkazů mohou changesety obsahovat i sql skripty nebo odkazy na ně.

Podporované jsou tyto databáze:

MySQL, PostgreSQL, Oracle, MS-SQL, Sybase Enterprise, Sybase Anywhere, DB2, Apache Derby, HSQL, H2, InterSystems Caché, Firebird, MaxDB / SAPDB, SQLite.

A tyto předdefinované operace (refactorings):

Structural Refactorings - Add Column, Rename Column, Modify Column, Drop Column, Alter Sequence, Create Table, Rename Table, Drop Table, Create View, Rename View, Drop View, Merge Columns, Create Stored Procedure
Data Quality Refactorings - Add Lookup Table, Add Not-Null Constraint, Remove Not-Null Constraint, Add Unique Constraint, Drop Unique Constraint, Create Sequence, Drop Sequence, Add Auto-Increment, Add Default Value, Drop Default Value
Referential Integrity Refactorings - Add Foreign Key Constraint, Drop Foreign Key Constraint, Add Primary Key Constraint, Drop Primary Key Constraint
Architectural Refactorings - Create Index, Drop Index
a další

LiquiBase je možné používat i na nepodporované databázi. Pokud pro ni nefungují některé z předdefinovaných operací, může changeset jednoduše obsahovat specifický sql kód.

Changelog můžeme udržovat ručně, vytvořit reverzně z existujícího modelu nebo použít podporu v IDE. Dobře funguje plugin pro IntelliJ IDEA a deklarovaná je i podpora pro Eclipse. Plugin pro Eclipse se mi ale nepodařilo zprovoznit.

Update a rollback

Základní příkazy pro aplikaci, resp. mazání změn, jsou update a rollback. Spouští se z příkazové řádky, z mavenu, z antu nebo třeba z IDE. Příkaz update aplikuje všechny nové changesety na existující model. To, jestli je daný changeset nový nebo již aplikovaný, pozná podle záznamů v tabulce DatabaseChangeLog. Příkaz rollback bere jako vstupní parametr identifikaci changesetu a všechny novější změny z modelu odstraní (pokud je to možné).

Dalšími užitečnými funkcemi jsou například

Diff - porovnání dvou databází a vytvoření changelogu.
DBDoc - vytvoří html manuál s popisem všech změn datového modelu.
nebo SQL výstup, který changlog převede na SQL skript.

Alternativy

migrate4j nebo dbmigrate jsou nástroje s podobným zaměřením jako LiquiBase. Vývojáři Ruby asi budou znát Ruby Migrations.

Shrnutí

Článek chtěl popsat požadavky na evidenci změn datového modelu a ukázat, že s LiquiBase lze s malým úsilím změny organizovat lépe než jako "skripty v svn". Jak změny datového modelu organizujete vy? Máte bližší zkušenosti s nástrojem LiquiBase nebo jiným podobným? Podělte se o své názory v diskuzi pod článkem a zapojte se do hlasování.

středa 4. listopadu 2009

Inicializace databázových dat prostředky Javy

Končí inicializace databáze vytvořením tabulek a integritních omezení? Jak ji naplnit nezbytnými daty? Téměř každá aplikace potřebuje k práci nějaké ty číselníky, role, přístupová práva, uživatele a další data. V tomto blogu zkusím popsat, co může inicializace dat v relační databázi znamenat a jak pro ni výhodně použít prostředky Javy.

Článek je psán s ohledem na běžný projekt, který pracuje nad relačními daty (ne nad objektovou databází, ne nad geografickými daty a pod.), kde objem inicializačních dat není extrémně velký (nebudu popisovat inicializaci dat v obrovském datovém centru), kde v databázi není implementovaná žádná logika a kde si persistenci řeší aplikace (ORM, sql, ...).

Budu předpokládat, že už máme založenou databázi a v ní vytvořený datový model. Vytvoření datového modelu může být sama o sobě zajímavá otázka, hlavně s ohledem na jeho vývoj, aktualizace a udržování změn. Dnes mě ale bude zajímat pouze inicializace dat. Co od ní můžeme požadovat?

Přizpůsobitelnost - Můžeme si představit aplikaci, která je instalovaná u několika zákazníků, typicky mnoha. O datech pak můžeme mluvit jako o obecných a zákaznicky specifických. Jak inicializovat zákaznicky specifická data? Je dobré mít inicializaci dat rozdělenou na inicializaci těch obecných a s ní konzistentní způsob na inicializaci zákaznických rozšíření.
Nezávislost na konkrétní databázi - Jsou aplikace, typicky produktová řešení, které je možné provozovat na různých databázích (ve smyslu Oracle, MySql, ...). Nemusí to být vždy možné, ale určitě by bylo výhodné mít společný způsob inicializace dat použitelný pro každou z nich.
Použitelnost pro testy - Unit testy vyžadující databázi také potřebují mít inicializovaná data. Typicky vyžadují podmnožinu z dat produkčních (číselníky...) a nějaká data specifická pro testy. Navíc, různé testy mohou potřebovat různá testovací data. Různé testy si tak můžeme představit jako různé zákazníky a testovací data rozdělit na obecná a specifická pro konkrétní test. Bylo by hezké mít jeden způsob, jak přistoupit k inicializaci produkčních i testovacích dat.
Testovatelnost - Také v datech mohou být chyby. Bylo by dobré mít způsob, jak správnost inicializace dat otestovat.
Verzování a správa změn - Tak, jak se vyvíjí aplikace, mohou se vyvíjet i data, se kterými pracuje. Přirozeným požadavkem se zdá být možnost verzování změn inicializačních dat.
Přehlednost a udržovatelnost - Stejně jako zdrojové kódy nebo jiné artefakty, i data a jejich inicializace chceme mít dobře organizovaná a inicializační proceduru přiměřeně jednoduchou a dlouhodobě udržovatelnou.
A další... Samozřejmě existuje spousta dalších kritérií, která můžeme po inicializaci požadovat. Snažil jsem se shrnout ta, která jsou zajímavá pro další text.

Jak se inicializace dat řeší? Shrnu ty způsoby, které jsem si na projektech vyzkoušel a které mi přijdou jako nejčastěji používané.

Dump celé databáze

Dost často se databáze průběžným vývojem přivede do stavu, který odpovídá požadavkům na produkční prostředí, a pak se pořídí její dump. Ten se v cílovém prostředí celý naimportuje. Problémem může snaha o podporu více databází - jak ve smyslu Oracle, MySql, tak podle zákazníků. Různé varianty vyžadují existenci různých dumpů, tedy i databází, ze kterých dump vytvoříme. Naopak výhodou je rychlost importu dat. Otázkou je, nakolik je pro nás rychlost inicializace důležitá. Dumpy se často kombinují s sql skripty, které databázi po importu dumpu aktualizují. Přehlednost, udržovatelnost, použitelnost pro testy, verzování, ... také vidím jako obtížné.

Sql skripty

Data můžeme do databáze přirozeně vložit sql skripty. Typicky ale nestačí "dlouhý seznam insertů", skripty mohou vypadat o dost složitěji. U složitěji provázaných dat (na úrovni doménového modelu bych řekl "grafů objektů") mohou skripty obsahovat hodně práce s proměnnými, cykly, někdy i funkce nebo celé balíčky funkcí. Zajímá mě inicializace dat na projektu, kde si perzistence řeší aplikační vrstva a taková spousta sql kódu jenom pro inicializaci dat je tedy nechtěná. Přehlednost a udržovatelnost sql skriptů také stojí hodně úsilí.

Speciální nástroj na správu a migraci dat

Existují nástroje, které inicializaci a obecně správu a migraci dat komplexně řeší. Příkladem může být třeba Embarcadero Change Manager. Vedle ceny může být u takových nástrojů limitující i způsob, jak práci s nimi zaintegrovat s našimi dalšími nástroji (IDE, maven, ...) a vývojovým procesem. Příklad nebo hodnocení komerčních nástrojů je ale mimo rozsah tohoto článku.

Java + ORM

Na několik posledních projektech jsme inicializaci dat prováděli z prostředí Javy. Máme-li doménový model, který data plně popisuje, můžeme libovolná data instancemi tříd z doménového modelu reprezentovat (od toho doménový model máme, že...). Inicializace dat se tak převedla na inicializaci doménového modelu. A to už je otázka pro Javu, kde to umím řešit přehledně a dlouhodobě udržovatelně a to i pro velmi složité "grafy objektů". Dobrý nápad je zestručnit výřečný Java kód pro inicializace použitím nějakého dynamického jazyka, výhodné může být třeba Groovy.

Pro řešení persistence na projektech používáme nejčastěji Hibernate, máme tedy pro doménový model vytvořené mapování. Zapsat instance tříd z doménového modelu do databáze je potom triviální úkol. Řeším inicializaci a chci tedy řešit hlavně "data", algoritmus zápisu mi kód nebude znepřehledňovat.

Podle některých učebnic by asi inicializace dat neměla záviset na kódu, který data posléze bude využívat, ale v závislosti na doménovém modelu a mapování nic špatného nevidím. Pokud na projektu není použité ORM a persistenci řeší DAO třídy třeba s využitím JDBC nebo jakkoliv jinak, ani závislost na DAO vrstvě nemusí být problém.

Použití ORM je výhodné i v případech, kdy se vytváří nějaké produktové řešení a je nutnost podporovat více databází. Hibernate se svými dialekty mi proto velmi vyjde vstříc.

Pro některé typy dat může být výhodné reprezentovat jejich inicializační hodnoty mimo Java kód. Řešíme tak třeba číselníky. Máme je reprezentované jednoduchým XML formátem a v Javě napsaný jeho parser a konvertor do doménového modelu. XML je výhodné i v tom, že obsah XML souborů může generovat nebo kompilovat z různých zdrojů automaticky.

Shrnutí

Popsané způsoby a jejich vztah k požadavkům na inicializaci dat si můžeme shrnout v následující tabulce.

	Přehlednost a udržovatelnost	Přizp.	Nezávislost na konkrétní db	Použitelnost pro testy	Testovatelnost	Verzování a správa změn
Dump	subjektivní, imho ne	obtížně	různé dumpy pro různé db	obtížně	ano	obtížně
Sql	subjektivní, imho ne	obtížně	různé skripty pro různé db	obtížně	ano	ano
Java + ORM mapování	subjektivní, imho ano	ano	ano	ano	ano	ano

Tabulka samozřejmě přináší značně subjektivní zhodnocení, ale ukazuje, proč dávám přednost variantě s Javou a mapováním.

Článek neměl ambici encyklopedicky popsat všechny možné způsoby inicializace. Chtěl jsem shrnout ty přístupy, se kterými jsem se setkal a vysvětlit, proč mi přijde výhodné provádět inicializaci prostředky Javy. Jako každé řešení to má své výhody i nevýhody. Myslíte, že je inicializace dat prostředky Javy dobrý nápad? Používáte podobný postup taky? Podělte se o své názory a nápady v diskuzi pod článkem.

V příštím blogu se podívám na to, jak přistoupit k založení datového modelu a jak zvládnout jeho vývoj a aktualizace včetně aktualizací dat. Představím také zajímavý nástroj LiquiBase.

pondělí 26. října 2009

Hledání země nezemě

Kódy zemí, měn, bank, názvy měst a vesnic, poštovní směrovací čísla… Většina aplikací pracuje s nějakými číselníky. Kde ale vzít jejich hodnoty a nekrást? Pro firemní blog jsem napsal článek o několika zdrojích dat, které se mi osvědčily na nedávném projektu.

http://www.aspectworks.com/cs/blog/2009/10/hledani-zeme-nezeme

středa 30. září 2009

Práce s číselníkovými hodnotami

V tomto příspěvku s lehce nudným názvem bych se rád pokusil o svěží zamyšlení nad prací s číselníkovými hodnotami. Konkrétně mě bude zajímat porovnávání číselníkových hodnot a rozhodování podle číselníkových hodnot v obchodní logice. Mám na mysli otázky typu „Jak zpracovat adresu typu 'sídlo firmy'?“ nebo například „Jak vypočítat provizi podle schématu 'fixní procentní podíl'?“ Je to další profláknuté a docela jednoduché téma a na většině projektů asi není nutnost „zamýšlet se“ nad ním. Zároveň ale platí, že na většině projektů, u kterých jsem byl, by se porovnávání číselníkových dalo řešilo o dost přehledněji a čitelněji, což mě nakonec po troše váhání vedlo k napsání tohoto příspěvku.

Co je číselník

Číselníkovou položkou myslím třídu,

která je perzistentní
a má minimálně atributy reprezentující kód, se kterým může pracovat obchodní logika,
a text, případně odkaz na jazykový text (tzn. českou, anglickou, … verzi), který se zobrazuje uživateli.

Mějme takovou číselníkovou položku reprezentovanou třídou AbstractCatalogEntity.

public abstract class AbstractCatalogEntity {
private Long id;
private String code;
private String label;
...
}

Tento text neřeší:

Jestli je o hodnotách, které chci porovnávat, lepší mluvit jako o „kódech“ nebo třeba „klíčích“.
Jestli má být odkaz na číselník realizován přes „id“ nebo „code“.
Jestli mají mít číselníkové položky platnost a jestli ji má porovnávání hodnot zohledňovat.
Další související otázky.

Opravdu bude zajímat pouze vyhodnocování stringového kódu, tedy atributu code.

Příklad

Budu používat jednoduchý příklad s číselníkem států, číselníkem typů adres, adresou a vazbou na adresu.

public class Country extends AbstractCatalogEntity { }
public class AddressType extends AbstractCatalogEntity { }

public class Address {
private Long id;
private Country country;
private String city;
private String street;
private String postcode;
...
}
public class AddressLink {
private Long id;
private AddressType addressType;
private Address address;
private String note;
...
}

Adresa má vlastnost country ukazující do číselníku zemí. Číselník zemí je příklad toho, kdy v obchodní logice potřebujeme vyhodnocovat pouze jednu nebo několik položek číselníku a ostatní nás víceméně nezajímají. Příklady budou zjišťovat, jestli je daná country rovna České republice (tedy jestli je daná adresa v Česku).
Vazba na adresu má vlastnost addressType určující typ adresy – tzn. jestli je daná adresa adresou sídla firmy, adresou fakturační nebo třeba adresou pobočky. Odpovídající číselník typů adres je příkladem toho, kdy se budou v obchodní logice vyhodnocovat všechny jeho položky. Podle typu adresy se může zpracování adresy lišit.

Stringové literály bez konstant

Přímočarým řešením je porovnávat číselníkové kódy na očekávanou hodnotu všude tam, kde je to třeba.

Assert.assertEquals(“CZ”, address.getCountry().getCode());

Java kód plný stringových literálů ale není můj ideál, proto od tohoto způsobu radši rychle pryč. Každé řešení je ale dobré nebo špatné vždy v určitém kontextu, proto jsem pro úplnost zmínil i tuto variantu.

Stringové konstanty v doménové třídě

Dalším krůčkem k lepšímu řešení může být zavedení konstant v doménových třídách reprezentujících číselníky:

public class Country extends AbstractCatalogEntity {
public static final String CZECH_REPUBLIC = "CZ";
}

Samotný kód tedy máme definovaný na jednom místě. Jeho případné změny jsou bezbolestné, snadno můžeme vyhledávat všechna jeho použití.

Assert.assertEquals(Country.CZ, address.getCountry().getCode());

Stále ale porovnáváme řetězce a to nemusí být vždy vhodné.

Má smysl porovnávat kódy?

Má tedy porovnávání kódu vůbec smysl? No, číselníkové kódy máme reprezentované jako řetězce, takže někde se ty řetězce porovnávat musí. Otázka byla míněna jinak – má smysl porovnávat kódy v obchodní logice? Domnívám se, že ne a proto se dostáváme k dalšímu řešení.

Doménová třída s isX metodami

V obchodní logice je porovnávání číselníkových kódů typicky velmi „malým“ problémem a jeho realizace by teda mohla být podobně úsporná a čitelná. Typicky tam nejsou důležité otázky typu „jestli je daný kód rovný jinému kódu“, ale spíš jestli daný kód nebo instance doménové třídy splňuje vlastnost reprezentovanou daným číselníkovým kódem. Můžeme si proto představit následující drobné rozšíření doménových tříd.

public class AddressLink {
public static final String RESIDENCE = "RESIDENCE";
public static final String INVOICE = "INVOICE";
public static final String BRANCH = "BRANCH";
….
public boolean isResidence() {
return addressType != null && RESIDENCE.equals(addressType.getCode());
}
public boolean isInvoice() {
return addressType != null && INVOICE.equals(addressType.getCode());
}
}

IsX metody rozhodnou, jestli daná doménová třída splňuje vlastnost reprezentovanou číselníkovým kódem. Na pozadí samozřejmě musí dojít k porovnání číselníkových kódů, obchodní logiku tím ale nemusíme zatěžovat.

Assert.assertTrue(addressLink.isResidence());

Alternativně můžeme tyto konstanty a metody umístit do třídy AddressType. Záleží víceméně na osobním vkusu.

Oddělení definice číselníku od jeho hodnot

Jsou případy, kdy je nutné oddělit definici číselníků od jejich hodnot. Někdy není žádoucí aby např. třída AddressType znala svoje možné hodnoty, to znamená obsahovala konstanty s možnými hodnotami číselníkových kódů. Příkladem mohou být projekty, kdy jsou číselníkové a doménové třídy součástí nějakého frameworku nebo komponenty a mohou mít na různých zákaznických projektech různé hodnoty. Tomuto požadavku se bude věnovat zbytek článku.

Stringové konstanty v k tomu určeném rozhraní

Pokud nechceme, aby doménové třídy znaly číselníkové kódy, můžeme kódy umístit třeba do k tomu určenému rozhraní.

public interface IAddressTypeCodes {
String RESIDENCE = "RESIDENCE";
String INVOICE = "INVOICE";
String BRANCH = "BRANCH";
}

Po předchozí argumentaci je jasné, že nejsem nakloněn porovnávání kódů přímo v obchodní logice. Toto řešení ale uvádím jako nejčastěji používané (z toho, co jsem měl možnost vidět) a jako řešení, které jsem dříve automaticky používal taky. 'I' je v názvu rozhraní jenom proto, abych ho odlišil od dalších příkladů.

Rozhraní?

Někdo může namítnout, že rozhraní reprezentuje kontrakt mezi jeho implementací a klientským kódem a že proto není vhodné používat jej jako kontejner na stringové konstanty. A bude mít pravdu. Jsou číselníkové kódu součástí takového kontraktu? Ano i ne. Tento faktor chápu jako dost subjektivní, ale kloním se k tomu, že do rozhraní číselníkové kódy nepatří. Otázka typu „A proč to máš v rozhraní?“ vlastně vedla ke vzniku tohoto příspěvku.

Enum s match metodou

Od Javy 1.5 je přirozeným prostředkem k evidování konstant typ enum. Pouhé vyjmenování číselníkových kódů ale mnoho neřeší. Je vhodné vyžadovat, aby obchodní logika volala metody typu Country.getCode nebo AddressType.getCode? Jinými slovy, je vhodné, aby obchodní logika „znala“ vnitřní strukturu číselníků? Rozhodně to není nutné. Enum může vedle číselníkových hodnot obsahovat i prostředky k jejich porovnání. Takovým prostředkem může být metoda match:

public enum ECountryCodes {
CZ;

public boolean match(Country country) {
return country != null && name().equals(country);
}
}

Místo podmínek typu

Assert.assertTrue(ECountryCodes.CZ.equals(address.getCountry().getCode()));

tak můžeme dostat výrazně přehlednější kód

Assert.assertTrue(ECountryCodes.CZ.match(address.getCountry()));

Opět, 'E' je v názvu enumu jenom proto, abych ho odlišil od ostatních příkladů.

Enum s isX metodami

Abychom se úplně vyhnuli porovnávání a mohli vyhodnocovat jenom to, jestli daná instance doménové třídy splňuje vlastnost reprezentovanou číselníkovým kódem, můžeme opět použít isX metody.

public enum EAddressTypeCodes {
RESIDENCE, INVOICE, BRANCH;

public static boolean isResidence(AddressType addressType) {
return RESIDENCE.match(addressType);
}
public static boolean isInvoice(AddressType addressType) {
return INVOICE.match(addressType);
}
public static boolean isBranch(AddressType addressType) {
return BRANCH.match(addressType);
}
public boolean match(AddressType addressType) {
return addressType != null && name().equals(addressType.getCode());
}
}

Vyhodnocení číselníkových hodnot potom konečně vypadá celkem elegantně.

Assert.assertTrue(EAddressTypeCodes.isResidence(addressLink.getAddressType()));

Navíc, isX metody samozřejmě nemusí mít jako vstupní parametry jenom samotné číselníkové třídy, pro pohodlné použití a úspornější volání mohou obsahovat například i metody isCzechRepublic(Address) nebo isResidence(AddressLink).

Závěr

Tolik jednoduché zamyšlení nad porovnáváním číselníkových hodnot. Nekladl jsem si za cíl přinést úplný výčet všech myslitelných řešení, šlo mi o to popsat posloupnost úvah, které vedou k mnou preferovanému řešení – enumu s isX metodami.

Jak porovnávání číselníkových hodnot řešíte vy? Podělte se o své nápady a zkušenosti v diskuzi pod článkem.

čtvrtek 10. září 2009

Závislosti polí ve formuláři a Drools

Ve druhé části blogu o závislostech polí ve formuláři bych rád navázal na předchozí úvahy a ukázal, jak postup popsaný v první části implementovat s pomocí knihovny Drools. Tento příspěvek nechce být obecnou úvahou nad vhodností použití rule engines. Na příkladě závislostí polí ve formuláři chci ukázat řešení s pomocí technologie, která je v mém okolí stále chápána jako okrajová a netradiční, ale která je podle mě pro řešení tohoto problému velmi výhodná.

Použiju stejný příklad jako minule a to parcelu evidovanou na katastru nemovitostí. Atributy parcely a jejich vztahy pro čtyři typy parcel jsou zachyceny následující tabulkou.

Popis parcely	České KÚ?	Má číslo?	Typ?	Ověřitelné	Číslo	Číslo LV	Pomocná identifikace	Zdroj PZE
Parcela katastru nemovitostí	ano	ano	KN	ano	přístupné, povinné	přístupné, povinné	nepřístupné, null	nepřístupné, null
Parcela zjednodušené evidence	ano	ano	ZE	ano	přístupné, povinné	přístupné, povinné	nepřístupné, null	přístupné, povinné
Budoucí parcela	ano	ne	nepřístupné, null	ne	nepřístupné, null	nepřístupné, null	přístupné, povinné	nepřístupné, null
Zahraniční parcela	ne	nepřístupné, null	nepřístupné, null	ne	nepřístupné, null	nepřístupné, null	přístupné, povinné	nepřístupné, null

První tři atributy můžeme chápat jako „diskriminant“ parcely – jejich hodnoty podmiňují přístupnost, povinnost a přednastavené hodnoty jejich dalších atributů.

Dále budu pracovat s třídou Plot, která reprezentuje parcelu, s třídou FieldState, která obecně definuje stavy polí a s třídou PlotFieldState, která definuje stavy polí odpovídající atributům parcely. Dále si připomeňme interface PlotDependencySolver s metodou solveDependencies(Plot, PlotFieldState), která reprezentuje algoritmus řešení závislostí. Přesnou definici těchto tříd můžete nalézt v první části blogu.

Řekněme, že chceme napsat pravidlo (ve smyslu Drools), které popíše stav, kdy je parcela evidovaná v katastru nemovitostí (tedy stav popsaný prvním řádkem tabulky). Pravidlo "Land register" může vypadat třeba takto:

rule "Land register"
when
plot : Plot(locatedInCR == true, numberAssigned == true, plotType == "KN")
state : PlotFieldState()
then
state.setNumberAssigned(FieldState.ENABLED);
state.setPlotType(FieldState.ENABLED);

state.setVerifiable(FieldState.ENABLED);
state.setNumber(FieldState.ENABLED_MANDATORY);
state.setOwnershipNumber(FieldState.ENABLED_MANDATORY);
state.setAuxiliaryId(FieldState.DISABLED);
state.setSimplifiedEvidenceSource(FieldState.DISABLED);

plot.setAuxiliaryId(null);
plot.setSimplifiedEvidenceSource(null);
end

Aplikovatelnost pravidla je popsána klauzulí "when", která porovnává hodnoty atributů v instanci třídy Plot, tedy hodnoty, které byly vyplněné ve formuláři. Další parametr říká, že pravidlo musí mít k dispozici i instanci třídy PlotState, aby stav formuláře mohlo aktualizovat. V těle pravidla potom dojde k aktualizaci stavu a nastavení některých hodnot atributů parcely, tak jak to u parcel z katastru nemovitostí chceme.

Podobně potom vypadá další pravidlo, tentokrát popisujicí zahraniční parcelu.

rule "Foreign plot"
when
plot : Plot(locatedInCR == false)
state : PlotFieldState()
then
state.setNumberAssigned(FieldState.DISABLED);
state.setPlotType(FieldState.DISABLED);
state.setVerifiable(FieldState.DISABLED);
state.setNumber(FieldState.DISABLED);
state.setOwnershipNumber(FieldState.DISABLED);
state.setAuxiliaryId(FieldState.ENABLED_MANDATORY);
state.setSimplifiedEvidenceSource(FieldState.DISABLED);

plot.setNumberAssigned(false);
plot.setPlotType(null);
plot.setNumber(null);
plot.setOwnershipNumber(null);
plot.setSimplifiedEvidenceSource(null);
end

Všechna pravidla můžeme udržovat ve zdrojovém souboru PlotRules.drl.

package PlotRules

import dependency.*;
import plot.*;

rule "Land register"
...
end

rule "Simplified evidence"
...
end

rule "Future plot"
...
end

rule "Foreign plot"
...
end

Příklady ukázaly, že pravidla v Drools většinou píšeme v DRL (Drools Rule Language) a přistupujeme přitom k Java třídám.

Máme pravidla, ale co je třeba udělat, aby se správně aplikovala? Implementace metody PlotDependencySolver.solveDependencies, která bude používat Drools a pravidla, je jednoduchá.

 public void solveDependencies(Plot plot, PlotFieldState state) {
 setUp();
 StatelessKnowledgeSession ksession = kbase.newStatelessKnowledgeSession();
 ksession.execute(Arrays.asList(plot, state));
}

Vytvoříme novou stateless session pro aplikaci pravidel a do její working memory vložíme instanci třídy Plot (data) a instanci PlotFieldState (stav formuláře). Je na Drools, jakým způsobem a v jakém pořadí pravidla aplikuje. Metoda setUp ukazuje, jak vytvořit instanci KnowledgeBase. Jinými slovy, jak inicializovat runtime knihovny Drools, abychom mohli aplikovat naše pravidla.

 protected void setUp() {
 KnowledgeBuilder kbuilder = KnowledgeBuilderFactory.newKnowledgeBuilder();
 kbuilder.add(ResourceFactory.newClassPathResource("PlotRules.drl"), ResourceType.DRL);
 KnowledgeBuilderErrors errors = kbuilder.getErrors();
 if (errors.size() > 0) {
  for (KnowledgeBuilderError error: errors) {
   System.err.println(error);
  }
  throw new IllegalArgumentException("Could not parse knowledge.");
 }
 kbase = KnowledgeBaseFactory.newKnowledgeBase();
 kbase.addKnowledgePackages(kbuilder.getKnowledgePackages());
}

Tato ukázka kódu není pro náš příklad příliš zajímavá, ale pro úplnost ukazuje, jak načíst soubor s pravidly a vytvořit runtime Drools (v tomto případě instanci KnowledgeBase). Ve většině aplikací budeme typicky spoléhat na nějakou factory, které jako parametr předložíme resource odpovídající souboru PlotRules.drl a necháme náš DI framework, aby provedl injection očekávané instance KnowledgeBase.

V čem je tedy implementace s pomocí Drools a pravidel výhodnější a jaké jsou nevýhody? Nejčastější otázky programátorů seznamujících se s rule engines jsou "proč je to lepší než ify?" a "nebude to mít výkonnostní problémy?" Zkusme si rozbrat výhody a nevýhody na příkladě formulářů a závislostí.

Deklarativní pravidla - Nepopisuji algoritmus vyhodnocení závislostí, definuji množinu pravidel, které reagují na stavy formuláře. Možnost popsat řešení problému deklarativně vidím jako velkou výhodu tam, kde se pracuje s větším množstvím samostatných podmínek a kde je někdy obtížné sestavit algoritmus, který by všechny podmínky zohlednil.
Přehlednost a udržovatelnost - Tohle je dost subjektivní faktor, ale já považuji deklarativní pravidla za stručnější, přehlednější a dlouhodobě lépe udržovatelná než Java implementaci popsanou v předchozím příspěvku. Znamená to, že doporučuji, aby se obchodní logika na různých systémech vždy implementovala pomocí pravidel? To samozřejmě netvrdím, záleží na konkrétních požadavcích.
Samostatný životní cyklus pravidel - Životní cyklus pravidel nemusí být stejný jako životní cyklus Java zdrojových kódů a verzí aplikace. Pokud se například pravidla mění výrazně častěji než zbytek aplikace, je možné je udržovat a distribuovat nezávisle na zbytku systému. Není to ale nutné, u některých systémů by takový přístup mohl být považovaný i za nevýhodu.

Co to stojí?

Integrace dalšího nástroje s naší aplikace - Integrace Drools s DI frameworky jako Spring nebo Google Guice je jednoduchá, představuje jenom malou investici času a úsilí.
Výkonnost - Rule engines a deklarativní pravidla se samozřejmě nehodí na všechny problémy. Nevhodné použití může znamenat výkonnostní problémy. V případě závislostí polí ve formuláři bych je ale nečekal. Drools nabízí několik možností, jak výkonnost testovat a optimalizovat. Pravidla mohu například indexovat (možno chápat podobně jako indexy v relačních databázích) a vyhodnocení tím výrazně zrychlit.
DRL - Drools Rule Language představuje nový programovací jazyk pro část projektu a vyžaduje tedy určitý čas na pochopení a zvládnutí. Není to ale žádné drama, struktura pravidel je často velmi jednoduchá a těla pravidel, to už je stará známá Java.
DRL a udržovatelnost kódu - Jako samozřejmost dnes bereme, že naše IDE umí hledat použití tříd, atributů, metod, ... nad všemi zdrojovými soubory projektu. V rámci JBoss Tools je k dispozici sada pluginů pro Eclipse, které nabízí editor se zvýrazňováním syntaxe a code completion, vizualizaci pravidel, debugger pravidel, ale některé vlastnosti tato podpora stále nenabízí. Chybí mi např. vyhledávání referencí, které by uvažovalo i pravidla a také refactoring, který by zahrnoval pravidla. Na blogu Drools se lze dočíst, že se na těchto dvou vlastnostech IDE už pracuje, ale aktuální stav je, že tato podpora stále chybí. Pro IntelliJ Idea jsem žádnou podporu Drools nenašel.

Tradiční implementace v Javě je diskutovaná v první části blogu. Zájemci o vyzkoušení a porovnání příkladů mohou uvítat možnost stáhnout si testovací projekt (konfigurace v pom.xml).

Příspěvek si kladl za cíl představit stále málo používané, ale v mnohých aspektech výhodné řešení problému závislostí polí ve formuláři pomocí frameworku Drools. Navazuje na první část, která popisuje obecný problém závislostí polí ve formuláři a diskutuje různé přístupy k jeho řešení.

Jaký názor na rule engines máte vy? Použili jste už Drools nebo jiný framework na komerčním projektu? Podělte se o své zkušenosti v diskuzi pod článkem. Na téma konceptu rule engines a dalších vlastností knihovny Drools bych rád v budoucnu napsal samostatnou sérii článků (příklady, integrace se Springem, testy výkonnosti a podobně).