iLLaDA näitab, et täielikult kahesuunaline difusioonitreening algusest peale on konkurentsivõimeline viis võimsate keelemudelite saavutamiseks ka ilma autoregressiivse treenimiseta.
Blackwelli 180–268 GB mälu GPU kohta võimaldab suuremaid pakke ja pikemaid järjestusi mudeli treenimise ajal, vähendades kommunikatsioonikoormat ja võimaldades ühes sõlmes treenimist mudelitele, mis varem nõudsid mitme sõlmega seadistusi.