Is O_DIRECT in MySQL and MariaDB really effective?

While exploring some MySQL/MariaDB configurations i encountered the O_DIRECT option related to the innodb_flush_method directive.

https://dev.mysql.com/doc/refman/8.0/en/optimizing-innodb-diskio.html

https://dev.mysql.com/doc/refman/8.0/en/innodb-parameters.html#sysvar_innodb_flush_method

So my question was. Is O_DIRECT really effective?

In short, your answer is maybe No… unless you have Solaris, but maybe it’s untrue even there.

I’ve found a very interesting lecture about this topic. This is my favorite extract:

In conclusion I can say that Linus Torvalds is once again corrent: O_DIRECT is completely useless and shouldn’t be used.

― svetlinmladenov on O_DIRECT

So, thank you Oracle! I wasted so much time because of your phrase in this stupid presentation:

InnoDB can use direct IO on systems that support it -Linux, FreeBSD, and Solaris–innodb_flush_method= O_DIRECT

Oracle Presentation, page 15

O_DIRECT = No thanks.

How to configure Phabricator, Harbormaster and Drydock for Continuos Integration

Phabricator Continuous Integration schema with Harbormaster and Drydock

Some weeks ago I tried to setup a continuous integration solution with Phabricator, without Jenkins.

If you want to configure Phabricator and its components for Continuous Integration (and no need for Jenkins or other external services) then see this guide I released on Wikibooks under a Free as in Freedom documentation license:

Phabricator Administrator Handbook: Continuous Integration with Harbormaster and Drydock.

The image of the Phabricator Continuous Integration schema was made by Valerio Bozzolan and you can use it for any purpose under CC BY-SA 3.0 Unported.

How to Disassembly Samsung NP305V5A

Today I disassembled a Samsung NP305V5A to substitute its hard drive with an SSD and install Debian GNU/Linux stable (buster) with an XFCE desktop environment.

End of the story: this laptop was produced in 2011 but it’s still very usable thanks to GNU/Linux!

Hard drive substitution

Shutdown the laptop, close the lid and remove the battery.

Put the back in front of you:

Find the memory slot and open it (1 screw):

Inside the opened memory slot, remove another screw:

Remove the 4 screws under the gummy feet:

Now slide down the plastic to remove the bottom cover:

To substitute the hard drive, remove all the screws along it and remove its data connector.

Top right: my SSD. Bottom right: laptop hard drive.

To sobstitute the hard drive, separate the hard drive from its metal chassis.

The hard drive is a SATA 2.5”.

The metal chassis has just 4 screws.

Now replace your hard drive with another one (an SSD?) and turn back.

Actually I have not enough photos to provide further informations, but we easily replaced the thermal paste and cleaned the CPU fan.

Thank you Elena and its laptop, who joined the Officina Informatica Libera in Torino, to reborn her laptop using Free as in Freedom software!


Ci vediamo al Linux Day Torino 2019

Sabato 26 ottobre 2019 ci vediamo al Linux Day Torino 2019: Intelligenza Artificiale!

È davvero un piacere partecipare all’organizzazione di un evento del genere dedicato al software libero! Sia perchè re-incontro sempre un sacco di persone piacevoli, e sia perchè sono riuscito a terminare un lavoro sul sito ufficiale che porto avanti dal 2016 per rendere il sito del Linux Day Torino un vero Content Management System a tutti gli effetti. Inoltre, perchè terrò un talk sulla privacy e sulla paranoia da sicurezza informatica difensiva.

Partiamo dalla prima novità: il sito del Linux Day Torino ora supporta Italiano, Inglese, e Piemontese :D È da pazzi, ma funziona molto bene. Invito soprattutto a fare un giro sul Linux Day Torino in piemontese perchè è veramente divertente! Per questo risultato ringrazio tutto il GNU/Linux user group di Torino, come ho già annunciato sulla nostra mailing list.

Ci vediamo quindi al mio talk che si intitola Don’t Touch my Data, al Linux Day Torino 2019 :) Spero di divertirmi tanto quanto gli anni passati! <3

Come ottimizzare un sito in WordPress ad alto traffico senza CloudFlare (la guida definitivah!1!)

È un periodo in cui sto popolando la mia categoria Articoli che piacciono ad Aranzulla. Oggi è il turno di una guida la cui trama è tratta da una storia vera.

Preambolo: se stai leggendo questa pagina è quasi certo che il tuo blog non sia ad alto traffico. In questo caso trarrai benefici da questa lettura.

Visualizziamo il caso dell’edizione in lingua italiana di Wikipedia. Genera un traffico di duecentosettantamila visite all’ora. Anzi, prendiamo anche quella in lingua inglese. Vanta circa quattro milioni di visite all’ora. Non so se mi spiego. Quattro milioni. Ma non basta. Prendiamo pure tutte le duecentonovantasei dannatissime edizioni linguistiche di Wikipedia, insieme a tutte le diciotto edizioni linguistiche di Wikiversity, e non fatemi contare le edizioni linguistiche di Wikivoyage, Wikibooks, Wiktionary, Wikiquote, Wikisource, senza dimenticare Wikimedia Commons e Wikidata.

Non so se riusciamo ad immaginare sedici miliardi di accessi al giorno.

Ora immaginate che siate voi i possessori di un sito di (relativamente) insignificativa visibilità (con tutto il rispetto, ma di fronte allo scenario che stiamo immaginando siamo tutti dei peti al vento). Anche se magari avete davvero la bellezza di venti visite l’ora (di cui solo 2 di nostra madre!). Immaginiamo poi che domani il vostro sito sia promosso con un banner bello GROSSO in cima ad OGNUNO di quei siti enumerati precedentemente, esponendovi alla pioggia di centinaia di migliaia di accessi simultanei.

Che fate? Isteria generale?

Per non saper nè leggere nè scrivere avremo tutti fatto due conti. Se anche a voi risulta che sono centinaia di migliaia le possibilità di (con licenza poetica)prenderselo nel culo, allora capirete i miei sudori freddi quando dirò che tutto questo è successo davvero (o meglio, sta succedendo proprio ora).

Sì, perchè il sito in questione è Wiki Loves Earth; i proprietari del dominio sono una piccola e tenera associazione culturale di miei amichetti (Informazioni.Wiki). Il motore del sito è WordPress. Il server è il mio. E sì, la Wikimedia Foundation ha ficcato un bannerone su ogni suo sito, come ad ordinare alla gente di prendere a calci nel culo tale sito.

CPU addormentata. E la macchina fa schifo. Tutto funziona.

Contrariamente ad ogni mia aspettativa siamo riusciti a gestire la situazione. Alla grande. Direi che è stata una passeggiata. Probabilmente grazie al fatto che la gente non clicca sui banneroni in alto nei siti, i numeri sono stati inferiori alle aspettative, con appena 11-15 mila accessi al giorno. Circa 500 visite spalmate ogni ora. Il che non è tantissimo ma non è nemmeno poco.

Questo grafico è tratto dalla nostra istanza Matomo (perchè nel 2019 siamo sufficientemente evoluti per fare statistiche senza (con licenza poetica) inculare la privacy dei visitatori evitando di usare deprecabili incubi totalitari quali Google Anal-ytics).

Possiamo notare la linea blu che rappresenta la pace prima della tempesta, nella prima parte del grafico, con circa un centinaio di accessi al giorno. Ad un certo punto, BOOM, 11.000 accessi al giorno. Ora guardiamo la linea verde. È il generation time. In teoria, più hai visite, più metti sotto sforzo la macchina, più il generation time aumenta. Noi lo abbiamo fatto calare facendo tuning ogni giorno. Fico, vero? È sempre sceso, arrivando ad abbattersi da circa 6 secondi ad un molto più gestibile 0.2 secondi.

Da questa storia ho imparato che:

  1. È sufficiente partire da questa guida definitiva per velocizzare WordPress!1!
  2. Ridurre al minimo le risorse in ogni pagina a qualsiasi costo ripaga moltissimo
  3. Adotta cache lato webserver con mod_cache o Varnish o chi per esso ed elimina qualsiasi strato di cache lato applicativo (dato che questi ultimi sono scritti da indiani, coi piedini)
  4. Se usate Apache, ovviamente disabilitate AllowOverride e tutte le altre merde inutili. Ora. Subito. Fate tuning di qualsiasi cosa.
  5. Testa tutto con Apache Benchmark o amici simili. A/B. Prima dopo. Flip flop. Fallo e sarai ripagato.
  6. A quanto pare la gente non clicca sui banner. Quindi se ti linkano da ogni progetto della Wikimedia Foundation non è da vedersi come terrorismo.

Qualche dritta su mod_cache

Come funziona mod_cache? Esso arnese salva su disco le risposte dell’applicativo e le consegna alle visite future. Questo abbatte drasticamente i tempi di generazione della pagina. I parametri di default vanno bene per la maggior parte dei casi. Non vengono messi in cache i file troppo piccoli, i file troppo grossi, i file richiesti via POST, etc. Addirittura la vostra distribuzione GNU/Linux se non fa schifo abiliterà da sola il demone apache-htcacheclean che pulirà la cache vecchia (o almeno così avviene in Debian GNU/Linux).

Infatti, mod_cache è una pezza di software abbastanza rispettabile che fa il suo sporco dovere, e bene, se l’applicativo soddisfa una serie di banalità, tipo spedire correttamente header HTTP Expires, preferire richieste stateless evitando le sessioni, usare GET solo per richieste idempotenti, etc.

Chiaramente la maggior parte dei CMS fa soltanto una di queste cose, se non nessuna.

Dovrete girare intorno a tutte le lacune dell’applicativo ed istruire voi mod_cache. Ad esempio, mod_expires viene eseguito prima di mod_cache quindi potete usarlo per sopperrire alla mancanza di Expires dell’applicativo. Potete istruire mod_cache per saltare il caching di richieste che iniziano con /admin-stacippa. Forse dovrete anche evitare che vengano messi in cache le richieste che hanno header quali Cookie e Set-Cookie, etc.

Problemi noti

Se dopo l’abilitazione di mod_cache emergono subito artefatti allucinanti, ad esempio se il visitatore vede la stessa pagina per tutti gli URL, allora vi risparmio le bestemmie: è colpa vostra e di mod_rewrite.

WordPress, infatti, usa mod_rewrite. Lo capite subito se avete URL fighetti tipo /2019-09-05/bao invece che un meno SEO-sexy ?p=666.

Questo funziona perchè a monte avrete sicuramente una regola del genere di mod_rewrite:

RewriteRule . /index.php [L]

Questa regola pesca qualsiasi indirizzo e risponde con l’output dell’esecuziome di index.php. In pratica un solo eseguibile genera ogni pagina. Il che è sensato ma per mod_cache comporterà un bel casino dato che, per ragioni su cui non ci è dato polemizzare, mod_cache avviene dopo mod_rewrite; e dato che la cache è salvata ovviamente sulla base dell’URL, questo significa che state mettendo in cache una sola pagina per tutte le richieste, perchè /welcome/ diventa /index.php e /about diventa /index.php etc.

Prima di passare a Varnish (asd) potete sfruttare questo mio workaround partorito durante una generosa seduta al bagno pensando immensamente a quanto fosse stimolante il binomio di un URL rewriter + mod_cache. Fra l’altro posso asserire con una vaga certezza che questa soluzione sia una mia idea. Ho trovato solo un altro tizio sul web che fa così ma in una domanda sgrammaticata e con una risposta che manco spiega il funzionamento. asd).

Ecco la variante:

RewriteRule ^(.*)$ index.php/$1 [L]

Funziona, perché /welcome/ diventerà un innocuo /index.php/welcome.

Perchè la richiesta/index.php/welcome dovrebbe essere lecita se quel file non esiste? Ottima domanda! Qui ti volevo. Funziona, perchè nel tuo webserver avrai attiva di default una delle mie direttive di Apache preferite, una di quelle che non conosce nessuno, ma proprio nessuno, ma, ripeto, è attiva in tutti i webserver del pianeta. Di default. In tutti. asd.

Parliamo di AcceptPathInfo. Se conosci questa direttiva significa che sei l’anticristo in persona e puoi vantarti di visitare indirizzi senza senso ottenendo una risposta valida. Esempio:

https://www.facebook.com/index.php
https://www.facebook.com/index.php/melone-prezzemolato

Come vedete, è una direttiva talmente sfigata che manco Facebook sa di averla, altrimenti l’avrebbe disabilitata o avrebbe impostato un reindirizzamento o dichiarato un URL canonico, cosa che al momento non fa (quindi potremmo avvelenare i loro risultati di ricerca linkando termini a caso su URL esistenti con termini a caso dentro! che bello. asd).

Va beh, torniamo a noi.

Funziona, perchè utilizzare il nome di un eseguibile esistente come se fosse una directory, provoca comunque l’esecuzione di tale eseguibile. L’URL di eccedenza (e.g. “melone-prezzemolato“) viene passato sotto banco allo script all’interno della variabile d’ambiente PATH_INFO.

In sostanza: fate in modo che agli occhi di mod_cache siano sempre tutte richieste differenti. Al contrario, per l’applicativo il meccanismo di caching deve rimanere del tutto trasparente. Notare che se l’applicativo non fa uso del PATH_INFO non farete danni nell’usare il mio workaround (come per WordPress); invece chi lo usa (come Joomla!-merda) allora semplicemente questo problema non se lo porrà perchè ogni URL sarà già univoco (affinchè non sembri che stia promuovendo Joomla!-merda, vorrei ricordare che ha una terribile gestione dei permalink e quindi avrete ben altri problemi tipo contenuti centuplicati su indirizzi a caso. Se non si fosse capito, non usate Joomla!-merda. Che fra l’altro è l’unico CMS famoso NON pacchettizzato per le principali distribuzioni GNU/Linux, talmente fa schifo.)

Concludendo

Cloudflare è per pigri. Anche un po’ per rincoglioniti. Voglio dire, c’è una rispettabile fetta di utenze di Cloudflare e di altri firewall e CDN, diciamo forse l’1% dei loro utenti, che effettivamente potrebbe meritare i servizi di Cloudflare, o di altri, poichè lo userebbero col senno dell’impossibilità di farselo in proprio per mancanza di risorse. Per il resto, mi rendo conto che centralizzare il web verso un unico fornitore di servizi possa sembrare una genialata, soprattutto per i fan di Stalin.

Insomma, fatevi da soli un server di caching o fatevelo fare. Ma fatevi qualcosa in proprio. Se ce l’ho fatta io, ce la fa chiunque. Il web é nato decentralizzato per qualche ragione. No?

A disposizione per chi interessassero ulteriori dettagli, però, principalmente, per entrare nello spirito giusto, basta partire dalla guida definitiva per velocizzare WordPress.

Il mio intervento a Border Radio – Public Domain

Rubando termini dall’oroscopo: in questo periodo lavoro, famiglia e persino riposo vanno discretamente bene. Questo significa che ho dovuto limitare le mie evasioni davanti alla mia scrivania, soprattutto nei momenti a me più proficui, ovvero dalle 20 alle 3 del mattino (non che sia una fascia oraria che oggettivamente stimoli le cellule grigie ma, semplicemente, a quell’ora è più complicato essere distratti da qualcuno di sveglio ed è più naturale rilassarsi, concentrarsi, essere produttivo).

Ospite in una puntata radiofonica di Border Radio a proposito di Wikipedia, spero di essere riuscito a trasmettere tutta la mia passione su questo progetto, nascondendo piuttosto bene il mio rammarico nel vedere ridotti i miei contributi, sfociati, nello stesso periodo, nelle mie dimissioni da amministratore dell’interfaccia.

Che dire, buon ascolto!

Podcast puntata Public Domain a Border Radio

Ah, chiedo venia per le imprecisioni o castronerie sfuggitemi (per chi le notasse). Come scusa additerò l’ansia della diretta!

L’audio è disponibile anche su Mixcloud ma occhio perchè è intasato di tracker :)

Come velocizzare WordPress (LA GUIDA DEFINITIVA!1!1!)

Disattiva i tuoi plugin.
Fine della guida.

OK OK…. Immagino avrai bisogno di qualche metafora per carburare questo fatto. Visualizza questo scenario: ogni plugin che hai installato compromette di almeno il 30% tutti questi punti, parallelamente:

  • sicurezza
  • performance
  • manutenibilità
  • libertà digitale

Perchè? Perchè la maggior parte di essi sono stati scriti coi piedi. Piedi marci. È come se vi foste fatti costruire la casa da un bambino a cui abbiano dato in mano un’accetta per realizzarla e il disegno di una casa a pastelli per progettarla. È come avere in mano la ricetta di un’insalata scritta da un avvocato societario utilizzando l’autocorrettore di un telefono che conosca solo formule di fogli di calcolo. È come se qualcuno avesse trascritto il litigio di una coppia all’IKEA facendo modifiche a caso finchè quel testo non diventasse un programma che compilasse senza errori. È come se qualcuno avesse dato in pasto la foto di un tabellone di Scarabeo ad un software di visione computerizzata in cui valgono triplo le parole riservate in JavaScript. È come se qualcuno avesse trascritto le previsioni meteorologiche navali nello stesso momento in cui un picchio di legno martellava sul tasto shift e in seguito indentasse il testo completamente a caso. È come se una poesia dadaista e/o surrealista fosse stata composta interamente con quei nomi utente suggeriti durante la registrazione in un sito, quando quello che volevi è stato già preso. È come se aveste in mano l’output di bot per calcolare catene di Markov istruito esclusivamente sulla base dei passaggi dei pullman di una città in cui i pullman si schiantano di continuo.

Mi correggo. Se tutto questo funziona, quegli autobus non si schiantavano: prendevano fuoco.

I plugin che hai installato sono un tentativo di scrivere un poema lirico utilizzando solo parole provenienti da quella roba che sta negli URL dopo il punto interrogativo. È come una tabella in JSON di codici di modelli di torce che devono avere “super tattica” nel nome. È come se gli sviluppatori avessero letto soltanto un articolo accademico di Turing del 1936 sulla computazione e altresì un esempio di codice JavaScript e avessero tirato ad indovinare tutto lo scibile che sta nel mezzo. È come la traduzione in linguaggio l33t di un manifesto di un culturista della sopravvivenza che per qualche ragione è ossessionato anche dall’allocazione di memoria.

Disinstalla quei fottuti plugin o fatteli riscrivere da zero. Sul serio. Sono scritti col culo e compromettono il tuo sito.

Progetti grossi come WordPress sono capolavori di ingegneria con code review criterioso. I plugin invece sono mediamente scritti da completi rincoglioniti che pensano che XSS, injection, e CSRF siamo le risposte insensate alle ultime domande delle parole crociate calabresi.

Non usare i plugin e programmateli da solo.

Ah, questo vale anche per i temi.

Fine della guida.

Grazie ad XKCD 1513, XKCD 1695 e ad XKCD 1883 per l’aiuto metaforico. asd

Ci stanno tracciando… staccah staccah!

Questa immagine scattata da Cristiano Paris al Lucca Comics è l’essenza stessa di una eccezionale discussione svolta su Wikipedia. asd:

Discussione su Hackerino in Wikipedia.

Immagine completa di Cristiano Paris.

Immagine scattata da Cristiano Paris e distribuita in licenza Creative Commons Attribuzione – Condividi allo stesso 4.0 internazionale.

La bellezza delle espressioni regolari (aka: correggendo bgcolor in Wikipedia)

Non so se l’avessi già detto ma amo perdere una consistente quantità di tempo su Wikipedia in lingua italiana. Appena posso lo faccio. È rilassante e stimolante. Ritaglio del tempo soprattutto per svolgere i task più inutili che mi auto-assegno con gioia per sentirmi in pace con me stesso nello sfuggire agli impegni più seri.

Oggi mi sono imbattuto ad esempio in una voce Wikipedia che aveva una semplice tabella con uno sfondo colorato. Colorata con bgcolor.

Non è che tutti dovrebbero sapere che l’HTML si è evoluto giusto un briciolo dalla sua nascita e che roba come bgcolor non si dovrebbe più usare almeno da HTML 4 ovvero almeno dal 1999. Diciamoci la verità, l’ho sempre sospettato, ma manco io avevo la certezza che fosse un attributo deprecato prima di scoprire che la voce [[HTML 4]] non aveva fonti e prima di giungere quindi alle specifiche W3C per pura serendipità. asd

In sostanza, facendo una rapida ricerca, circa un migliaio e mezzo di articoli di Wikipedia ad oggi usavano ancora bgcolor.

Ora, è chiaro che se quasi 1500 voci di Wikipedia hanno una tabella colorata con bgcolor e se ogni browser del pianeta (tranne Internet Exploder) mostra correttamente questo colore, significa che non c’è proprio nessuna fretta a correggerlo. Certo però che un giorno questa migrazione sarà da fare. Un giorno.

Ora sapete il perché ciò mi abbia allettato.

In teoria una sostituzione del genere appare piuttosto semplice. In fondo bisogna solo trovare nel testo della pagina tutto ciò che assomigli a questo:

<td bgcolor="#ff0000"></td>

E trasformarlo in questo:

<td style="background:#ff0000"></td>

Ma i casi da tenere in considerazione sono almeno questi:

<td bgcolor="#ff0000"></td>
<td bgcolor="#f00"></td>
<td bgcolor="ff0000"></td>
<td bgcolor=ff0000></td>
<td bgcolor="f00"></td>
<td bgcolor  = "red"></td>

Senda dimenticare che una becera sostituzione potrebbe provocare attributi style doppi ove ve ne fosse già uno:

<td bgcolor="red"     colspan="2" style="color:blue;">
↓
<td style="color:red" colspan="2" style="color:blue;">

Tagliando corto dopo un’oretta buona ecco qui una casseruola di espressioni regolari che lanciate in sequenza effettuano la corretta conversione di parecchi di questi casi:

1. Una prima sostituzione di tutti i vari colori esadecimali scritti ahimè senza cancelletto davanti tipo bgcolor="ff0000" e che il bot non deve confondere con bgcolor="red" o altri nomi propri che non vogliono il cancelletto davanti:

# Ricerca:
/bgcolor *= *("?)([a-fA-F0-9]{6}|[a-fA-F0-9]{3})+\1/
 
# Sostituzione:
style="background:#$2"

Notare l’utilità dell’operatore \1 nella ricerca per riferirsi al primo apice che può esserci o meno.

2. Segue una sostituzione di tutti i vari colori esadecimali con cancelletto davanti e quelli dal nome specifico:

# Ricerca
/bgcolor *= *("?)(#[a-z0-9A-Z]{6}|#[a-zA-Z0-9]{3}|[a-zA-Z]{3,})+\1/
 
# Sostituzione
style="background:$2"

3. Per sfizio a questo punto uno potrebbe anche decidere di accorciare tutti i colori dal formato #aabbcc a #abc:

# Ricerca
/#([a-fA-F0-9])\1([a-fA-F0-9])\2([a-fA-F0-9])\3"/
 
# Sostituzione
#$1$2$3"

Notare sempre l’uso dell’operatore \1, \2, \3 per dire che un gruppo sarà ripetuto un’altra volta subito dopo.

4. A questo punto ci si potrebbe ritrovare con un tag HTML con due style come in questa situazione, e che dovranno essere uniti in qualche modo:

<td bgcolor="red"                colspan="2" style="color:blue;"></td>
↓
<td style="background-color:red" colspan="2" style="color:blue;"></td>

E quindi si lancia un’altra espressione regolare per unire tutti gli style presenti nello stesso tag (questa è tenera asd):

# Ricerca
/style="([a-zA-Z0-9-; #:%]+?);?"((?: +[a-zA-Z]+ *= *("?)[a-zA-Z0-9-; #:%]+\3)*) style="([a-zA-Z0-9-; #:%]+?);?"/
 
# Sostituzione
style="$1; $4"$2

Notare il doppio-gruppo innestato (?:()*) in mezzo ai due style. Qui il gruppo centrale è ripetuto da zero ad infinite volte e non deve avere nome (altrimenti si entra in altre dimensioni… asd) mentre il gruppo esterno colleziona queste ripetizioni interne e le salva in $2. Quindi se si ha la situazione:

style="uno" roba=asd pippo="gianni" style="due"

Questo sarà il valore della cattura in $2:

roba=asd pippo="gianni"

E quindi avverrà questo magico accorpamento dei due style, mantenendo il resto del ciarpame:

<td style="background-color:blue;" colspan="2" rowspan=1 style="color:red">
↓
<td style="background-color:blue; color:red" colspan="2" rowspan=1>

Notare che ci si è presi lo scrupolo di non far venire ;; nel concatenare le due proprietà CSS o di dimenticarsi proprio ; nella loro congiunzione.

D’altra parte se fin’ora abbiamo acchiappato e convertito i bgcolor ora questo processo dovrà essere ripetuto per color, valign, align ed altre cose, più o meno in quest’ordine. Perché in quest’ordine? Perché il color va sostituito dopo aver sostituito eventuali bgcolor, perché bgcolor può essere frainteso come color e se non avete voglia di piazzare un lookahead per decidere quando inizi il nome di un attributo HTML… insomma, bisogna considerare l’ordine.

C’è anche da dire che finché si sostituisce solo un singolo attributo come bgcolor si rischia al massimo di creare due style e questo problema è risolto con la sostituzione appena citata. Al contrario se gli attributi iniziano ad essere n occorrerà lanciare n volte l’espressione numero 4 affinché passo dopo passo tutti gli style si vadano ad inglobare passaggio dopo passaggio:

<td bgcolor=red color=red valign=left colspan="1" style="padding:1px">
↓
<td style="background:red" style="color:red" style="vertical-align:left" colspan="1" style="padding:1px">
↓
<td style="background:red; color:red; vertical-align:left" colspan="1" style="padding:1px">
↓
<td style="background:red; color:red; vertical-align:left; padding:1px" colspan="1">

(Come fai ad essere già qui? asd. Torna su a constatare i passaggi finché non ti convinci dell’efficacia della espressione regolare numero 4 e del fatto che basti lanciarla n volte per avere un corretto accorpamento dei n attributi deprecati esplosi nei vari style)

Ebbene, lanciando tutte queste espressi regolari su una pagina a caso ecco il risultato: test.

A questo punto si lancia il mio bottino personalissimo e si corregge Wikipedia:

./replace.php \
--always \
--wiki=itwiki \
--generator=search \
--gsrsearch='insource:bgcolor' \
--regex \
--summary="Bot: cose" \
REGEX1 SOSTITUZIONE1 \
REGEX2 SOSTITUZIONE2 \
...

E per oggi le nostre inutilità le abbiamo fatte.

E anche oggi siamo riusciti a non usare un parser HTML per fare ciò che bisognerebbe fare con un parser HTML. asd

P.S.
Naturalmente non solo è stupido pensare che qualcuno mi ringrazierà per aver fatto una cosa del genere (o forse a farlo sarà il World Wide Web Consortium? chissà. asd) ma sarebbe altrettanto stupido pensare che non sia scappato un errore da qualche parte in qualche corner-case allucinante in qualche voce a bassissima visibilità fuori dai controlli a campione, magari proprio mentre mi ero distratto un momento a rispondere alle domande impertinenti di quel bischero di Ferdi2005, mentre con una pupilla monitoravo il bot e con l’altra gli mandavo una gif di un Sofficino. Quindi, fra 2 anni, un utente verrà giustamente a cazziarmi e dovrò giustamente spiegargli come mai io mi sia permesso di non verificare come mai nella sua specifica circostanza un testo abbia potuto perdere la formattazione desiderata. Dannato Ferdi2005. Dannati Sofficini. asd

La vita non da gioie. Le espressioni regolari neanche. Ma almeno abbiamo dimostrato ancora una volta quanto le espressioni regolari siano bellissime. asd