De webspider & het resultaat

Door dcm360 op woensdag 1 juli 2009 15:19 - Reacties (20)
Categorie: Tweakblogs, Views: 2.755

Zo, vanochtend was het zo ver. Toen ik om 10 uur aan mn bureau ging zitten en mn ontbijt op had, kon ik de laatste puntjes op de i zetten.

En dan, 10 over half elf, waren alle bugs die ik tot nu toe had ontdekt eruit. Vol verwachting start ik mn batch script en kijk toe. De lijst met adressen wordt gemaakt, gesorteerd en gevalideerd. En nu start de echte spider met het zware werk: het indexeren van alle tweakblogs :)

Kwart voor elf. De spider stopt: ongeldige datum gevonden. :( Ik vloek in stilte en bekijk de bestanden die tot dan toe zijn aangemaakt. Vervolgens krijg ik bijna een lachbui :D Ik was helemaal vergeten dat enkele mensen hun tweakblog in het Engels hebben! Dus ik duik mn code in en 10 minuutjes later is mn code ook geschikt voor de Engelse blogs.

Poging twee. Ik zet de spider weer aan het werk, en gaat succesvol langs de eerste blog die in het Engels is. Dat moet gevierd worden, en wel met een bak koffie :)

5 minuten later. Ik kom terug met mijn bak koffie en krijg net geen hartstilstand. Het venster met daarin de spider is verdwenen. Het logboek is leeg, en het logboek van Windows kan me ook niet verder helpen. Er zit niets anders op dan weer de code in te duiken, en na een slok iets te hete koffie doe ik dat dan ook.

Poging 3. Er zit ondertussen zoveel code in om fouten te ondervangen dat de spider bijna een crash van Windows zou kunnen overleven. Ik open mn batch-script weer en blijf toekijken.

Na 10 minuten wordt het wat saai, dus ga ik ondertussen maar even een ventilator opzoeken, en als ik weer teug kom loopt alles nog perfect door. Lekker internetten tot de lunch :D

Na mn luch kom ik weer binnenlopen, en ik zie net de laatse regel op mn scherm verschijnen: indexeren voltooid :D Dus ik begin met het klaarzetten van de bestanden zodat ik alles naar de productieserver kan zetten.

De samenvatting: de spider heeft haar werk goed gedaan, en mn zoekmachine heeft ineens een veel grotere index. Bekijk hier het resultaat :)

Veranderingen tov de vorige versie:
- Index bevat nu alle blogs tot nu toe, op 1 na (en ik weet niet welke)
- De zoekresultaten worden nu per 10 getoond (voor de overzichtelijkheid en ook voor de serverbelasting)

Wat er nog beter kan/moet
- Terugbladeren in de zoekresultaten: nu kan je alleen naar een volgende pagina en niet naar een vorige pagina met resultaten.
- Kleine foutjes in de layout

Vragen en opmerkingen zijn natuurlijk hartstikke welkom :)

Volgende: Blijven verbeteren 07-'09 Blijven verbeteren
Volgende: Vragen, spinnen en zoeken 06-'09 Vragen, spinnen en zoeken

Reacties


Door Tweakers user -Niels-, woensdag 1 juli 2009 15:26

Eh... ik krijg op mijn eerste willekeurige zoekterm "getweakt" slechts 1 resultaat.
Google daarintegen heeft er 6

Door Tweakers user Calamor, woensdag 1 juli 2009 15:34

Ziet er leuk uit.
Het meeste wat ik mist is dat je kan zien hoeveel items er gevonden zijn.
En er zit een fout in de speciale tekens. Als je op games zoek zie je in de tekst dat de é in zélf een ander teken is. Ook met de ë

[Reactie gewijzigd op woensdag 1 juli 2009 15:36]


Door Tweakers user xp7amrkr, woensdag 1 juli 2009 15:44

Kan je instellen dat hij bij (snel) zoeken zowel naar Inhoud, Auteur als Titel zoekt? En dan de zoek resultaten sorteren op Inhoud, Auteur en Titel?

Door Tweakers user dcm360, woensdag 1 juli 2009 16:06

@Niels: dat zou kunnen... Momenteel staat alleen het deel wat je ook met de RSS binnenkrijgt in de database. Er ontbreken idd delen, en de oplossing daarvoor heb ik wel al bedacht alleen tijd om het te bouwen ontbreekt nog even...

@Calamor: Het ontbreken van een nummertje met de hoeveelheid resultaten is eigenlijk hetzelfde probleem als de ontbrekende vorige-knop. Hoewel ik die laatste eenvoudiger kan oplossen.
En de speciale tekens.... Daarvoor moet ik eens in de documentatie van MySQL kijken...

@xp7amrkr: Zal ik eens naar kijken, die vraag is idd al vaker langsgekomen. Maar wat bedoel je eigenlijk precies met sorteren? Groeperen misschien? Want met op alfabet sorteren schiet je denk ik maar weinig op...

Door Tweakers user MAZZA, woensdag 1 juli 2009 16:09

Leipe shit ouwe!

Door Tweakers user Dima_2005, woensdag 1 juli 2009 16:25

@Calamor: Het ontbreken van een nummertje met de hoeveelheid resultaten is eigenlijk hetzelfde probleem als de ontbrekende vorige-knop. Hoewel ik die laatste eenvoudiger kan oplossen.
En de speciale tekens.... Daarvoor moet ik eens in de documentatie van MySQL kijken...
Hint: COUNT als resultaat van de query :)

Door Tweakers user dcm360, woensdag 1 juli 2009 16:38

Dat weet ik :D Alleen dat veroorzaakte op mn testserver 3 seconden volle belasting... Misschien is het je ook al opgevallen dat als je op 'verder zoeken' klikt je geen paginanummer maar een veel groter getal mee terustuurd, die iedere pagina verder verder afneemt. Ik zeg eigenglijk gewoon tegen de server: zoek vanaf dat record zoveel resulaten extra.
Als gevolg daarvan wel lekkere prestaties, alleen iets minder gebruiksvriendelijk, helaas.

Door Tweakers user GrooV, woensdag 1 juli 2009 16:39

@dcm360, gebruik je wel indexes?

Door Tweakers user dcm360, woensdag 1 juli 2009 16:45

Ehm...
Op mn testserver wel en sinds 5 minuten ook op de productieserver O-)
Op de laatste was ik ze waarschijnlijk vergeten in te stellen...

Door Tweakers user swtimmer, woensdag 1 juli 2009 16:51

@-Niels-
Google indexeert ook nog eens de reacties. Dus als ik hier getweakt neer zet word deze pagina (waarschijnlijk) ook gevonden terwijl het niet in het blog zelf voorkomt. Het is maar wat je wil....

Door Tweakers user Punkie, woensdag 1 juli 2009 17:10

Vermits de auteur zelf vaak nog verduidelijking geeft in reacties is het indexeren van reacties een goede toevoeging.


Door Tweakers user dcm360, woensdag 1 juli 2009 17:20

@Punkie: Zal ik samen met het indexeren van de gehele tekst eens naar kijken.

@Dima: moet je eens raden met welke zoekopdracht ik mn 'Zoek verder' link getest heb ;)

Door Tweakers user pkwarts, woensdag 1 juli 2009 20:02

Zou je aub ook de color willen instellen van je input objecten in de CSS? Als je wil kan je mijn blog erover opzoeken met je zoekmachine ;)

Door Tweakers user dcm360, woensdag 1 juli 2009 20:40

Hoewel ik eigenlijk vind dat het jouw probleem is zal ik er eens naar kijken. Net als alle andere kleinere suggesties denk ik dat dat morgenochtend of middag wel lukt, alles met wat grotere impact komt volgende week op zn vroegst pas (nog redelijk wat schoolwerk nml).

Door Tweakers user siepeltjuh, woensdag 1 juli 2009 23:02

Ongelooflij dat t.net zelf nog steeds geen fatsoenlijke search aanbied voor de blogs. Dit is al door velen als request aangedragen en wat nu precies tegen een zoekmachien is weet ik ook niet.
De kennis en code voor een goede zoekmachien is immers al aanwezig op het forum. Met minimale aanpassingen moet dat toch ook wel aan de praat te krijgen zijn op tweakblogs.

Door Tweakers user dcm360, woensdag 1 juli 2009 23:30

Er is niets tegen, er is geen tijd. Je merkt misschien bij mij ook al wel dat voordat sommige dingen die klein lijken, er dagen overheen gaan voordat het werkt. Ik gok dat ik er ondertussen al een volle werkweek aan tijd in heb zitten (ik ben in de eerste week van Juni hieraan begonnen). En ik kan me zo wel voorstellen dat ze bij tweakers ook wel zaken hebben die belangrijker zijn dan een zoekfunctie voor tweakblogs. Wat het voor mij natuurlijk een leuk hobbyprojectje maakt waar ik weer genoeg van leer :)

Door Tweakers user Erkens, donderdag 2 juli 2009 08:40

@siepeltjuh: tijd is gewoon het probleem. Er zijn zoveel dingen die de devvers nog willen en moeten maken. En als je dan bedenkt dat ze zelfs het contract van een devver niet mochten verlengen dan kan je wel begrijpen dat er nog minder tijd over blijft voor dit soort leuke features :)

Door Tweakers user jpm.lensen, zondag 5 juli 2009 15:32

net even getest, werkt prima, ik wist dat er iemand het steeds over apple had, en deze weer gevonden. eerder ook al geprobeerd, maar toen lukte het nog niet.

bedankt!

waarom doet t.net dit zelf overigens niet?

Door Tweakers user dcm360, zondag 5 juli 2009 15:40

En jij natuurlijk bedankt voor het gebruiken van mn zoekmachine :)

(enne, hierboven in de reacties staat al waarom t.net nog geen zoekfunctie voor de blogs heeft)

Reageren is niet meer mogelijk