Score voor blogs en wat stats

Door dcm360 op woensdag 5 augustus 2009 18:08 - Reacties (6)
Categorie: Tweakblogs, Views: 2.124

Het is een tijdje stilgebleven rond mijn zoekmachine, maar achter de schermen zijn mijn scripts druk bezig geweest met een zo uitgebreid mogelijke index van alle tweakblogs te maken. Ondertussen is 95% van alle blogs geheel doorzoekbaar, en naar verwachting zijn overmorgen alle blogs op de meest recente na geÔndexeerd. Voor degegen die statistieken leuk vinden: dat zijn 1948 posts van 263 gebruikers :)

Maar nu zit ik nog wel met een klein probleempje, en dat is namelijk de volgorde van de resultaten. De soorteermethode die ik nu gebruik, sorteren op datum, werkt wel en zal ook wel voldoen, maar eigenlijk wil ik de mensen die veel moeite in hun blog stoppen veel liever op de eerste plaats zetten dan degene die toevallig als laatst was. Kortom, ik ga een poging doen om een post een score te geven...

En dan nu het allerleukste: degene die de score bepaalt ben jij! Huh, watte, moet ik nu iedere blog een score gaan geven? Nou nee, dat ook weer niet ;) Je kan me echter goed helpen door suggesties te geven hoe ik de formule in elkaar moet zetten, namelijk door aan te geven wat jij belangrijk vind aan een blog (helaas wel met als beperking dat een script het moet kunnen berekenen).

Als laatste moet in er wel even bij zeggen dat ik uiteindelijk bepaal hoe de formule er uit komt te zien, maar ik wel bereid ben om mijn mening niet geheel als uitgangspunt te nemen als jullie geheel anders denken.

Oja, vegeet ik het nog bijna, ik heb al een (voolopige) formule in elkaar geprutst. Hieronder staan er een paar grafiekjes van, maar houdt er rekening mee dat de gegevens slechts een steekproef zijn van 600 posts en de formule nog niet vast ligt!

De 10 posts met de minst hoge score
Resultaten posts oplopend

De 10 gebruikers met het laagste gemiddelde
Resulaten gebruikers oplopend

De 10 posts met de hoogste score
Resultaten posts aflopend
De score van de post van Sander is eigenlijk een klein foutje in mn formule, maar ik heb er even een deling (van meer dan 1.5) op toegepast om de rest nog ten opzichte van elkaar te kunnen vergelijken.

De 10 gebruikers het hoogste gemiddelde
Resultaten gebruikers aflopend
Nogmaals: het blijft onder voorbehoud.

En nu tijd om wat te eten :)

Laatste keer

Door dcm360 op zaterdag 18 juli 2009 11:52 - Reacties (16)
CategorieŽn: Diversen, School, Views: 2.663

Jaja, sinds eergisteren klokslag 12 uur zat mn schooljaar er al weer op. Dus eergisteren was:
- De laatste keer naar school fietsen
- De laatste keer onderweg naar school de brug tegenhebben
- De eerste keer dat ik onderweg naar school Carine tegenkwam
- en dus ook voor de eerste keer geen 10 seconden maar minuten speling had
- De laatste keer omrijden vanwege opengebroken wegen
- De eerste keer een herkansing maken
- De eertse keer een taak ophalen
- De laatste boeken nog inleveren
- De laatste dag waarbij ik nog bij Thijs in de klas zat
- De laatste dag van mn 6e schooljaar op deze school (en nu ga ik pas naar de 6e)
- De laatste keer met Carine richting huis fietsen
- De laatste keer mn schoolspullen uit mn fietstas halen
- De laatste keer alles terugleggen op mn plank...?

Ehm, nee. Die laatste niet, want mn plank is pasgeleden naar beneden gevallen, precies op mn laptop... Gelukkig heeft alles op en onder mn plank het overleefd, op 2 cd hoesjes na dan, en dat brengt me nu bij mn plannnen voor de vakantie:
- Kamer opnieuw behangen
- Kamer opruimen
- Nieuwe plank ophangen
- Lekker uitrusten
- Dagje pretpark
- Boeken lezen
- ActionScript 3.0 leren (schuif ik telkens vooruit, maar AS2.0 wordt wat beperkt)
- Veel op Tweakers rondhangen

Dus een prettige vakantie allemaal, en geniet van het prachtige weer :) (ehmmm, even niet naar buiten kijken ;) )

Blijven verbeteren

Door dcm360 op dinsdag 7 juli 2009 21:45 - Reacties (10)
Categorie: Tweakblogs, Views: 2.138

De vorige update van mn zoekmachine is al weer een tijdje geleden (vergeleken met de tijd tussen de vorige updates), maar in de tussentijd heb ik niet stilgezeten. Naast het vele schoolwerk dat nog even aan het einde van het schooljaar langskomt heb ik toch nog wat tijd gevonden het een en ander te verbeteren :)

Weergave resultaten
Sommigen hebben het misschien al gezien omdat dit er al bijna een week in zit, maar toch zet ik het er even bij ;) Sinds vorige week staat er bovenaan de pagina met resultaten hoeveel resultaten er in totaal zijn, en onderaan kan je nu zowel naar de volgende als vorige pagina bladeren, of je kan klikken op de paginanummers die daar staan.

Uitzonderigen
Wat al enkele keren terugkwam was dat enkele woorden waar graag op gezocht werd te kort waren. Ik heb nu een uitzonderingenlijst ingebouwd waar ik heel erg belangrijke woorden kan toevoegen waar wel op gezocht kan worden. Dus, als je zoekt op een belangrijk woord en krijg je de melding dat dat woord te kort is, meld het even ;)

Een nieuwe spider
Met alleen de RSS feed ophalen liep ik nogal tegen wat beperkingen aan, dus het werd tijd om daar omheen te werken en wel met een nieuwe spider. Deze keer met volle moed aan de slag gegaan in PHP, met als resultaat dat de code verdacht veel op mn originele Delphi code lijkt :P
Maargoed, dat is allemaal niet voor niets want er zijn natuurlijk wel nieuwe functies bijgekomen:

Volledige inhoud van blogs
In de RSS-feed staat de inhoud van een blogpost tot de more-tag, maar nu pluk ik de volledige tekst uit de HTML-pagina. Hiermee wordt de kans dat een blogpost gevonden wordt natuurlijk groter :)

CategorieŽn
Toen ik toch bezig was, meteen maar lekker doorgegaan: het is vanaf vanavond ook mogelijk om op catergorie te zoeken. Dit kan door te klikken op 'Uitgebreid zoeken' en daar het veld categorie te gebruiken. Echt bruikbaar is het nog niet (zie ook uitleg verderop), maar er is een begin.

Reacties
Een suggestie die ook al eens voorbij kwam was of het misschien mogelijk gemaakt kon worden om in reacties te zoeken. Net als bij de categorieŽn is hier nog veel aan te verbeteren, maar ook hier is het begin er.

Aantal keer bekeken
Het aantal views van een blog wordt nu ook geÔndexeerd, alleen je hebt er nog niets aan :P Voor toekomstig gebruik dus ;)

Vertraging
Heej, wat is dit nu? Gaan we de NS achterna? Mwa, het ligt eraan hoe je het bekijkt :) Zoals ik hierboven als schreef is er nog veel te verbeteren aan de reacties en de categorieŽn, en dit zal grotendeels langzaamaan gebeuren. Met iedere 'standaard' update pakt het script vanaf nu ook enkele oude blogposts en vult daarvan aan wat ik nog niet had.

Een samenvatting:
Nieuw/verbeterd
- Verbeterde weergave resultaten
- De gehele tekst is nu doorzoekbaar,
- eveneens als de reacties
- en de categorieŽn
- Uitzonderigen van bepaalde woorden

Bekende foutjes
- De reacties en categorieŽn zijn bij lange na niet allemaal geÔndexeerd
- Kleuren invoervelden
- Kleine foutjes in de layout

En het resultaat :)

Zoals gewoonlijk, veel plezier en aarzel niet om te reageren ;)

De webspider & het resultaat

Door dcm360 op woensdag 1 juli 2009 15:19 - Reacties (20)
Categorie: Tweakblogs, Views: 2.711

Zo, vanochtend was het zo ver. Toen ik om 10 uur aan mn bureau ging zitten en mn ontbijt op had, kon ik de laatste puntjes op de i zetten.

En dan, 10 over half elf, waren alle bugs die ik tot nu toe had ontdekt eruit. Vol verwachting start ik mn batch script en kijk toe. De lijst met adressen wordt gemaakt, gesorteerd en gevalideerd. En nu start de echte spider met het zware werk: het indexeren van alle tweakblogs :)

Kwart voor elf. De spider stopt: ongeldige datum gevonden. :( Ik vloek in stilte en bekijk de bestanden die tot dan toe zijn aangemaakt. Vervolgens krijg ik bijna een lachbui :D Ik was helemaal vergeten dat enkele mensen hun tweakblog in het Engels hebben! Dus ik duik mn code in en 10 minuutjes later is mn code ook geschikt voor de Engelse blogs.

Poging twee. Ik zet de spider weer aan het werk, en gaat succesvol langs de eerste blog die in het Engels is. Dat moet gevierd worden, en wel met een bak koffie :)

5 minuten later. Ik kom terug met mijn bak koffie en krijg net geen hartstilstand. Het venster met daarin de spider is verdwenen. Het logboek is leeg, en het logboek van Windows kan me ook niet verder helpen. Er zit niets anders op dan weer de code in te duiken, en na een slok iets te hete koffie doe ik dat dan ook.

Poging 3. Er zit ondertussen zoveel code in om fouten te ondervangen dat de spider bijna een crash van Windows zou kunnen overleven. Ik open mn batch-script weer en blijf toekijken.

Na 10 minuten wordt het wat saai, dus ga ik ondertussen maar even een ventilator opzoeken, en als ik weer teug kom loopt alles nog perfect door. Lekker internetten tot de lunch :D

Na mn luch kom ik weer binnenlopen, en ik zie net de laatse regel op mn scherm verschijnen: indexeren voltooid :D Dus ik begin met het klaarzetten van de bestanden zodat ik alles naar de productieserver kan zetten.

De samenvatting: de spider heeft haar werk goed gedaan, en mn zoekmachine heeft ineens een veel grotere index. Bekijk hier het resultaat :)

Veranderingen tov de vorige versie:
- Index bevat nu alle blogs tot nu toe, op 1 na (en ik weet niet welke)
- De zoekresultaten worden nu per 10 getoond (voor de overzichtelijkheid en ook voor de serverbelasting)

Wat er nog beter kan/moet
- Terugbladeren in de zoekresultaten: nu kan je alleen naar een volgende pagina en niet naar een vorige pagina met resultaten.
- Kleine foutjes in de layout

Vragen en opmerkingen zijn natuurlijk hartstikke welkom :)

Vragen, spinnen en zoeken

Door dcm360 op maandag 29 juni 2009 13:37 - Reacties (10)
Categorie: Tweakblogs, Views: 2.515

In mn vorige blogpost introduceerde ik mn zoekmachine voor Tweakblogs, en sindsdien heb ik niet stil gezeten :)

Een groot nadeel waar ik nu mee zit is dat mn index pas vanaf 8 juni is, dus veel posts zijn niet zichtbaar in mn zoekmachine. Nu wil ik wel graag de rest ook toevoegen, maar daarvoor heb ik een klein beetje hulp nodig.

Ik heb nu namelijk een spider geschreven die losse tweakblogs kan indexeren, zolang ik het adres al heb (bv http://dcm360.tweakblogs.net). En daar ligt een beetje het probleem. Ik heb nu een lijst van alle tweakblogs waarin berichten geplaatst zijn sinds 1 april (geen grapje, ech waar ;) ), en verder terug dus niet. Dit betekent dat alle blogs die sinds 1 april geen nieuwe posts gehad hebben niet gevonden zullen worden.

Momenteel heb ik deze lijst aan adressen. (op iedere regel een mogelijkheid voor http://*.tweakblogs.net). Mijn vraag is dus of er adressen ontbreken, of misschien weet iemand zelfs een volledige lijst. Daarbij mag je ook bezwaar geven als je niet in de index wil ;) Maar mis je jouw blog, of een blog die je je weet te herinneren, meldt het hieronder en dan vul ik de lijst aan :)

Overgens, ik ben van plan om pas woensdag mn index bij te werken met de spider, daarvoor heb ik geen tijd, en zo is er ook genoeg tijd voor enkele suggesties.

En nu weer even terug naar school voor een repetitie Wiskunde D :(