Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Căutarea generală este lentă din cauza declarațiilor #24

Open
okvivi opened this issue Mar 17, 2012 · 14 comments
Open

Căutarea generală este lentă din cauza declarațiilor #24

okvivi opened this issue Mar 17, 2012 · 14 comments
Assignees
Labels

Comments

@okvivi
Copy link
Member

okvivi commented Mar 17, 2012

Formularul din header acum caută și în declarații.
Din cauza asta, căutarea a devenit vizibil cam lentă. Exemplu: http://hartapoliticii.ro/?cid=search&q=biserica

Ar trebui reparat asta.

@okvivi
Copy link
Member Author

okvivi commented Apr 3, 2012

Parțial am reparat asta prin separarea căutării în declarații, care acum se întâmplă doar dacă dai un extra click.
Mă enerva că era mult prea lentă.

@nightsh
Copy link

nightsh commented May 9, 2012

IMHO un checkbox mic lângă search input, care să (dez)activeze căutarea în declarații, ar fi mai comod.

[_____________________] [Caută]
[
] Caută și în declarații

...sau altfel, I'm no UX professional :-)

@okvivi
Copy link
Member Author

okvivi commented May 9, 2012

Cineva ar trebui să investigheze http://www.elasticsearch.org/
Pare că suportă și limba română http://www.elasticsearch.org/guide/reference/index-modules/analysis/lang-analyzer.html

Nu îmi plac soluțiile care rezolvă doar simptomele, deja avem o astfel de soluție.

@nightsh
Copy link

nightsh commented May 9, 2012

Îmi voi face timp ASAP pentru asta. Stay tuned.
M-am uitat pe elasticsearch, dar încă nu mă ajută până nu arunc o privire mai suținută în codul sursă din HP. Mea culpa, nu m-am uitat încă, de vreo 5-6 zile tot încerc să-mi fac timp pentru proiectul ăsta.
Întrebări voi avea abia după ce parcurg proiectul și ce e făcut până acum.

P.S.: Nu am încercat să ofer o soluție, ci tot un workaround, dar care scutea un refresh de pagină.

@okvivi
Copy link
Member Author

okvivi commented May 10, 2012

Foarte tare. Ce ar trebui în principal să fie indexat este ce ar fi în tabela de people_declarations.
Acolo sunt cam 300Mb de text care ar fi foarte frumos dacă ar fi căutabil.

Dacă te prinzi cum merge asta, putem să vedem de acolo cum legăm și restul de tabele care or fi importante sau nu.

@ghost ghost assigned nightsh May 10, 2012
@nightsh
Copy link

nightsh commented May 23, 2012

A lucrat cineva vreodata cu Apache Solr? Pare mai prietenos, si probabil e foarte simplu de scalat.
http://lucene.apache.org/solr/

Exista si pentru el un modul Py pentru o interactiunea cat mai simpla. N-am testat nimic inca.
python-pysolr - lightweight Python wrapper for quering Apache Solr

E singura alternativa pe care voi pune ochii. Ori asta, ori elasticsearch, timpul trece si ma pierd in detalii.

@okvivi
Copy link
Member Author

okvivi commented May 23, 2012

Cel mai important este să aibă stemmer de limba română.

2012/5/22 Victor Nitu <
[email protected]

A lucrat cineva vreodata cu Apache Solr? Pare mai prietenos, si probabil
e foarte simplu de scalat.
http://lucene.apache.org/solr/

Exista si pentru el un modul Py pentru o interactiunea cat mai simpla.
N-am testat nimic inca.
python-pysolr - lightweight Python wrapper for quering Apache Solr

E singura alternativa pe care voi pune ochii. Ori asta, ori elasticsearch,
timpul trece si ma pierd in detalii.


Reply to this email directly or view it on GitHub:

#24 (comment)

Octavian Costache
http://vivi.ro
@okvivi https://twitter.com/okvivi

@nightsh
Copy link

nightsh commented May 23, 2012

Conform ultimelor săpături, are:
http://wiki.apache.org/solr/LanguageAnalysis#Romanian

Să înțeleg că îl acceptăm ca soluție posibilă și pe Solr?

@okvivi
Copy link
Member Author

okvivi commented May 23, 2012

Mie îmi este egal, nu am nici o preferință.
Cât timp merge repede, sunt okay cu oricare dintre ele.

Nu mă îngrijorez de scalare pentru că nu cred că harta va avea problema
asta prea curând. Acum avem 300Mb de declarații, chiar dacă indexăm toate
știrile din românia, nu cred că se adaugă mai mult de câțiva GB.

Ca punct de referință, de doi ani de când urmărește știri politice, harta
cunoaște 20.000 de știri. :-)
Comparativ, cei 300Mb de declarații sunt în 300.000 de luări de cuvânt în
parlament.

Vivi.

2012/5/23 Victor Nițu <
[email protected]

Conform ultimelor săpături, are:
http://wiki.apache.org/solr/LanguageAnalysis#Romanian

Să înțeleg că îl acceptăm ca soluție posibilă și pe Solr?


Reply to this email directly or view it on GitHub:

#24 (comment)

Octavian Costache
http://vivi.ro
@okvivi https://twitter.com/okvivi

@okvivi
Copy link
Member Author

okvivi commented May 23, 2012

Încearcă să alegi pe cel care pare cel mai ușor de folosit, de configurat
și de înțeles.

2012/5/23 Octavian Costache [email protected]

Mie îmi este egal, nu am nici o preferință.
Cât timp merge repede, sunt okay cu oricare dintre ele.

Nu mă îngrijorez de scalare pentru că nu cred că harta va avea problema
asta prea curând. Acum avem 300Mb de declarații, chiar dacă indexăm toate
știrile din românia, nu cred că se adaugă mai mult de câțiva GB.

Ca punct de referință, de doi ani de când urmărește știri politice, harta
cunoaște 20.000 de știri. :-)
Comparativ, cei 300Mb de declarații sunt în 300.000 de luări de cuvânt în
parlament.

Vivi.

2012/5/23 Victor Nițu <
[email protected]

Conform ultimelor săpături, are:
http://wiki.apache.org/solr/LanguageAnalysis#Romanian

Să înțeleg că îl acceptăm ca soluție posibilă și pe Solr?


Reply to this email directly or view it on GitHub:

#24 (comment)

Octavian Costache
http://vivi.ro
@okvivi https://twitter.com/okvivi

Octavian Costache
http://vivi.ro
@okvivi https://twitter.com/okvivi

@andreisavu
Copy link

+1 pentru elasticsearch

E foarte usor de scalat daca apare aceasta problema (master-master nu doar master-slave). Are avantajul fata de Solr ca nu ii trebuie o schema si e usor sa adaug un stemer pentru romana. ES poate sa fie folosit si pentru a implementa alerte pentru anumite cuvinte cheie (http://www.elasticsearch.org/guide/reference/api/percolate.html) si "More Like This".

@andreisavu
Copy link

Indexarea se poate face fie facand push la continutul nou printr-un client fie printr-un river (http://www.elasticsearch.org/guide/reference/river/) care sa citeasca din baza de date.

@okvivi
Copy link
Member Author

okvivi commented Oct 31, 2012

Nu cred că se ocupă nimeni în acest moment de issue-ul ăsta, dacă vrei să contribui și să te joci cu chestia asta poți vorbi cu Victor să te asiguri că nu se ocupă deja și probabil că poți prelua acest task.

Să îmi spui dacă ai nevoie de mai multe date demo din baza de date și le pot extrage și pune în /db/ ca să poți testa cum trebuie.

@andreisavu
Copy link

Ok. O sa ma gândesc dacă am timp sa ma ocup de asta.
On Oct 31, 2012 6:13 PM, "Octavian Costache" [email protected]
wrote:

Nu cred că se ocupă nimeni în acest moment de issue-ul ăsta, dacă vrei să
contribui și să te joci cu chestia asta poți vorbi cu Victor să te asiguri
că nu se ocupă deja și probabil că poți prelua acest task.

Să îmi spui dacă ai nevoie de mai multe date demo din baza de date și le
pot extrage și pune în /db/ ca să poți testa cum trebuie.


Reply to this email directly or view it on GitHubhttps://issues/24#issuecomment-9953351.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants