SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
WEB y TEXT MINING
Link AnalysisJuan Azcurra
Introducción
 Al comienzo los motores de búsquedas comparaban
la similaridad de contenido una consulta y las páginas
indexadas.
 Utilizando métodos de information retrieval coseno, TF-IDF, ...
 A partir de 1996, se hizo evidente que la similaridad de
contenido no era suficiente.
 El número de páginas creció rapidamente a mediados de los
90.
 Intentaron “técnicas de clasificación”, Google estimó 10 millones
de páginas relevantes.
 Cómo seleccionar solo 30-40 páginas y clasificarlas
adecuadamente para presentarlas a los usuarios?
 Similaridad de contenido es fácil de spam
 El dueño de una página se puede repetir unas palabras y
agregar muchas palabras relacionadas para impulsar el
ranking de sus páginas y/o para hacer las páginas relevantes
para un gran número de consultas.
2
Introducción
 A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
 En 1997 Robin Li registró una patente de búsqueda
basada en hyperlinks. El método usa las palabras en
el texto del hyperlink.
 Las páginas web son conectadas a través de
hyperlinks, que contienen información importante:
 Algunos hyperlinks: organizan información al mismo sitio.
 Otros hyperlinks: apuntan a páginas de otros Web sites. Estos
hyperlinks salientes a menudo indican una transmisión implicita
de autoridad a las páginas que apuntan.
 Aquellas páginas que son apuntadas por muchas otras
páginas pueden contener información fidedigna
(autoridad).
3
Introducción
 Durante 1997-1998 aparecieron dos de los más
influyentes algoritmos de búsqueda basados en
hyperlinks: PageRank y HITS.
 Ambos algoritmos se relacionan con redes
sociales, explotan los hipervínculos de la Web
para clasificar las páginas en función de sus
niveles de prestigio o autoridad.
 HITS: Jon Kleinberg (Cornel University), en el
Simposio sobre algoritmos discretos, enero de 1998.
 PageRank: Sergey Brin y Larry Page, (Stanford
University), (WWW7), abril de 1998. PageRank
potencia el motor de búsqueda de Google.
4
Introducción
 Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
 Una comunidad Web es un conjunto de páginas
densamente unidas representando un grupo de
personas con un interés en común.
 Más allá de hyperlinks explícitos en la Web, links en
otros contextos son útiles también.
 para descubrir comunidades de entidades (personas u
organizaciones) en textos libres de documentos, etc.
 para analizar fenómenos sociales en mais.
5
Análisis de redes sociales
 Redes sociales es el estudio de entidades sociales
(personas en una organización, llamados actores) y sus
interacciones y relaciones.
 Las interacciones y relaciones pueden ser
representadas con una red o grafo,
 cada vértice (o nodo) representa un actor
 cada link representa una relación.
 Desde la red, podemos estudiar las propiedades
de su estructura, y el rol, posición y prestigio de
cada actor social.
 Podemos también encontrar varios tipos de sub-
grafos, comunidades formadas por grupos de
actores.
6
Redes sociales y la Web
 Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
virtual,
 cada página: un actor social,
 cada hyperlink: una relación.
 Muchos resultados de redes sociales pueden ser
adaptados y extendidos para usar en el contexto
de la Web.
 Estudiaremos 2 tipos de análisis de redes
sociales, centralidad y prestigio, que están
relacionadas a análisis de hyperlink y búsqueda
en la Web.
7
Centralidad
 Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
 Una persona con amplios contactos (links) o
comunicaciones con muchas otras personas
en la organización es considerado más
importante que una persona con menos
contactos.
 Los links también pueden ser llamados lazos.
Un actor central es uno que participa en
muchos lazos.
8
Grado de centralidad
9
Prestigio
 El prestigio es una medida más precisa de un
actor que la centralidad.
 Distinguir: lazo enviado (link saliente) y lazo recibido (link
entrante)
 Un actor de prestigio es aquel con altos vinculos
entrantes.
 Para calcular el prestigio: solamente utilizamos links
entrantes.
 Diferencia entre centralidad y prestigio:
 Centralidad se basa en los links salientes.
 Prestigio se basa en los links entrantes.
 Medidas de prestigio. Rank prestige constituye la base
de la mayoría de los algoritmos de Web page link
analysis, incluyendo PageRank y HITS.
10
Grado de prestigio
11
PageRank
 El año 1998 fue un año agitado para el
modelo de análisis de enlaces Web. Los
algoritmos PageRank y HITS fueron
publicados en ese año.
 Las conexiones entre PageRank y HITS son
bastantes sorprendentes.
 Desde ese momento, PageRank se ha
convertido en el modelo de análisis de link
domintante:
 debido a la independencia de las consultas,
 su habilidad para combatir el spamming,
 gran suceso del negocio de Google.
12
PageRank: definición general
 PageRank confia en la naturaleza democrática de
la web usando su basta estructura de links
como un indicador de valor de calidad de cada
página individual.
 PageRank interpreta un hyperlink de una página x a
una página y como un voto, de la página x para la
página y.
 Sin embargo, PageRank mira más que el número
total de votos, también analiza la página que emite
el voto.
 Votos emitidos por páginas “importantes” pesan más y
ayudan a hacer “más importantes” otras páginas.
 Esto es exactamente la idea de ranking de
prestigio en una red social.
13
PageRank: más
especificamente
 Un hyperlink de una página a otra es un medio
implícito de autoridad a la página de destino.
 Cuánto más links-entrantes una página i recibe,
más prestigio la página i tiene.
 Las páginas que apuntan a la página i también
tienen su nivel de prestigio.
 Una página de alto prestigio apuntando a i es más
importante que una página de menor prestigio
apuntando a i.
 En otras palabras, una página es más importante si
es apuntanda por otras páginas importantes.
14
PageRank: Algoritmo
 De acuerdo al ranking de prestigio, la
importante de una página i (valor PageRank
de i) es la suma de valores de PageRank de
todas las páginas que apuntan a i.
 Desde que una página puede apuntar a
muchas otras, su valor de prestigio debe ser
compartido.
 La Web como un grafo dirigido G = (V, E).
Donde el número de páginas es n. El valor
de PageRank de una página i (denotada
P(i)) es definida como:,
)(
)(
),(


Eij jO
jP
iP Oj is the number
of out-link of j
15
PageRank: Ejemplo
 Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
 Si B, C y D apuntan a A, entonces el PR de A
será de 0.75
 Suponiendo que B tiene links a C y A y D tiene
links a las 3, entonces en la siguiente iteración B
le transferirá la mitad de su valor a A y D a las 3,
mientras que C no tiene links salientes.
 En otras palabras, el PR conferido por un link
saliente es igual al score de PR divido la cantidad
de links salientes.
 Obteniendo la formula general:
16
PageRank: Ejemplo
Matematicamente PageRanks para
una red simple, expresado como
porcentajes (Google usa una escala
logaritmica). C tiene el más alto
PageRank más que E, a pesar que hay
menos enlances a C, el link a C viene
de una página de mayor importancia y
por lo tanto es de gran valor. Si los
navegantes comenzaran por una
página al azar tendría 85% de
probabilidad de elegir un link al azar a
partir de la página que están visitando y
un 15% de probabilidad de saltar a una
página elegida al azar de la web, ellos
llegarían a la página E el 8,1% de las
veces (el 15% de probabilidad de saltar
a una página arbitraria corresponde al
factor de damping de 85%).
17
PageRank: Ventajas
 Lucha contra el spam. Una página es importante
si las páginas que apuntan a ella también lo son.
 Dado que no es fácil para el dueño de una página
Web agregar enlaces en página desde otras
páginas importantes, no es por lo tanto fácil de
influenciar PageRank.
 PageRank es una medida global independiente
de las consultas.
 Los valores de PageRank para todas las páginas son
calculadas y guardas en forma off-line más que en tiempo
de la consulta.
18
HITS
 HITS proviene de Hypertext Induced Topic
Search.
 A diferencia de PageRank que es un algoritmo
de ranking estático, HITS es dependiente a la
consulta de búsqueda.
 Cuando un usuario envia una consulta de
búsqueda,
 HITS primero expande la lista de páginas
relevantes devueltas por el motor de búsqueda, y
 produce 2 rankings del conjunto de páginas
expandidas, ranking de autoridad y ranking
19
Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
 La idea es que la página tenga un buen
contenido o autoridad sobre un tema,
 así que mucha gente confía en ella y enlazar con
ella.
Hub: Un hub es una página con muchos links
salientes.
 La página sirve como un organizador de la
información de un tema en particular y
 apunta a muchas páginas de autoridad sobre el
20
Ejemplos
21
Ideas claves de HITS
22
 Un hub bueno apunta a muchas
autoridades buenas, y
 Una autoridad buena es apuntada por
muchos hubs buenos.
 Autoridades y hubs tienen una
relación de refuerzo mutuo
HITS: Algoritmo
23
 Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
 Envia la consulta q al motor de búsqueda.
 Se recoge entonces t (t = 200 es usando en el
paper de HITS) el valor más alto de páginas
rankeadas. Esto es llamada el conjunto raiz W.
 Crece W incluyendo cualquier página que apunte
a una en W y cualquiera apuntada por W. Esto da
lugar al conjunto S, conjunto base.
Grafo G
24
 HITS trabaja en las páginas en S y asigna
a cada página S un score de autoridad y
un score de hub.
 Sea n el número de páginas en S.
 Nuevamente se usa G = (V, E) para
denotar el grafo de hyperlinks de S
 Usamos L para denotar la matriz de
adyacencia del grafo.


 

otherwise
Ejiif
Lij
0
),(1
HITS: Algoritmo
25
 Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
 La relación de refuerzo mutual de los dos
scores están representado por:


Eij
jhia
),(
)()(


Eji
jaih
),(
)()(
Ventajas y desventas de HITS
26
 Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser capaz de
proveer autoridades y hubs más relevantes.
 Desventajas:
 Spam. De hecho es facil de influenciar HITS desde afuera
añadiendo enlaces de la propia página.
 Derivación de temas. Muchas páginas en el conjunto
expandido no pueden ser del mismo tema.
 Tiempo de respuesta ineficiente. El tiempo de evaluación
de la consulta es bajo. Recolectar el conjunto raiz,
expandirlo y calcular el autovector de todas las
operaciones es expansiva.

Mais conteúdo relacionado

Mais procurados

Metodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshitoMetodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshitoPaulandrea19
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking webbloxxx
 
Cómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshareCómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshareA Patricia Quiñones
 
Posicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la NubePosicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la NubeHersson Escobar
 
Redes sociales
Redes socialesRedes sociales
Redes socialesykena
 
Carlosguerra2 a3
Carlosguerra2 a3Carlosguerra2 a3
Carlosguerra2 a3DJCWAR
 
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...Veronica Lizbeth
 
Estrategias para buscar información en internet
Estrategias para buscar información en internet Estrategias para buscar información en internet
Estrategias para buscar información en internet malelujan22
 
Sesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetSesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetWilly Figueroa
 
Operadores y Criterios de Búsqueda
Operadores y Criterios de BúsquedaOperadores y Criterios de Búsqueda
Operadores y Criterios de Búsquedabrendsruiz
 
Motor de busqueda Yahoo.
Motor de busqueda Yahoo.Motor de busqueda Yahoo.
Motor de busqueda Yahoo.Catalina Rincon
 
2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.Leonel Soto Alemán
 
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...Evelyn Garza
 
Curso SEO para ISCIII
Curso SEO para ISCIIICurso SEO para ISCIII
Curso SEO para ISCIIIMASmedios com
 
SEO - Search Engine Optimization por Yamil Lambert
SEO - Search Engine Optimization  por Yamil LambertSEO - Search Engine Optimization  por Yamil Lambert
SEO - Search Engine Optimization por Yamil LambertYamil Lambert
 
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocioRedes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocioAlbert Martínez
 

Mais procurados (19)

Seo & PageRank (Marvin Calderón-3A6-UG)
Seo & PageRank (Marvin Calderón-3A6-UG)Seo & PageRank (Marvin Calderón-3A6-UG)
Seo & PageRank (Marvin Calderón-3A6-UG)
 
Metodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshitoMetodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshito
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking web
 
Cómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshareCómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshare
 
Posicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la NubePosicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la Nube
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Carlosguerra2 a3
Carlosguerra2 a3Carlosguerra2 a3
Carlosguerra2 a3
 
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
 
Estrategias para buscar información en internet
Estrategias para buscar información en internet Estrategias para buscar información en internet
Estrategias para buscar información en internet
 
Sesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetSesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internet
 
Busquedas en internet
Busquedas en internet Busquedas en internet
Busquedas en internet
 
Operadores y Criterios de Búsqueda
Operadores y Criterios de BúsquedaOperadores y Criterios de Búsqueda
Operadores y Criterios de Búsqueda
 
Motor de busqueda Yahoo.
Motor de busqueda Yahoo.Motor de busqueda Yahoo.
Motor de busqueda Yahoo.
 
2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.
 
Informatica
InformaticaInformatica
Informatica
 
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
 
Curso SEO para ISCIII
Curso SEO para ISCIIICurso SEO para ISCIII
Curso SEO para ISCIII
 
SEO - Search Engine Optimization por Yamil Lambert
SEO - Search Engine Optimization  por Yamil LambertSEO - Search Engine Optimization  por Yamil Lambert
SEO - Search Engine Optimization por Yamil Lambert
 
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocioRedes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
 

Destaque

Destaque (19)

Presentación1
Presentación1Presentación1
Presentación1
 
Danska 1
Danska 1Danska 1
Danska 1
 
Adicción al internet
Adicción al internetAdicción al internet
Adicción al internet
 
Tpu 2011
Tpu 2011Tpu 2011
Tpu 2011
 
Magicnature
MagicnatureMagicnature
Magicnature
 
EMC Presentation
EMC PresentationEMC Presentation
EMC Presentation
 
Presentación (irene)
Presentación (irene)Presentación (irene)
Presentación (irene)
 
Cimentacion
CimentacionCimentacion
Cimentacion
 
Calidad En Servicios De Salud
Calidad En Servicios De SaludCalidad En Servicios De Salud
Calidad En Servicios De Salud
 
Simplifying the Complex: Serving Data from Pipeline Data Models
Simplifying the Complex: Serving Data from Pipeline Data ModelsSimplifying the Complex: Serving Data from Pipeline Data Models
Simplifying the Complex: Serving Data from Pipeline Data Models
 
Semana del Cerebro en Asturias
Semana del Cerebro en AsturiasSemana del Cerebro en Asturias
Semana del Cerebro en Asturias
 
Vidrio2
Vidrio2Vidrio2
Vidrio2
 
CITd
CITdCITd
CITd
 
Mind map title sequnace ideas
Mind map title sequnace ideasMind map title sequnace ideas
Mind map title sequnace ideas
 
Fotos capacitacion docentes
Fotos capacitacion docentesFotos capacitacion docentes
Fotos capacitacion docentes
 
Chapter 1
Chapter 1Chapter 1
Chapter 1
 
20 Meses de Reformas pelo PSD
20 Meses de Reformas pelo PSD20 Meses de Reformas pelo PSD
20 Meses de Reformas pelo PSD
 
GHGHGH
GHGHGHGHGHGH
GHGHGH
 
Albañilería
AlbañileríaAlbañilería
Albañilería
 

Semelhante a Web Link Analysis

Linkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completoLinkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completoMiguel García Pérez
 
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz CardosoSegunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz Cardosodmdiazc
 
Seo y social media
Seo y social mediaSeo y social media
Seo y social mediagracejaz07
 
El seo después de google pinguino
El seo después de google pinguinoEl seo después de google pinguino
El seo después de google pinguinoFranco Arrigoni
 
Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadoresaltanet
 
Tu Popularidad En Internet
Tu Popularidad En InternetTu Popularidad En Internet
Tu Popularidad En Internetsuperbuzoneo
 
La diferencia entre contar y trasmitir
La diferencia entre contar y trasmitirLa diferencia entre contar y trasmitir
La diferencia entre contar y trasmitiragabarre
 
Optimización onpage y offpage
Optimización onpage y offpageOptimización onpage y offpage
Optimización onpage y offpageMASmedios com
 
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IVIV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IVInterlat
 
¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda? ¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda? JulioAlonso35
 
El Futuro Del Internet 1
El Futuro Del Internet 1El Futuro Del Internet 1
El Futuro Del Internet 1addreal
 
Averiguar el pagerank de tu dominio
Averiguar el pagerank de tu dominioAveriguar el pagerank de tu dominio
Averiguar el pagerank de tu dominioAuxi Gifmania
 
Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador
Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador
Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador ThiareNicole2
 
Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad Julio Alonso Arévalo
 
Cuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEOCuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEOAntonio Pérez
 

Semelhante a Web Link Analysis (20)

Linkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completoLinkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completo
 
2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.
 
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz CardosoSegunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
 
Seo y social media
Seo y social mediaSeo y social media
Seo y social media
 
El seo después de google pinguino
El seo después de google pinguinoEl seo después de google pinguino
El seo después de google pinguino
 
Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadores
 
Tu Popularidad En Internet
Tu Popularidad En InternetTu Popularidad En Internet
Tu Popularidad En Internet
 
La diferencia entre contar y trasmitir
La diferencia entre contar y trasmitirLa diferencia entre contar y trasmitir
La diferencia entre contar y trasmitir
 
7.6 google plus
7.6 google plus7.6 google plus
7.6 google plus
 
Optimización onpage y offpage
Optimización onpage y offpageOptimización onpage y offpage
Optimización onpage y offpage
 
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IVIV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
 
¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda? ¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda?
 
El Futuro Del Internet 1
El Futuro Del Internet 1El Futuro Del Internet 1
El Futuro Del Internet 1
 
SEO - SOCIAL MEDIA
SEO - SOCIAL MEDIASEO - SOCIAL MEDIA
SEO - SOCIAL MEDIA
 
¿Cómo funciona Google?
¿Cómo funciona Google?¿Cómo funciona Google?
¿Cómo funciona Google?
 
Page rank medios
Page rank mediosPage rank medios
Page rank medios
 
Averiguar el pagerank de tu dominio
Averiguar el pagerank de tu dominioAveriguar el pagerank de tu dominio
Averiguar el pagerank de tu dominio
 
Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador
Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador
Todo Acerca de los Backlinks de Calidad - Agencias de SEO en Villa el Salvador
 
Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad
 
Cuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEOCuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEO
 

Mais de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Mais de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfOBr.global
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidaddanik1023m
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2montoyagabriela340
 
Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfangelinebocanegra1
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxPaolaCarolinaCarvaja
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfodalistar77
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETGermán Küber
 
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfymiranda2
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...RaymondCode
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.marianarodriguezc797
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfcastrodanna185
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfJoseAlejandroPerezBa
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx Emialexsolar
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosLCristinaForchue
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....Aaron Betancourt
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...OLGAMILENAMONTAEZNIO
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSLincangoKevin
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfalejandrogomezescoto
 

Último (20)

Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidad
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2
 
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura SilvaBEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
 
Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdf
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docx
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdf
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
 
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdf
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx E
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
 
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier FolchBEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
 

Web Link Analysis

  • 1. WEB y TEXT MINING Link AnalysisJuan Azcurra
  • 2. Introducción  Al comienzo los motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas.  Utilizando métodos de information retrieval coseno, TF-IDF, ...  A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente.  El número de páginas creció rapidamente a mediados de los 90.  Intentaron “técnicas de clasificación”, Google estimó 10 millones de páginas relevantes.  Cómo seleccionar solo 30-40 páginas y clasificarlas adecuadamente para presentarlas a los usuarios?  Similaridad de contenido es fácil de spam  El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas. 2
  • 3. Introducción  A comienzo de 1996 los investigadores comenzaron a trabajar e el problema, recurriendo a hyperlinks.  En 1997 Robin Li registró una patente de búsqueda basada en hyperlinks. El método usa las palabras en el texto del hyperlink.  Las páginas web son conectadas a través de hyperlinks, que contienen información importante:  Algunos hyperlinks: organizan información al mismo sitio.  Otros hyperlinks: apuntan a páginas de otros Web sites. Estos hyperlinks salientes a menudo indican una transmisión implicita de autoridad a las páginas que apuntan.  Aquellas páginas que son apuntadas por muchas otras páginas pueden contener información fidedigna (autoridad). 3
  • 4. Introducción  Durante 1997-1998 aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.  Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad.  HITS: Jon Kleinberg (Cornel University), en el Simposio sobre algoritmos discretos, enero de 1998.  PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google. 4
  • 5. Introducción  Además del ranking de búsquedas, los hyperlinks son útiles encontrando comunidades Web.  Una comunidad Web es un conjunto de páginas densamente unidas representando un grupo de personas con un interés en común.  Más allá de hyperlinks explícitos en la Web, links en otros contextos son útiles también.  para descubrir comunidades de entidades (personas u organizaciones) en textos libres de documentos, etc.  para analizar fenómenos sociales en mais. 5
  • 6. Análisis de redes sociales  Redes sociales es el estudio de entidades sociales (personas en una organización, llamados actores) y sus interacciones y relaciones.  Las interacciones y relaciones pueden ser representadas con una red o grafo,  cada vértice (o nodo) representa un actor  cada link representa una relación.  Desde la red, podemos estudiar las propiedades de su estructura, y el rol, posición y prestigio de cada actor social.  Podemos también encontrar varios tipos de sub- grafos, comunidades formadas por grupos de actores. 6
  • 7. Redes sociales y la Web  Análisis de redes sociales es muy útil para la Web porque la Web es esencialmente una sociedad virtual,  cada página: un actor social,  cada hyperlink: una relación.  Muchos resultados de redes sociales pueden ser adaptados y extendidos para usar en el contexto de la Web.  Estudiaremos 2 tipos de análisis de redes sociales, centralidad y prestigio, que están relacionadas a análisis de hyperlink y búsqueda en la Web. 7
  • 8. Centralidad  Actores importantes o prominentes son aquellos que están involucrados con otros actores ampliamente.  Una persona con amplios contactos (links) o comunicaciones con muchas otras personas en la organización es considerado más importante que una persona con menos contactos.  Los links también pueden ser llamados lazos. Un actor central es uno que participa en muchos lazos. 8
  • 10. Prestigio  El prestigio es una medida más precisa de un actor que la centralidad.  Distinguir: lazo enviado (link saliente) y lazo recibido (link entrante)  Un actor de prestigio es aquel con altos vinculos entrantes.  Para calcular el prestigio: solamente utilizamos links entrantes.  Diferencia entre centralidad y prestigio:  Centralidad se basa en los links salientes.  Prestigio se basa en los links entrantes.  Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS. 10
  • 12. PageRank  El año 1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueron publicados en ese año.  Las conexiones entre PageRank y HITS son bastantes sorprendentes.  Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:  debido a la independencia de las consultas,  su habilidad para combatir el spamming,  gran suceso del negocio de Google. 12
  • 13. PageRank: definición general  PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cada página individual.  PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.  Sin embargo, PageRank mira más que el número total de votos, también analiza la página que emite el voto.  Votos emitidos por páginas “importantes” pesan más y ayudan a hacer “más importantes” otras páginas.  Esto es exactamente la idea de ranking de prestigio en una red social. 13
  • 14. PageRank: más especificamente  Un hyperlink de una página a otra es un medio implícito de autoridad a la página de destino.  Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.  Las páginas que apuntan a la página i también tienen su nivel de prestigio.  Una página de alto prestigio apuntando a i es más importante que una página de menor prestigio apuntando a i.  En otras palabras, una página es más importante si es apuntanda por otras páginas importantes. 14
  • 15. PageRank: Algoritmo  De acuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.  Desde que una página puede apuntar a muchas otras, su valor de prestigio debe ser compartido.  La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotada P(i)) es definida como:, )( )( ),(   Eij jO jP iP Oj is the number of out-link of j 15
  • 16. PageRank: Ejemplo  Asumiendo 4 páginas (A, B, C, D) con un PageRank inicial de 0.25  Si B, C y D apuntan a A, entonces el PR de A será de 0.75  Suponiendo que B tiene links a C y A y D tiene links a las 3, entonces en la siguiente iteración B le transferirá la mitad de su valor a A y D a las 3, mientras que C no tiene links salientes.  En otras palabras, el PR conferido por un link saliente es igual al score de PR divido la cantidad de links salientes.  Obteniendo la formula general: 16
  • 17. PageRank: Ejemplo Matematicamente PageRanks para una red simple, expresado como porcentajes (Google usa una escala logaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C viene de una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por una página al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a una página elegida al azar de la web, ellos llegarían a la página E el 8,1% de las veces (el 15% de probabilidad de saltar a una página arbitraria corresponde al factor de damping de 85%). 17
  • 18. PageRank: Ventajas  Lucha contra el spam. Una página es importante si las páginas que apuntan a ella también lo son.  Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.  PageRank es una medida global independiente de las consultas.  Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempo de la consulta. 18
  • 19. HITS  HITS proviene de Hypertext Induced Topic Search.  A diferencia de PageRank que es un algoritmo de ranking estático, HITS es dependiente a la consulta de búsqueda.  Cuando un usuario envia una consulta de búsqueda,  HITS primero expande la lista de páginas relevantes devueltas por el motor de búsqueda, y  produce 2 rankings del conjunto de páginas expandidas, ranking de autoridad y ranking 19
  • 20. Autoridad y Hubs Autoridad: a grandes rasgos, la autoridad es una página con muchos links entrantes.  La idea es que la página tenga un buen contenido o autoridad sobre un tema,  así que mucha gente confía en ella y enlazar con ella. Hub: Un hub es una página con muchos links salientes.  La página sirve como un organizador de la información de un tema en particular y  apunta a muchas páginas de autoridad sobre el 20
  • 22. Ideas claves de HITS 22  Un hub bueno apunta a muchas autoridades buenas, y  Una autoridad buena es apuntada por muchos hubs buenos.  Autoridades y hubs tienen una relación de refuerzo mutuo
  • 23. HITS: Algoritmo 23  Dado una consulta de búsqueda q, HITS recolecta un conjunto de páginas con los siguientes pasos:  Envia la consulta q al motor de búsqueda.  Se recoge entonces t (t = 200 es usando en el paper de HITS) el valor más alto de páginas rankeadas. Esto es llamada el conjunto raiz W.  Crece W incluyendo cualquier página que apunte a una en W y cualquiera apuntada por W. Esto da lugar al conjunto S, conjunto base.
  • 24. Grafo G 24  HITS trabaja en las páginas en S y asigna a cada página S un score de autoridad y un score de hub.  Sea n el número de páginas en S.  Nuevamente se usa G = (V, E) para denotar el grafo de hyperlinks de S  Usamos L para denotar la matriz de adyacencia del grafo.      otherwise Ejiif Lij 0 ),(1
  • 25. HITS: Algoritmo 25  Sea a(i) el score de autoridad de una página i, y h(i) el score de hub de la página i.  La relación de refuerzo mutual de los dos scores están representado por:   Eij jhia ),( )()(   Eji jaih ),( )()(
  • 26. Ventajas y desventas de HITS 26  Ventajas: su habilidad de rankear páginas de acuerdo al tema de la consulta, puede ser capaz de proveer autoridades y hubs más relevantes.  Desventajas:  Spam. De hecho es facil de influenciar HITS desde afuera añadiendo enlaces de la propia página.  Derivación de temas. Muchas páginas en el conjunto expandido no pueden ser del mismo tema.  Tiempo de respuesta ineficiente. El tiempo de evaluación de la consulta es bajo. Recolectar el conjunto raiz, expandirlo y calcular el autovector de todas las operaciones es expansiva.